Not only is the Internet dead, it's starting to smell really bad.:2014年02月25日分

2014/02/25(Tue)

[HP Procurve][Network] HP Procurve 1810 Switch Series は窓から投げ捨てよう(提案)

思い出したので、ちょいと HP ProLiant 製品を diss ったついでに HP Procurve 製品へのつらみを書き残しておこう。

@SIerでは、あなたの悲鳴は誰にも聞こえない

不備だらけの設定ファイルそして仕様書という名の紙屑を握り締め、尻が焼けるようなギリギリのスケジュールで作業してると
データセンターの天井から フェイスハガーが降ってくるとかラックの裏でエイリアンが強酸性の涎を垂らしているとか20世紀末FOX的な幻覚に悩まされるようになりますが
下着姿のシガニー・ウィーバーならまだしも、シガナイ・オッサンがしょっぱいスーツで床這いずり回っていた所で、チェストバスターが孵化して胸部を喰い破られても
Oh help me please doctor!にプロトポンプ阻害薬かH2ブロッカーを処方されてお大事にで終わりですがな。

そんなプロローグ。

@憂鬱な月曜日

そんな胃が痛い日々が続く中、ある法定停電明けの 、血相変えたお客様からお怒りの電話が来たわけですよ、はい。

障害はL2スイッチの死活監視エラーで、スマートハブそのものは生きてるんだけど管理用IPアドレスなんかの設定が再起動のタイミングで吹っ飛んだ模様。
幸いにもVLANとかPort Trunkといった洒落た機能を一切使ってない「ただのカカシですな」状態だったので、システム止めずにはすんだんだけど。

この機種は HP Procurve 1810-24G(J9450A)だったんだけど、サポセンによると「おじいちゃんIPアドレス設定したでしょ」物忘れ対策には、ファームウェアを更新してくれとのこと *1、ファッキュー。

まー死活監視だけなら他の方法もあるので、しばらくそのまま放置して次の停電前にファームアップしようと思ったんだけど
続けてNTPによる時刻同期が出来なくなる障害まで上がりだしたので、針の筵の上で土下座 → 熱く熱した鉄板の上で土下座くらいの様相に。

まずは ntpd の様子を見てみる、大雨の日に田圃の裏の川の様子を見に行くが如し。

# ntpq -p
     remote           refid      st t when poll reach   delay   offset  jitter
==============================================================================
 ntp-a3.nict.go. .INIT.          16 u    -   64    0    0.000    0.000   0.000
 ntp-a2.nict.go. .INIT.          16 u    -   64    0    0.000    0.000   0.000
*LOCAL(0)        .LOCL.          10 l   44   64   17    0.000    0.000   0.001

NTPサーバ(ntp.nict.jp)の stratum が最低の16(接続失敗)になっとりますな、んで when を見ても reach を見ても全く packet 送受信できてないのは明らかです。

ntpd 止めて ntpdate を実行してもダメ。

# /etc/init.d/ntpd stop
ntpd を停止中:                                             [  OK  ]

# ntpdate ntp.nict.jp
25 Feb 02:38:51 ntpdate[6731]: no server suitable for synchronization found

ところが ntpdate にデバッグオプションつけて非特権ポートを使うと成功するのよね。

# ntpdate -d ntp.nict.jp
...
25 Feb 02:42:14 ntpdate[7063]: adjust time server 133.243.238.244 offset 0.000801 sec

うーん怪しい、ふつうこの手の症状が出るってーと大抵はファイアウォール閉じてる系なんですが、Linux鯖でiptablesは動かしてないし、ルーターの設定も問題ないのよね…
あとは権限は問題ないし、SELinuxなんて 真っ先に切りますが何か?

@原因はやっぱり HP Procurve 1810-24G に

困り果ててncとかnmapとかtcpdumpなど俺ってプログラマだったよね?的ツールを動員していろいろ実験した結果、どうにもさっき設定が飛んだ
うんこ HP Procurve 1810-24G が勝手にパケット落としてる以外考えられない、という結論に。

でサポセンを小一時間問い詰めるも知らぬ存ぜぬなので、自分でググッた結果 こんなスレッドとか こんなスレッドを発見。

要するに HP Procurve 1810 Series は 「Auto DoS(自動 DoS 対策)」を有効(デフォルト)にしてると同一のポート間での通信は(異なるIPアドレスであっても)
DoSに利用されてると判断して通信を全て遮断するっちゅーこと、 どんな判断だ

これいわゆる Loop Back DoS対策を誤った結果こんなワケワカメなことになったんですかね…

@結論

安いのには理由がある(しろめ)

以下の状況証拠からNetGearのOEMな気がしないでもない…

  • 他の機種(2510とか)は問題ない
  • この機種だけ他のProcurveと異なる独自のユーザインタフェース
  • NetGear製品で同じAutoDoS機能を持つものがありしかも同じ障害が出てるらしい
*1:ファームの更新履歴にはいまいちそれらしいもの無いんだけど、他でも同じ事象があったとかなんとか、上に報告しづらいのでちゃんと更新履歴に入れてくれませんかねぇ…