Not only is the Internet dead, it's starting to smell really bad.:2014年02月下旬

2014/02/23(Sun)

[HP ProLiant][CentOS] 続 CentOS6.x + HP Lights-Out 100でhp-healthが起動しない問題

HPより SPP(Service Pack for ProLiant)の最新版である Version 2014.02.0 が出て、 以前ネタにした HP Lights-Out 100 を搭載した ML/DL1xx 系で hp-health(優良店60分1万円ポッキリ) が起動しない問題が直ってるみたいすね(もう実機 unreachable なので initscript の該当箇所チェックしただけだけど)。

問題の lspci を使って iLO デバイスを探すことで kernel が ipmi をサポートするかを検出するコードが、単純に /sys/module/ipmi_si が存在するかに変更されて、非 PCI バスの HP Lights-Out 100 でも大丈夫になった感じ。

    local ipmi_si_module=""
    if ! have_distro_ipmi; then
     #check ipmi_si drivir loaded with kernel
        if [ -d "/sys/module/ipmi_si" ]; then
         ipmi_si_module="none"
        else
        echo
        cmaecho "ERROR: There is NO IPMI support available on this system!"
        cmaecho "Please install the hp-OpenIPMI package or enable IPMI support"
        cmaecho "for this distribution. Aborting hp-health initialization process!"
        exit 1
        fi
    fi

ところで HP ProLiant について2014年2月以降は、ユーザ登録した上で保証期間あるいはケアパック契約が無いと、最新のファームウェアが入手できなくというアナウンス( ソース)が出てますな。

まーML110なんかの安売りで撒いた種をこれから収穫するぜ!というHPの荒い鼻息すねぇ。

いちおうさっきのソースのUpdateにもあるとおり、サーバ本体のファームウェア限定なんですが、一度切った舵は…なので SPP の iso 配布とか downloads.linux.hp.com の yum repository も今後に不安がありますやね。

特に ProLiant Gen8 以降はファームの更新が Firmware Update DVD や Smart Start CD でなく、オンボードの HP Intelligent Provisioning(という名前の組込 Linux)が載ってて、そいつ経由で OS のインストールやら firmware の更新するんですが、この Intelligent Provisioning 自体枯れておらず致命的なバグ *1多かったりもするので、自宅鯖にProLiantっていう選択はワイには無くなりましたなぁ。

*1:DHCPからIP addr受取れなかったり、まぁいつものHPクオリティ。

2014/02/24(Mon)

最近

@脱線

川崎駅で京浜東北がここのチラシの裏のように脱線した結果、事故処理に桜並木がバッサリと切られたと伝え聞いて寂しい。 ここ数年の間に自分がよくシーズンに花見に行くところが、旧海軍病院時代からの桜並木が病院新築に伴ってほとんど切り倒されたりと どんどん消えてくのよね、植え直すにしてもその花を見れるころにはおそらく生きてねーだろうしな。

@映画

ちなみにその前日、映画「 ラッシュ」を川崎シネチッタで観てきますた。

F1 映画といえばスタローンによる 例のアレの悲劇が思い出されますが、なんせ 「 アポロ13」のロン・ハワード監督なので絶対にハズレは無いやね、これは絶対に劇場で観るべき映画っす。

跳ね馬、Marlboro、JPSそしてelf等のロゴの踊る煌びやかな色彩の棺桶の列は、CGの使用は最小限に当時の実車で実際にレースして撮影してしまう監督の狂気、ああ^~いいっすね~

ニュルブルクリンクそして富士スピードウェイとフラット12のエキゾーストノートを、しょっぱいディスプレイとヘッドホンで観てはいけない(戒め)。

なお上映館と時間帯によっては、同じ映画と見せかけてジャニオタ向けに KinKy Kidsによる 学芸会やってますので気をつけましょう。字幕は「アポロ13」の時の 聖域と違ってまともだし、そもそも台詞は短いので字幕で情報不足になる映画じゃないからね。

この監督「アポロ13」の後に主演のトム・ハンクス(同じく宇宙オタ)と意気投合し、HBOでアポロ計画全体を映像化した連続ドラマ「 フロム・ジ・アース」をプロデュースしたんだけど、是非この「ラッシュ」も同じように連続ドラマ化してくれませんかねぇ。 ヴィルヌーヴとピローニの悲劇とかネタはいくらでもあるんだから *1

まぁHBO はテレビドラマにそこらの映画が裸足で逃げ出す予算を注ぎ込むけど、NASCAR脳のメリケンなので無理だけどね。 かといって BBC あたりだとフランスやイタリア相手に「国辱は基本」なので、最後 ピアノが空から降ってきて台無しになりそう( 英国人の宿痾)。

どうせならWRCグループBの狂気の時代の映画でもああ^~いいっすね~ 元気に走り回る マルク・アレンヘンリ・トイボネンデルタS4がスクリーンで観れたら。いっそのこと誰も寝てはならぬか大阪豆ゴハンの実写化でもいいや。

*1:そういえばディカプリオがヴィルヌーブ役といういかにもアレな映画は流れたのね…

2014/02/25(Tue)

[HP Procurve][Network] HP Procurve 1810 Switch Series は窓から投げ捨てよう(提案)

思い出したので、ちょいと HP ProLiant 製品を diss ったついでに HP Procurve 製品へのつらみを書き残しておこう。

@SIerでは、あなたの悲鳴は誰にも聞こえない

不備だらけの設定ファイルそして仕様書という名の紙屑を握り締め、尻が焼けるようなギリギリのスケジュールで作業してると
データセンターの天井から フェイスハガーが降ってくるとかラックの裏でエイリアンが強酸性の涎を垂らしているとか20世紀末FOX的な幻覚に悩まされるようになりますが
下着姿のシガニー・ウィーバーならまだしも、シガナイ・オッサンがしょっぱいスーツで床這いずり回っていた所で、チェストバスターが孵化して胸部を喰い破られても
Oh help me please doctor!にプロトポンプ阻害薬かH2ブロッカーを処方されてお大事にで終わりですがな。

そんなプロローグ。

@憂鬱な月曜日

そんな胃が痛い日々が続く中、ある法定停電明けの 、血相変えたお客様からお怒りの電話が来たわけですよ、はい。

障害はL2スイッチの死活監視エラーで、スマートハブそのものは生きてるんだけど管理用IPアドレスなんかの設定が再起動のタイミングで吹っ飛んだ模様。
幸いにもVLANとかPort Trunkといった洒落た機能を一切使ってない「ただのカカシですな」状態だったので、システム止めずにはすんだんだけど。

この機種は HP Procurve 1810-24G(J9450A)だったんだけど、サポセンによると「おじいちゃんIPアドレス設定したでしょ」物忘れ対策には、ファームウェアを更新してくれとのこと *1、ファッキュー。

まー死活監視だけなら他の方法もあるので、しばらくそのまま放置して次の停電前にファームアップしようと思ったんだけど
続けてNTPによる時刻同期が出来なくなる障害まで上がりだしたので、針の筵の上で土下座 → 熱く熱した鉄板の上で土下座くらいの様相に。

まずは ntpd の様子を見てみる、大雨の日に田圃の裏の川の様子を見に行くが如し。

# ntpq -p
     remote           refid      st t when poll reach   delay   offset  jitter
==============================================================================
 ntp-a3.nict.go. .INIT.          16 u    -   64    0    0.000    0.000   0.000
 ntp-a2.nict.go. .INIT.          16 u    -   64    0    0.000    0.000   0.000
*LOCAL(0)        .LOCL.          10 l   44   64   17    0.000    0.000   0.001

NTPサーバ(ntp.nict.jp)の stratum が最低の16(接続失敗)になっとりますな、んで when を見ても reach を見ても全く packet 送受信できてないのは明らかです。

ntpd 止めて ntpdate を実行してもダメ。

# /etc/init.d/ntpd stop
ntpd を停止中:                                             [  OK  ]

# ntpdate ntp.nict.jp
25 Feb 02:38:51 ntpdate[6731]: no server suitable for synchronization found

ところが ntpdate にデバッグオプションつけて非特権ポートを使うと成功するのよね。

# ntpdate -d ntp.nict.jp
...
25 Feb 02:42:14 ntpdate[7063]: adjust time server 133.243.238.244 offset 0.000801 sec

うーん怪しい、ふつうこの手の症状が出るってーと大抵はファイアウォール閉じてる系なんですが、Linux鯖でiptablesは動かしてないし、ルーターの設定も問題ないのよね…
あとは権限は問題ないし、SELinuxなんて 真っ先に切りますが何か?

@原因はやっぱり HP Procurve 1810-24G に

困り果ててncとかnmapとかtcpdumpなど俺ってプログラマだったよね?的ツールを動員していろいろ実験した結果、どうにもさっき設定が飛んだ
うんこ HP Procurve 1810-24G が勝手にパケット落としてる以外考えられない、という結論に。

でサポセンを小一時間問い詰めるも知らぬ存ぜぬなので、自分でググッた結果 こんなスレッドとか こんなスレッドを発見。

要するに HP Procurve 1810 Series は 「Auto DoS(自動 DoS 対策)」を有効(デフォルト)にしてると同一のポート間での通信は(異なるIPアドレスであっても)
DoSに利用されてると判断して通信を全て遮断するっちゅーこと、 どんな判断だ

これいわゆる Loop Back DoS対策を誤った結果こんなワケワカメなことになったんですかね…

@結論

安いのには理由がある(しろめ)

以下の状況証拠からNetGearのOEMな気がしないでもない…

  • 他の機種(2510とか)は問題ない
  • この機種だけ他のProcurveと異なる独自のユーザインタフェース
  • NetGear製品で同じAutoDoS機能を持つものがありしかも同じ障害が出てるらしい
*1:ファームの更新履歴にはいまいちそれらしいもの無いんだけど、他でも同じ事象があったとかなんとか、上に報告しづらいのでちゃんと更新履歴に入れてくれませんかねぇ…