Saturday, 17 March 2012

Blade 再構築〜

昨日は結構飲んでしまって(4日ぶり)、ご機嫌だったのですが、朝、メールを見ると…


Subject: 重大報告です・・・
リストアのテストもできていたのですが、本日の本番の作業に
おいてストレージのリストアが正常にできず、原因を調べてみ
たところ、バックアップデータの全てにデータの欠損があった
ためでした。

おいおい〜 まぁ、ダメな時はだめなんだが。要するに、SANの初期化をしてバックアップをリストアしようとしたら、リストアできないっていう状況になったらしい。

で、自分の学生の携帯に電話するのだが誰も出ない。長田さんに直接電話しても良かったのだが、それは止めておく。

それでも、ようやっとお昼に電話がかかってくる。「一つ、バックアップが読めたので、後で電話して良いですか」って、それで良いなら電話してません。でも、どうもリストアの手順の問題で読めなかったらしく、バックアップはちゃんと取れているらしい。

で、大学行くとサーバ室でサーバ班二人が作業中。「リストア中です。良かったです〜」で、いろいろ聞き出してみると、大千が原因を見つけたらしい。

バックアップ/リストアは、アプライアンスサーバというのを上げて、vSphere から行うのだけど、そのアプライアンスサーバのプログラムがリストアしようとすると落ちた。サーバ自体はCentOSで、リストアのオプションを付けると log が取れるようになる。そこで、

サーバがBladeと通信できてない

ってのを見つけたらしいです。結局、DNS が落ちているのでIPを見つけられないという落ちだったらしい。なので、/etc/hosts に host 名と IP アドレスを書いて対処したらしい。

DNS はセカンダリは動いているはずなんだが、設定されていなかったようです。Gmail に引き続き DNS のトラブルだったか。でも、大千偉い。良く見つけた。

しかし、長田さんも寿命縮まっただろうな :-p Web server / LDAP は別筐体のサーバで動かしていたので、そこは大丈夫だったから、僕は「まぁ、学生のデータはなくなっても良いか」とかお気楽でしたが。

2009年末にもやってるんだよな〜 こりない人たちです。(おまえもな〜)

http://seeker-s-eye.blogspot.jp/2009/12/blog-post_30.html

やっぱり安物でいいからSANは二重化した方が良いね。20TB 20万円ぐらいらしいぞ。

教官室のサーバもDHCPが死んでるおかげで IPが取れなくて死んでました。同じトラブルか。

No comments: