「
Subject: 重大報告です・・・
リストアのテストもできていたのですが、本日の本番の作業に
おいてストレージのリストアが正常にできず、原因を調べてみ
たところ、バックアップデータの全てにデータの欠損があった
ためでした。
」
おいおい〜 まぁ、ダメな時はだめなんだが。要するに、SANの初期化をしてバックアップをリストアしようとしたら、リストアできないっていう状況になったらしい。
で、自分の学生の携帯に電話するのだが誰も出ない。長田さんに直接電話しても良かったのだが、それは止めておく。
それでも、ようやっとお昼に電話がかかってくる。「一つ、バックアップが読めたので、後で電話して良いですか」って、それで良いなら電話してません。でも、どうもリストアの手順の問題で読めなかったらしく、バックアップはちゃんと取れているらしい。
で、大学行くとサーバ室でサーバ班二人が作業中。「リストア中です。良かったです〜」で、いろいろ聞き出してみると、大千が原因を見つけたらしい。
バックアップ/リストアは、アプライアンスサーバというのを上げて、vSphere から行うのだけど、そのアプライアンスサーバのプログラムがリストアしようとすると落ちた。サーバ自体はCentOSで、リストアのオプションを付けると log が取れるようになる。そこで、
サーバがBladeと通信できてない
ってのを見つけたらしいです。結局、DNS が落ちているのでIPを見つけられないという落ちだったらしい。なので、/etc/hosts に host 名と IP アドレスを書いて対処したらしい。
DNS はセカンダリは動いているはずなんだが、設定されていなかったようです。Gmail に引き続き DNS のトラブルだったか。でも、大千偉い。良く見つけた。
しかし、長田さんも寿命縮まっただろうな :-p Web server / LDAP は別筐体のサーバで動かしていたので、そこは大丈夫だったから、僕は「まぁ、学生のデータはなくなっても良いか」とかお気楽でしたが。
2009年末にもやってるんだよな〜 こりない人たちです。(おまえもな〜)
http://seeker-s-eye.blogspot.jp/2009/12/blog-post_30.html
やっぱり安物でいいからSANは二重化した方が良いね。20TB 20万円ぐらいらしいぞ。
教官室のサーバもDHCPが死んでるおかげで IPが取れなくて死んでました。同じトラブルか。
No comments:
Post a Comment