Disk 故障で RAID解除になって、そこで落ちたらしい。HPのMSA 外付RAIDのコントローラを交換して、再構成したら見えたそうです。
今回は危ないところだった... 何回かやってますけどね。
2000/5/22
NetAPP で設定を飛ばして読めなくなった -> アメリカの本社に電話
2005/6/27
NetTech のRAIDが double fail で止まる。-> サポートに電話して BIOS update
その後、同形機を追加して mirroring
まぁ、同形機を二つミラーしているので、ミラーがないのは人災なんだけど、ミスには軽重はない。ミスは、あるもの。起こさないようにしましょうと言っても、起きるのがミス。ミス自体は悪くない
です。起きるものだから。(そうでないと、サーバ班は退屈でしょ?)
その影響が広がるのを防ぐ仕組みを作るのが重要だと思う。
ミスを検出して、
多重化で延焼を防ぐ
ということでしょう。
ちゃんと、backup が取れているかをチェックするscriptとか欲しいかな。きっと、ありそうな気がする。rsnapshot のoptionにあるんじゃないかな。
No comments:
Post a Comment