Wednesday 6 January 2010

学科のRAIDは復帰

RAIDは信用してませんが、助けられたことは何度もあります。今回も結局、RAIDに助けられました。

Disk 故障で RAID解除になって、そこで落ちたらしい。HPのMSA 外付RAIDのコントローラを交換して、再構成したら見えたそうです。

今回は危ないところだった... 何回かやってますけどね。

2000/5/22
  NetAPP で設定を飛ばして読めなくなった -> アメリカの本社に電話
2005/6/27
  NetTech のRAIDが double fail で止まる。-> サポートに電話して BIOS update
  その後、同形機を追加して mirroring

まぁ、同形機を二つミラーしているので、ミラーがないのは人災なんだけど、ミスには軽重はない。ミスは、あるもの。起こさないようにしましょうと言っても、起きるのがミス。ミス自体は悪くない
です。起きるものだから。(そうでないと、サーバ班は退屈でしょ?)

その影響が広がるのを防ぐ仕組みを作るのが重要だと思う。

  ミスを検出して、
  多重化で延焼を防ぐ

ということでしょう。

ちゃんと、backup が取れているかをチェックするscriptとか欲しいかな。きっと、ありそうな気がする。rsnapshot のoptionにあるんじゃないかな。

No comments: