Monday 11 May 2020

サーバ復旧

まぁ、実働時間の大半は

  gfs2 の fsck 7 時間

なんですけどね。初期のエラーは「could not mount /mnt/whisky」なので、fsckというわけ。

Zoom / MatterMost (MatterMost はサクラにあるので見れる) で最初は remote で。 fsck 入れてで、

  「ちょ、ちょっ、そこ別なのノードから FS が見えてるじゃん」

他のノードが見えてる時に fsck してはいけません。普通は他のノードを落として fence を入れて fsck らしい。

で、午後5時くらいに fsck は終わったんですが、

  pcs status で node b (burbeny) の dlm が FAILED

で動きません状態。はぁ? ググりながらなんですが、昔懐かしい atton の blog が引っかかる。素晴らしい。

  全部のノードでpcs cluster stop した。
  しかし一つは止まらない。
  pcs cluster start —all
  node b のdlm FAILED で止まる
  pcsd をsystemd で再起動
  もう一度、pcs cluster start —all でダメ
  pcs resource failcount reset をすべての資源に実行
  node b の dlm を systemctl で止めたが停まらない
  node b の dlm を kill -9

しばらくしたらgfs2が見えたんですが、何が効いたのかは不明です。午前中の「別なノードからFSが見えてる」段階で治ってたかも。

というわけで、シス管のみなさんお疲れ様でした。

https://attonblog.blogspot.com/2015/11/centos7-hacluster-gfs2.html

No comments: