Tuesday, 28 November 2017

サーバダウン

OSの授業でにこやかに、VMの課題をやろうと思ったら、

  ssh できません

ぐ。先週も ssh できませんだったのに。先週は、NAT内のDNS serverと外向けのDNS server のどっちかを選ばないといけなくて、外向けを選ぶとNATの逆引きが中からできず ssh できない。内向けを選ぶと内部の外向けのサーバからは接続できなくなるという2択だったらしく。まぁ、どうせ外からは直接は接続できないので、適当な踏み台を選ぶだけの問題なんですけどね。

でも、いろいろ試してたら、

  シス管のSlackになんか書いてあります

ってことで見てみると、

   今サーバー室に来てみてるけど, kernel 壊れたっぽい
   ```dracut-initqueue[259]: Warning: dracut-initqueue timeout
   Warning: /dev/centos/root does not exist
   Warning: /dev/centos/swap does not exist
   Warning: /dev/mapper/centos-root does not exist
   がでてboot 失敗してる

ってことで授業が終わってからの「シス管ミーティング」で、IPMI ( Dell の iDRAC っていう管理ソフト)経由で console にアクセスするんですが...

  字が小さすぎて見えないよ

Javaのアプリでなんとかできるらしいんですが、さっぱり動かず。仕方ないので、サーバ室へ。要らないといったディスプレイスイッチで。

  なんか緊急 shell かなんかに落ちてる。

「df コマンドないんです」え〜 でも、ls あるし、mount はあるし、fsck もあるぞ。log 見ると time out の連続かぁ。でも、sici RAID Controller の認識から sda1 sda2 までは正常なみたいだな。lvm command はあるんだが、

  lvm pvscan

では何もでず。fsck もない。Boot しなおしてみると「ほら、Rescue boot あるじゃん」で立ち上げ見ると、さっきのと同じ。df ないし。しばらくいじっていたんですが、「CD付いてるし、CDからRescue しましょう」うんうん。

  ちゃんと df, fdisk ある!
  お、lvm pvscan でなんかでる。sr0? あ、そうか、CD差したからな

でも、もちろん、ぜんぜん、sda は表示されず。sda1 は boot partition で Linux 。なので、LVMからは認識しない。

で、いろいろググったんですが、lvm vgchange -a y しろとしか出てこず。lvm pvs で何も出ないのにそれは無意味だ。なんだが、

  https://www.redhat.com/archives/linux-lvm/2006-November/msg00063.html
  delete the partition within...

え、partition 削除するの? 結構、行き詰まっていたので、やってみるかと。partition はすぐに元に戻せるし。

  delete してもなんにも起きず

ぐ。まぁ、なぁ。じゃあ、元に戻すか...

  あれ? なんか、設定する値と、fdisk の示してる default value が違うんですが

じっと見てみると「0が一つ多い」ってことは、

  一つ、partition が抜けてる?

そういえば、このシステムの設計実装した卒業生の城戸が slack に fdisk の出力載せてたっけ。良くわかるな。

  結果的には、最初の一つのboot を除いて、全部、LVM volume

にしたら、それで lvm pvcan で認識しました。Rescue からはうまく認識しなかったんですが、

  そのまま元ので立ち上げたら、上がりました。/etc/lvm の下がないと認識しないよな。

ここまで3時間。お疲れ様でした。でも、これくらいなら、今のシス管でも復帰できたんじゃないかな。

  partition が壊れたのは、誰かがいじったせい

らしいので。command history に残っていたみたい。いろいろやって学ぶものだから、問題ありません。

No comments: