Friday, 30 October 2020

Podman / Pytorch

まぁ、使いたいって人はいるけど、

  自分で環境設定する能力はない

まぁ、やらないってだけなんだろうけど。シス管と一緒にやると面白いと思うんだけど。まぁ、卒業した後は

  クラウド環境しか使わない

ってのはありそうな話ですが。だからこそ、今しか触れないと思うんだけどな。

もっとも、asible で server に Cuda を入れて、podmain で起動するだけ。

ansible も pdoman の Dockerfile も拾ってくるだけですが。

FROM docker.io/pytorch/pytorch:latest
WORKDIR /pytorch
RUN apt-get update && apt-get install -y git && git clone https://github.com/pytorch/examples.git
WORKDIR /app
CMD ["./entrypoint.sh"]

これだけ? これだけでも、できないって言う人いるよね。でも、それは割と嘘で、細かい試行錯誤がいろいろあるんだよな。その辺はシス管のKnowHow。

なんですが、

  Ceph 上で podmain build すると 4分
  SSD 上だと 3秒

という問題が。計算が始まれば問題ないんだけど。あと、rootless だとユーザ間ではファイルが共有されない。

うーむ。そうすると、投入されたtaskを固定ユーザで実行する感じが良いのかな。ほんとメインフレームかお前は。

まぁ、環境制御はいろいろ方法があるのでコンテナでなくても良いのだが。

Docker よりも Podman が遅いってだけでなく、Cephが細かいファイルを処理するのが遅いんでしょう。まぁ、なんか方法あるかも。

  BRD FS使うとか、Fuse 使うとか

いろいろ楽しめそうです。

No comments: