この2、3日色々試してみた結果のお話
並列計算を途中で止める方法の1つに
BLCRっていうものがあります
Berkeley Lab Checkpoint/Restart→BLCR
なわけやねけども、とりあ、ググったら出てきます
ただ、そんなに詳しく書いてるサイトがないところを見ると
あんまり普及はしてないみたい
っていうか、並列計算を途中で止めようと思う人が
この日本に何人おんねって話なんかなぁ
普通に計算するだけなら止める必要ないしなぁ
まぁ、このBLCRってのは
そんな少数派な人たちの希望を叶えるためのものです
並列計算で1番やっかいなのが
通信の一貫性というものの存在
分かりやすく言うと
白ヤギ→手紙出す→保存
黒ヤギ→受けとる前に保存
で、次に再開すると
白ヤギ→手紙出したし、後は返事を待つだけ(人´ω`*)
黒ヤギ→白ヤギさんからの手紙がこない…
ってなって、お互い待ち状態が続くっていう
これを回避するためには
宙ぶらりんなデータを作らずに
送ったり、受け取ったデータを把握する必要がある
そんな問題を解決するんがBLCRです
ただ、ちょっと制限が厳しくて使いにくいっていう難点があるけど…
で、今回最後にチャレンジしたいのが
イメージ→差分で保存
プロセス→BLCRで保存
この時、VM全体の保存を試みると問題が色々出てくるので
今回は保存する領域、プロセスを指定する
イメージに関してはMPIの計算に用いる領域のみ
プロセスにおいては計算プロセスのみ(その他のプロセスは考慮しない)
実装に関しては差分部分はあるので
理想→debianにBLCRとLAMを入れる
現実→ゲストOSを作りなおす
この決断をできるだけ早くして
1月終わりに実装と評価を終わらせて
2月5日までに初版提出
もちろん、1月終わりに実装、評価意外の書けるところは書く
評価方法
プログラムを動かす→止める→保存→動かす→止める→保存→…
これを繰り返すぐらいしかないのか…
で、保存する時の時間、できあがった保存ファイルの容量の計測
最悪、自動化はなくても手動で動いてくれたら評価は取れる
BLCRが入ってくれたら大きな壁は乗り越えられるか??
ってことで、BLCRと戦ってきます
.
.
.
.
.
.
.
.
.
.
.
.
.
.
最終更新:2010年01月20日 05:49