アットウィキロゴ
この2、3日色々試してみた結果のお話

並列計算を途中で止める方法の1つに
BLCRっていうものがあります

Berkeley Lab Checkpoint/Restart→BLCR
なわけやねけども、とりあ、ググったら出てきます

ただ、そんなに詳しく書いてるサイトがないところを見ると
あんまり普及はしてないみたい

っていうか、並列計算を途中で止めようと思う人が
この日本に何人おんねって話なんかなぁ

普通に計算するだけなら止める必要ないしなぁ

まぁ、このBLCRってのは
そんな少数派な人たちの希望を叶えるためのものです

並列計算で1番やっかいなのが
通信の一貫性というものの存在

分かりやすく言うと
白ヤギ→手紙出す→保存
黒ヤギ→受けとる前に保存

で、次に再開すると
白ヤギ→手紙出したし、後は返事を待つだけ(人´ω`*)
黒ヤギ→白ヤギさんからの手紙がこない…

ってなって、お互い待ち状態が続くっていう

これを回避するためには
宙ぶらりんなデータを作らずに
送ったり、受け取ったデータを把握する必要がある

そんな問題を解決するんがBLCRです

ただ、ちょっと制限が厳しくて使いにくいっていう難点があるけど…

で、今回最後にチャレンジしたいのが
イメージ→差分で保存
プロセス→BLCRで保存

この時、VM全体の保存を試みると問題が色々出てくるので
今回は保存する領域、プロセスを指定する

イメージに関してはMPIの計算に用いる領域のみ
プロセスにおいては計算プロセスのみ(その他のプロセスは考慮しない)

実装に関しては差分部分はあるので

理想→debianにBLCRとLAMを入れる
現実→ゲストOSを作りなおす

この決断をできるだけ早くして
1月終わりに実装と評価を終わらせて
2月5日までに初版提出

もちろん、1月終わりに実装、評価意外の書けるところは書く

評価方法
プログラムを動かす→止める→保存→動かす→止める→保存→…
これを繰り返すぐらいしかないのか…

で、保存する時の時間、できあがった保存ファイルの容量の計測

最悪、自動化はなくても手動で動いてくれたら評価は取れる

BLCRが入ってくれたら大きな壁は乗り越えられるか??

ってことで、BLCRと戦ってきます

.
.
.
.
.
.
.
.
.
.
.
.
.
.
最終更新:2010年01月20日 05:49