ここの内容を引いてきて,気になった部分とか説明に使えそうな部分をメモしています
ベタコピー多し
→MapReduceという並列処理用の計算フレームワークと分散ファイルシステムのオープンソース版の実装 作者はダグ・カティング(Doug Cutting)
- MapReduceのクラス
- tokenizer それを使って単語を切り取ってアウトプットというところに投げ入れる。
- iterator Reduceに降ってくるキーと値のペア
- Partioner(Mapの処理結果をどうReduceに割り当てるかを制御するクラス)
- OutputCollector(Reduceタスクの処理結果を回収するクラス)
- main
- JobConf どうやってデータを渡すか指定...txtを読み込んで一行ずつ渡す、等
- Hadoopのサブプロジェクト
- Hive Hadoop向けのSQLっぽい言語
- Chukwa ログ収集システム
- ZooKeeper 設定情報の管理→設定情報を各ノードに反映させる
- HBase HDFSのデータ構造はとてもシンプル→テーブルなどの形で見たい場合に
- Avro データのアプリ固有のフォーマットを定義してやると、そのデータスキーマごとファイルシステムに保存してくれる キーバリューのデータをファイルに書き出し ダイナミック
→MapReduceのプログラムはやっぱり難しいということで、もっと身近な形でデータを扱えるようにしようというのがこの辺のプロジェクト
バーチャルマシン・リソースの増減…
Hadoopオンデマンド:ノードを増やしたいです、1000台ぐらいノードを増やして計算してくださいっていうコマンドを入れてやると増やせる
Hadoop内、クラウドの環境に乗せておくと何がうれしいかというと、スケーラビリティが取りやすい。今まで100人ぐらいの規模の会社のシステムだったのが10,000人になりましたとかっていうときに。
- その他
- MapReduce:基本的にはバッチ処理に使ってくださいっていうようなスタンス⇔トランザクションが求められるようなところにはあまり使わない。
- ファイルシステム→ネットーワーク上に分散
- クライアントのコンピュータは単なるThinクライアントであって、これは単に画面が見えていて文字が見ているだけなんですよ。
- デュアルコア・クアッドコアの別コンピュータに処理が跨いだver.→プロセスマイグレーション
-
最終更新:2010年06月07日 18:39