Hadoop

目次

前提条件

CentOS5.4上に構築する
JDK1.6をインストールしておく

Hadoop 0.20

インストール

Clouderaのyumリポジトリ追加

# cd /etc/yum.repos.d
# wget http://archive.cloudera.com/redhat/cdh/cloudera-testing.repo

インストール

# yum -y install hadoop-0.20

一台構成での簡易設定ファイルインストール

# yum -y install hadoop-0.20-conf-pseudo

設定

自動起動設定(サービス化)

# chkconfig --add hadoop-0.20-namenode
# chkconfig --add hadoop-0.20-jobtracker
# chkconfig --add hadoop-0.20-datanode
# chkconfig --add hadoop-0.20-tasktracker

Web UIの確認

  • サービス起動
    # service hadoop-0.20-namenode start
    # service hadoop-0.20-jobtracker start
    # service hadoop-0.20-datanode start
    # service hadoop-0.20-tasktracker start
    
  • ブラウザから動作確認
    http://<host>:50070/ ←HDFS
    http://<host>:50030/ ←MapReduce
    

環境変数設定

$ vi .bash_profile
PATH=/usr/lib/hadoop-0.20/bin:~ ←Hadoopのbinを追加

動作確認

HDFSにファイル作成

  • HDFS上にフォルダ作成
    $ hadoop fs -mkdir TESTFOLDER01
    
  • ローカルにテストファイル(/tmp/test)を作ってHDFSにコピー
    $ cat << TEST > /tmp/test
    hello hadoop
    TEST
    $ hadoop fs -put /tmp/test TESTFOLDER01
    

HDFSからファイル取得

  • 取得対象ファイルをcatで確認
    $ hadoop fs -cat TESTFOLDER01/test
    
  • ローカル(/tmp/test2)にファイル取り出し
    $ hadoop fs -get TESTFOLDER01/test /tmp/test2
    
  • ローカルに取り出したファイルの内容確認
    $ cat /tmp/test2
    

一通り試した後、再度Web UIを確認

http://<host>:50070/ → "Browse the filesystem"リンク → "user"リンク → "<動作確認ユーザ>"リンク → で、作成したフォルダを辿って作成したファイルへ

HDFS上のファイルの内容がブラウザから閲覧できる

HBase 0.20

インストール

環境設定

最終更新:2010年01月16日 16:02