では次はHadoopのインストールに移ります。まずはHadoopを実行するためのユーザを管理するため、hadoopという名前のアカウントを専用ユーザを作成すると良いでしょう※4。起動や実行など、今後のHadoop操作はこのユーザで行うことになります。
※4 もちろんアカウント名は任意です
準備ができたら、Apache HadoopプロジェクトのサイトからHadoopをダウンロードします。執筆時点ではhadoop-1.0.3.tar.gzが最新バージョンでした(編注:2017年2月現在の最新安定版は2.7.3となります)。解凍後、任意のパスに置いてください。今回は/usr/local以下に置くこととします。
配置したディレクトリ以下の所有者をhadoopユーザにしておきましょう。
なお、HadoopにはJavaがどこにインストールされているかや、Hadoopがどこに置かれているかについても設定してあげる必要があります。JAVA_HOMEやHADOOP_HOMEにパスを設定するので、~/.bashrcなどに設定しておくと良いでしょう※6。
※6 設定後、source ~/.bashrcして反映させるのを忘れないでください
export JAVA_HOME=/usr/local/jdk1.6.0_33 export HADOOP_INSTALL=/usr/local/hadoop-1.0.3 export PATH=$HADOOP_INSTALL/bin:$JAVA_HOME/bin:$PATH
インストールされていることを確認するためにバージョンを表示してみます。問題なくインストールできていればこのようにバージョン情報が表示されるはずです。
hadoopコマンドでは他にもたくさんの引数が指定できて、さまざまな処理が行えます。以下に主なものをまとめてみたので参考にしてみてください。
コマンド | 説明 | |
---|---|---|
jar | jarファイルを実行するためのコマンド | |
fs | HDFSを操作するためのコマンド | |
job | Hadoopのジョブを扱うためのコマンド | |
version | Hadoopのバージョンを表示するコマンド | |
オプション | 説明 | |
---|---|---|
-conf | 設定ファイルのパスを指定する | |
-D | 特定の設定値を上書きしてhadoopに渡せる(property=value) | |
-fs | ネームノードを指定する | |
-jt | ジョブトラッカーを指定する | |
-files | Hadoopクラスタに指定したカンマ区切りのファイルを配置する | |
-archives | Hadoopクラスタに指定したカンマ区切りのアーカイブを展開して配置する | |
-libjars | カンマ区切りで指定したjarファイルをclasspathに含める | |
コマンドオプションはそれぞれのコマンド毎に存在するため詳しくは説明しませんが、気になるコマンドがあれば引数無しでコマンドを実行してみてください。コマンドの説明が表示されます。例えば、Hadoopのジョブに関する処理に対する操作(hadoop job xxx)を知りたいときにはこのようにhadoop jobとだけ指定して実行すれば説明が見れます。
--listや--killなどさまざまなオプションがあることがわかりました。
なお、引数を指定せずにhadoopコマンドを実行すると、すべてのコマンドの説明を見ることが出来るのでそちらも参考にしてみてください。
Copyright © ITmedia, Inc. All Rights Reserved.