「素のHadoop」をインストールして、簡単な処理を実行する:きょうから試せる Hadoop“スモールスタート”ガイド(3)(2/3 ページ)
実際にHadoopで処理を実装していきながら「Hadoopは、誰にだって扱える」を体感しましょう。今回は「実際にHadoopをインストール」し、基礎処理である「ワードカウント」を実行するまでを解説します。
Apache Hadoopのインストール
では次はHadoopのインストールに移ります。まずはHadoopを実行するためのユーザを管理するため、hadoopという名前のアカウントを専用ユーザを作成すると良いでしょう※4。起動や実行など、今後のHadoop操作はこのユーザで行うことになります。
※4 もちろんアカウント名は任意です
準備ができたら、Apache HadoopプロジェクトのサイトからHadoopをダウンロードします。執筆時点ではhadoop-1.0.3.tar.gzが最新バージョンでした(編注:2017年2月現在の最新安定版は2.7.3となります)。解凍後、任意のパスに置いてください。今回は/usr/local以下に置くこととします。
配置したディレクトリ以下の所有者をhadoopユーザにしておきましょう。
なお、HadoopにはJavaがどこにインストールされているかや、Hadoopがどこに置かれているかについても設定してあげる必要があります。JAVA_HOMEやHADOOP_HOMEにパスを設定するので、~/.bashrcなどに設定しておくと良いでしょう※6。
※6 設定後、source ~/.bashrcして反映させるのを忘れないでください
export JAVA_HOME=/usr/local/jdk1.6.0_33 export HADOOP_INSTALL=/usr/local/hadoop-1.0.3 export PATH=$HADOOP_INSTALL/bin:$JAVA_HOME/bin:$PATH
インストールされていることを確認するためにバージョンを表示してみます。問題なくインストールできていればこのようにバージョン情報が表示されるはずです。
hadoopコマンドでは他にもたくさんの引数が指定できて、さまざまな処理が行えます。以下に主なものをまとめてみたので参考にしてみてください。
コマンド | 説明 | |
---|---|---|
jar | jarファイルを実行するためのコマンド | |
fs | HDFSを操作するためのコマンド | |
job | Hadoopのジョブを扱うためのコマンド | |
version | Hadoopのバージョンを表示するコマンド |
オプション | 説明 | |
---|---|---|
-conf | 設定ファイルのパスを指定する | |
-D | 特定の設定値を上書きしてhadoopに渡せる(property=value) | |
-fs | ネームノードを指定する | |
-jt | ジョブトラッカーを指定する | |
-files | Hadoopクラスタに指定したカンマ区切りのファイルを配置する | |
-archives | Hadoopクラスタに指定したカンマ区切りのアーカイブを展開して配置する | |
-libjars | カンマ区切りで指定したjarファイルをclasspathに含める |
コマンドオプションはそれぞれのコマンド毎に存在するため詳しくは説明しませんが、気になるコマンドがあれば引数無しでコマンドを実行してみてください。コマンドの説明が表示されます。例えば、Hadoopのジョブに関する処理に対する操作(hadoop job xxx)を知りたいときにはこのようにhadoop jobとだけ指定して実行すれば説明が見れます。
--listや--killなどさまざまなオプションがあることがわかりました。
なお、引数を指定せずにhadoopコマンドを実行すると、すべてのコマンドの説明を見ることが出来るのでそちらも参考にしてみてください。
関連記事
- もし、あなたが「“ビッグデータプロジェクト”を任せる。何とかするように」と言われたら
「ビッグデータプロジェクトを始めることになった」ら、具体的に何をするのか。本連載は、「ビッグデータプロジェクトの“進め方”」を業務視点/ビジネス視点の両面から体系的に理解し、具体的に実践していく方のためのナレッジアーカイブです。第1回目は、「ビッグデータとは何か」の基礎と、「ビッグデータ基盤の概要とメリット」を解説します。 - Hadoopは「難しい・遅い・使えない」? 越えられない壁がある理由と打開策を整理する
ブームだったHadoop。でも実際にはアーリーアダプター以外には、扱いにくくて普及が進まないのが現状だ。その課題に幾つかの解決策が出てきた。転換期を迎えるHadoopをめぐる状況を整理しよう。 - いまさら聞けないHadoopとテキストマイニング入門
Hadoopとは何かを解説し、実際にHadoopを使って大規模データを対象にしたテキストマイニングを行います。テキストマイニングを行うサンプルプログラムの作成を通じて、Hadoopの使い方や、どのように活用できるのかを解説します - 欧米の金融業界は今、どうHadoopを活用しているか
Hadoopは、欧米の金融関連サービス業界でどう活用されているか。米Hortonworksの金融サービス業界担当ゼネラルマネージャーへのインタビューで得た情報を、2回に分けてお届けする。今回は金融業界におけるHadoopのユースケースを概観する。
Copyright © ITmedia, Inc. All Rights Reserved.