実際にHadoopで処理を実装していきながら「Hadoopは、誰にだって扱える」を体感しましょう。今回は「実際にHadoopをインストール」し、基礎処理である「ワードカウント」を実行するまでを解説します。
書籍の中から有用な技術情報をピックアップして紹介する本シリーズ。今回は、秀和システム発行の書籍Hadoopファーストガイド(2012年9月20日発行)』からの抜粋です。
ご注意:本稿は、著者及び出版社の許可を得て、そのまま転載したものです。このため用字用語の統一ルールなどは@ITのそれとは一致しません。あらかじめご了承ください。
前回まで、Hadoopの仕組みや登場した背景や処理の流れを説明してきました。今回は、実際にHadoopを利用できる環境を構築し、その動きを少しだけ実践してみましょう。
Hadoopを利用できる環境として、現在は以下のような方法が考えられます。
まずは素のHadoopをインストールして、Hadoopの実行環境を作ってみます。
Hadoopの効果を実際に得るには複数台のサーバが必要となるのですが、実はHadoopには3つの動作モード(スタンドアロンモード、疑似分散モード、完全分散モード)が存在し、どのモードを動かすかによって必要な環境は大きく異なります。
例えば、スタンドアロンモードや疑似分散モードであれば、サーバ1台のみで構成し動作を確認することができますが、完全分散モードでは少なくとも2台以上のサーバが必要となります。
では、Linuxが動作する環境を準備しましょう。専用のサーバを用意しても良いですし、Windowsマシン上に仮想環境としてLinuxを構築しても構いません。OS(Operating System)に関してもFedora、Ubuntu、CentOS…どれを使っても構いません。筆者は仮想環境上にCentOS 6.2を構築して利用したので、本書の解説はそれに従います。
Hadoopを動かすにはJavaのバージョン1.6以降が必要となります※1。Hadoopコミュニティは、JDK(Java SE Development Kit)の利用を推奨しています。
※1 HadoopがそもそもJavaで記述されているためです。
まずはJavaをインストールしましょう。Java SEのDOWNLOADSページにアクセスして、Java SE 6 update xxのJDKのところからDOWNLOADへと進んでください。執筆時点ではJava SE 6 update 33が最新版となります(編注:2017年2月現在、Java SE 8u121が最新版となります。以下、ファイル名などは適宜置き換えて読み進めてください)。
次に、Accept License Agreementを選択してから、32ビットマシンの場合にはjdk-6u33-linux-i586.binを、64ビットマシンの場合にはjdk-6u33-linux-x64.binをクリックしてダウンロードしてください。
32ビットマシン or 64ビットマシン
ちなみに、32ビットマシンか64ビットマシンかはCPUの情報とカーネルの情報から判断することが出来ます。まずCPUの情報ですがこちらのファイルを見ることで情報が確認できます。
flagsの値にlmがあれば、64ビットCPUです。
カーネルの情報は、
で稼働中のカーネルの情報が表示されます。X86_64などと表示されれば64ビット版カーネルが動いている状態です。64ビットCPU上で64ビット版カーネルが稼働していれば、64ビットマシンと判断できます※3。
※3 (参考リンク)Linuxでの32ビットと64ビットマシンの見分け方。 - IT memorandum
ではJDKのインストールを開始します。筆者の環境は64ビットマシンだったため、以下ではjdk-6u33-linux-x64.binをダウンロードした場合を想定して説明します。32ビットマシンの場合にはその部分を適宜置き換えて読んでください。
ダウンロードしたファイルは適当なディレクトリに置きます。ダウンロードしたファイルに実行権限を与えて実行してください。
するとJavaの利用に関する注意事項が表示されてPress Enter to continue....と表示されるので、Enterキーを押せばJDKが展開されます。展開されたフォルダはあとでPathを通すので任意の場所に置いてください。今回は/usr/local以下に置くものとします。
以下のようにしてJavaのバージョンが正しく表示されれば大丈夫です。
Copyright © ITmedia, Inc. All Rights Reserved.