「素のHadoop」をインストールして、簡単な処理を実行する:きょうから試せる Hadoop“スモールスタート”ガイド(3)(1/3 ページ)
実際にHadoopで処理を実装していきながら「Hadoopは、誰にだって扱える」を体感しましょう。今回は「実際にHadoopをインストール」し、基礎処理である「ワードカウント」を実行するまでを解説します。
書籍の中から有用な技術情報をピックアップして紹介する本シリーズ。今回は、秀和システム発行の書籍Hadoopファーストガイド(2012年9月20日発行)』からの抜粋です。
ご注意:本稿は、著者及び出版社の許可を得て、そのまま転載したものです。このため用字用語の統一ルールなどは@ITのそれとは一致しません。あらかじめご了承ください。
Hadoopを利用する
前回まで、Hadoopの仕組みや登場した背景や処理の流れを説明してきました。今回は、実際にHadoopを利用できる環境を構築し、その動きを少しだけ実践してみましょう。
Hadoopを利用できる環境として、現在は以下のような方法が考えられます。
- 素のHadoopをそのまま利用
- CDH(Cloudera's Distribution including Apache Hadoop)を利用
- MapRを利用
- EMR(Amazon Elastic MapReduce)を利用
まずは素のHadoopをインストールして、Hadoopの実行環境を作ってみます。
素のHadoopをそのまま利用する
Hadoopの効果を実際に得るには複数台のサーバが必要となるのですが、実はHadoopには3つの動作モード(スタンドアロンモード、疑似分散モード、完全分散モード)が存在し、どのモードを動かすかによって必要な環境は大きく異なります。
例えば、スタンドアロンモードや疑似分散モードであれば、サーバ1台のみで構成し動作を確認することができますが、完全分散モードでは少なくとも2台以上のサーバが必要となります。
では、Linuxが動作する環境を準備しましょう。専用のサーバを用意しても良いですし、Windowsマシン上に仮想環境としてLinuxを構築しても構いません。OS(Operating System)に関してもFedora、Ubuntu、CentOS…どれを使っても構いません。筆者は仮想環境上にCentOS 6.2を構築して利用したので、本書の解説はそれに従います。
JDKのインストール
Hadoopを動かすにはJavaのバージョン1.6以降が必要となります※1。Hadoopコミュニティは、JDK(Java SE Development Kit)の利用を推奨しています。
※1 HadoopがそもそもJavaで記述されているためです。
まずはJavaをインストールしましょう。Java SEのDOWNLOADSページにアクセスして、Java SE 6 update xxのJDKのところからDOWNLOADへと進んでください。執筆時点ではJava SE 6 update 33が最新版となります(編注:2017年2月現在、Java SE 8u121が最新版となります。以下、ファイル名などは適宜置き換えて読み進めてください)。
次に、Accept License Agreementを選択してから、32ビットマシンの場合にはjdk-6u33-linux-i586.binを、64ビットマシンの場合にはjdk-6u33-linux-x64.binをクリックしてダウンロードしてください。
32ビットマシン or 64ビットマシン
ちなみに、32ビットマシンか64ビットマシンかはCPUの情報とカーネルの情報から判断することが出来ます。まずCPUの情報ですがこちらのファイルを見ることで情報が確認できます。
flagsの値にlmがあれば、64ビットCPUです。
カーネルの情報は、
で稼働中のカーネルの情報が表示されます。X86_64などと表示されれば64ビット版カーネルが動いている状態です。64ビットCPU上で64ビット版カーネルが稼働していれば、64ビットマシンと判断できます※3。
※3 (参考リンク)Linuxでの32ビットと64ビットマシンの見分け方。 - IT memorandum
ではJDKのインストールを開始します。筆者の環境は64ビットマシンだったため、以下ではjdk-6u33-linux-x64.binをダウンロードした場合を想定して説明します。32ビットマシンの場合にはその部分を適宜置き換えて読んでください。
ダウンロードしたファイルは適当なディレクトリに置きます。ダウンロードしたファイルに実行権限を与えて実行してください。
するとJavaの利用に関する注意事項が表示されてPress Enter to continue....と表示されるので、Enterキーを押せばJDKが展開されます。展開されたフォルダはあとでPathを通すので任意の場所に置いてください。今回は/usr/local以下に置くものとします。
以下のようにしてJavaのバージョンが正しく表示されれば大丈夫です。
関連記事
- もし、あなたが「“ビッグデータプロジェクト”を任せる。何とかするように」と言われたら
「ビッグデータプロジェクトを始めることになった」ら、具体的に何をするのか。本連載は、「ビッグデータプロジェクトの“進め方”」を業務視点/ビジネス視点の両面から体系的に理解し、具体的に実践していく方のためのナレッジアーカイブです。第1回目は、「ビッグデータとは何か」の基礎と、「ビッグデータ基盤の概要とメリット」を解説します。 - Hadoopは「難しい・遅い・使えない」? 越えられない壁がある理由と打開策を整理する
ブームだったHadoop。でも実際にはアーリーアダプター以外には、扱いにくくて普及が進まないのが現状だ。その課題に幾つかの解決策が出てきた。転換期を迎えるHadoopをめぐる状況を整理しよう。 - いまさら聞けないHadoopとテキストマイニング入門
Hadoopとは何かを解説し、実際にHadoopを使って大規模データを対象にしたテキストマイニングを行います。テキストマイニングを行うサンプルプログラムの作成を通じて、Hadoopの使い方や、どのように活用できるのかを解説します - 欧米の金融業界は今、どうHadoopを活用しているか
Hadoopは、欧米の金融関連サービス業界でどう活用されているか。米Hortonworksの金融サービス業界担当ゼネラルマネージャーへのインタビューで得た情報を、2回に分けてお届けする。今回は金融業界におけるHadoopのユースケースを概観する。
Copyright © ITmedia, Inc. All Rights Reserved.