Hadoopの疑似分散モードと完全分散モードを試す:きょうから試せる Hadoop“スモールスタート”ガイド(4)(3/4 ページ)
実際にHadoopで処理を実装していきながら「Hadoopは、誰にだって扱える」を体感しましょう。今回は「Hadoopの疑似分散モード」「完全分散モードでHadoopクラスタを構築する手順」を解説します。
完全分散モードでHadoopクラスタを構築する
最後は完全分散モードを試してみましょう。
今回の例では3台の仮想サーバを使ってHadoopクラスタを構築してみます。
- 192.168.11.20(マスターノード)
- 192.168.11.21(スレーブノード1)
- 192.168.11.22(スレーブノード2)
まず疑似分散モードのときのようにそれぞれのサーバ同士がSSHで鍵無しアクセスできるように設定しないといけないのですが、完全分散モードの場合、それぞれのサーバへのアクセスがホスト名で行えるように設定しなければいけません。/etc/hostsファイルを以下のように編集し、それぞれのサーバにホスト名を設定してください。今回はそれぞれにhadoop1、hadoop2、hadoop3というホスト名を付けました。
192.168.11.20 hadoop1 192.168.11.21 hadoop2 192.168.11.22 hadoop3
設定したらそれぞれのサーバ上からSSHでそれぞれのサーバにログインできることを確認しておきましょう。ホスト名で問題なくログインできれば大丈夫です。
ここからは各種設定をしていきます。まず、マスターノード(今回はhadoop1)上で以下の2つのファイルを編集します。これもすべてホスト名で設定するので注意してください。
- $HADOOP_HOME/conf/masters(マスターノードのホスト名を指定)
- $HADOOP_HOME/conf/slaves(スレーブノードのホスト名を指定)
hadoop1
hadoop1 hadoop2 hadoop3
また、全ノード上で以下のファイルを設定します。
- $HADOOP_HOME/conf/core-site.xm(l 全体の設定)
- $HADOOP_HOME/conf/mapred-site.xm(l MapReduceの設定)
- $HADOOP_HOME/conf/hdfs-site.xm(l HDFSの設定)
具体的な設定内容は以下のようになります。
HDFSのフォーマット
ここまで来たら設定は完了です。疑似分散モードのときと同じようにHDFSのフォーマットを行います。マスターノード(hadoop1)上で実行してください。
疑似分散モードでHadoopを起動していたサーバをそのまま使っている場合など、フォーマットがうまくいかない場合があると思います。もしフォーマットがうまくいかない場合には各サーバで以前にHDFSのディレクトリが構築されたディレクトリ(つまり/tmp/hadoop-hadoop)を一度削除してから再度フォーマットしてみてください。
デーモンの起動
最後にデーモンを起動します。こちらもマスターノード(hadoop1)上で実行してください。
分散疑似モードのときとは違い、デーモンがそれぞれのサーバで起動していることがわかります。前述したjpsコマンドを使えばきちんと起動していることが確認できるのでやってみてください。hadoop1上で実行するとこのような結果になるでしょう。
スレーブノード(hadoop2、hadoop3)上で実行すればデータノードとタスクトラッカーだけが起動していることがわかります。
Hadoop処理の実行
これで準備は整いました。では、実際に完全分散モードで動かしてみます。疑似分散モードのときと同じように、inputディレクトリをそのままHDFS上に配置します。
Hadoop処理を実行するコマンドはスタンドアロンモードや疑似分散モードのときと同じです。どのモード(スタンドアロンモード、疑似分散モード、完全分散モード)で実行されるかは設定ファイルの設定によって判定されます。
※11 HDFS上にoutputディレクトリが存在しない場合には省略可能です
結果はこのようになりました。正しくカウントされていることがわかります。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
- もし、あなたが「“ビッグデータプロジェクト”を任せる。何とかするように」と言われたら
「ビッグデータプロジェクトを始めることになった」ら、具体的に何をするのか。本連載は、「ビッグデータプロジェクトの“進め方”」を業務視点/ビジネス視点の両面から体系的に理解し、具体的に実践していく方のためのナレッジアーカイブです。第1回目は、「ビッグデータとは何か」の基礎と、「ビッグデータ基盤の概要とメリット」を解説します。 - Hadoopは「難しい・遅い・使えない」? 越えられない壁がある理由と打開策を整理する
ブームだったHadoop。でも実際にはアーリーアダプター以外には、扱いにくくて普及が進まないのが現状だ。その課題に幾つかの解決策が出てきた。転換期を迎えるHadoopをめぐる状況を整理しよう。 - いまさら聞けないHadoopとテキストマイニング入門
Hadoopとは何かを解説し、実際にHadoopを使って大規模データを対象にしたテキストマイニングを行います。テキストマイニングを行うサンプルプログラムの作成を通じて、Hadoopの使い方や、どのように活用できるのかを解説します - 欧米の金融業界は今、どうHadoopを活用しているか
Hadoopは、欧米の金融関連サービス業界でどう活用されているか。米Hortonworksの金融サービス業界担当ゼネラルマネージャーへのインタビューで得た情報を、2回に分けてお届けする。今回は金融業界におけるHadoopのユースケースを概観する。