「素のHadoop」をインストールして、簡単な処理を実行する：きょうから試せる Hadoop“スモールスタート”ガイド（3）（3/3 ページ）

実際にHadoopで処理を実装していきながら「Hadoopは、誰にだって扱える」を体感しましょう。今回は「実際にHadoopをインストール」し、基礎処理である「ワードカウント」を実行するまでを解説します。

LINE

Hatena

スタンドアロンモード

　では、スタンドアロンモードでHadoopを動かしてみましょう。スタンドアロンモードではファイルシステムとしてローカルのファイルシステムを使うため、特別な準備を必要とせず気軽に試してみることができます。まずはHadoopを動作させてみたいという場合にオススメです。

　非常に単純でHadoopを使うまでもない例ですが、動作確認のためにHadoopに最初から組み込みで提供されているワードカウントを動かしてみましょう。入力ファイルがinputディレクトリの中に置かれていて、出力ファイルがoutputディレクトリの中に生成されるとすると、このようなコマンドとなります。

input/a

a b c

input/b

a a b c c c

　ただし、出力ディレクトリが既に存在している場合には以下のようなエラーメッセージが出力されて処理が失敗するので、outputディレクトリを削除してから再実行してください。

　出力結果はoutputディレクトリに記録されます。今回の例だとこのような結果となり、ワードカウントが正しく動いたことが確認できます。

Hadoopファーストガイド

佐々木達也著
秀和システム 2400円（税別）
「ビッグデータ（＝従来のコンピュータシステムでは、しまったり、探し出したり、調査したり、人間にわかりやすく加工したりが難しい、とても大きなデータ）なんて自分には関係ない」そう思っているエンジニアに贈る「Hadoop」の体験型入門書です。数億のユーザを抱えるSNSの利用データのように「雲をつかむような話」ではなく、Webサイトエンジニアや普通のプログラマが親しみを感じられるような普通のデータと、Amazon EMRという手軽な実験環境を使い、実際にHadoopを動かしてみます。手軽に短い時間で分散処理のメリットを体験することで、手元の業務に眠っているかもしれないビッグデータの活用に可能性を見出せるかもしれません。

「素のHadoop」をインストールして、簡単な処理を実行する：きょうから試せる Hadoop“スモールスタート”ガイド（3）（3/3 ページ）

スタンドアロンモード

Hadoopファーストガイド

関連記事

総合記事ランキング