では、スタンドアロンモードでHadoopを動かしてみましょう。スタンドアロンモードではファイルシステムとしてローカルのファイルシステムを使うため、特別な準備を必要とせず気軽に試してみることができます。まずはHadoopを動作させてみたいという場合にオススメです。
非常に単純でHadoopを使うまでもない例ですが、動作確認のためにHadoopに最初から組み込みで提供されているワードカウントを動かしてみましょう。入力ファイルがinputディレクトリの中に置かれていて、出力ファイルがoutputディレクトリの中に生成されるとすると、このようなコマンドとなります。
a b c
a a b c c c
ただし、出力ディレクトリが既に存在している場合には以下のようなエラーメッセージが出力されて処理が失敗するので、outputディレクトリを削除してから再実行してください。
出力結果はoutputディレクトリに記録されます。今回の例だとこのような結果となり、ワードカウントが正しく動いたことが確認できます。
佐々木達也著
秀和システム 2400円(税別)
「ビッグデータ(=従来のコンピュータシステムでは、しまったり、探し出したり、調査したり、人間にわかりやすく加工したりが難しい、とても大きなデータ)なんて自分には関係ない」そう思っているエンジニアに贈る「Hadoop」の体験型入門書です。数億のユーザを抱えるSNSの利用データのように「雲をつかむような話」ではなく、Webサイトエンジニアや普通のプログラマが親しみを感じられるような普通のデータと、Amazon EMRという手軽な実験環境を使い、実際にHadoopを動かしてみます。手軽に短い時間で分散処理のメリットを体験することで、手元の業務に眠っているかもしれないビッグデータの活用に可能性を見出せるかもしれません。
Copyright © ITmedia, Inc. All Rights Reserved.