「素のHadoop」をインストールして、簡単な処理を実行する:きょうから試せる Hadoop“スモールスタート”ガイド(3)(3/3 ページ)
実際にHadoopで処理を実装していきながら「Hadoopは、誰にだって扱える」を体感しましょう。今回は「実際にHadoopをインストール」し、基礎処理である「ワードカウント」を実行するまでを解説します。
スタンドアロンモード
では、スタンドアロンモードでHadoopを動かしてみましょう。スタンドアロンモードではファイルシステムとしてローカルのファイルシステムを使うため、特別な準備を必要とせず気軽に試してみることができます。まずはHadoopを動作させてみたいという場合にオススメです。
非常に単純でHadoopを使うまでもない例ですが、動作確認のためにHadoopに最初から組み込みで提供されているワードカウントを動かしてみましょう。入力ファイルがinputディレクトリの中に置かれていて、出力ファイルがoutputディレクトリの中に生成されるとすると、このようなコマンドとなります。
a b c
a a b c c c
ただし、出力ディレクトリが既に存在している場合には以下のようなエラーメッセージが出力されて処理が失敗するので、outputディレクトリを削除してから再実行してください。
出力結果はoutputディレクトリに記録されます。今回の例だとこのような結果となり、ワードカウントが正しく動いたことが確認できます。
Hadoopファーストガイド
佐々木達也著
秀和システム 2400円(税別)
「ビッグデータ(=従来のコンピュータシステムでは、しまったり、探し出したり、調査したり、人間にわかりやすく加工したりが難しい、とても大きなデータ)なんて自分には関係ない」そう思っているエンジニアに贈る「Hadoop」の体験型入門書です。数億のユーザを抱えるSNSの利用データのように「雲をつかむような話」ではなく、Webサイトエンジニアや普通のプログラマが親しみを感じられるような普通のデータと、Amazon EMRという手軽な実験環境を使い、実際にHadoopを動かしてみます。手軽に短い時間で分散処理のメリットを体験することで、手元の業務に眠っているかもしれないビッグデータの活用に可能性を見出せるかもしれません。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
- もし、あなたが「“ビッグデータプロジェクト”を任せる。何とかするように」と言われたら
「ビッグデータプロジェクトを始めることになった」ら、具体的に何をするのか。本連載は、「ビッグデータプロジェクトの“進め方”」を業務視点/ビジネス視点の両面から体系的に理解し、具体的に実践していく方のためのナレッジアーカイブです。第1回目は、「ビッグデータとは何か」の基礎と、「ビッグデータ基盤の概要とメリット」を解説します。 - Hadoopは「難しい・遅い・使えない」? 越えられない壁がある理由と打開策を整理する
ブームだったHadoop。でも実際にはアーリーアダプター以外には、扱いにくくて普及が進まないのが現状だ。その課題に幾つかの解決策が出てきた。転換期を迎えるHadoopをめぐる状況を整理しよう。 - いまさら聞けないHadoopとテキストマイニング入門
Hadoopとは何かを解説し、実際にHadoopを使って大規模データを対象にしたテキストマイニングを行います。テキストマイニングを行うサンプルプログラムの作成を通じて、Hadoopの使い方や、どのように活用できるのかを解説します - 欧米の金融業界は今、どうHadoopを活用しているか
Hadoopは、欧米の金融関連サービス業界でどう活用されているか。米Hortonworksの金融サービス業界担当ゼネラルマネージャーへのインタビューで得た情報を、2回に分けてお届けする。今回は金融業界におけるHadoopのユースケースを概観する。