＠IT
アジャイル/DevOps
Java Agile
いまさら聞けないHadoopとテキストマイニング入門：...

いまさら聞けないHadoopとテキストマイニング入門：テキストマイニングで始める実践Hadoop活用（1）（3/3 ページ）

» 2011年06月21日 00時00分公開

[吉田一星，ヤフー株式会社]

前のページへ 1|2|3 　　　　　　

Hadoopを使うためのセットアップ

　手元のマシンで手軽に試してみたいという用途ならば、セットアップ済みのVMwareのイメージが公開されていて便利ですので、こちらの使用方法を解説します。

　ただ、本格的に使用するには、複数台のUNIX環境のサーバを用意することをお勧めします。

　UNIX環境をお持ちの方は、Hadoopのオフィシャルページなどを見てセットアップしてください。オフィシャルページの日本語訳もあります。

　また、「Cloudera's Distribution for Hadoop」を利用すると、apt-getやyumなどのコマンドでインストールができ、より簡単にセットアップすできます。Web上にCloudera's Distribution for Hadoopのセットアップ方法の日本語記事が多数見つかりますので、そちらを参照してください。

Documentation - Cloudera Support via kwout

　サーバを用意できないという方は、「Amazon Elastic MapReduce」というサービスの使用がおすすめです。これは、Amazonの仮想サーバでHadoopの処理を行えるサービスで、Hadoopのセットアップの手間がほとんど要りません。100台を1時間程度使用しても、大体1000円程度で使えます。

Amazon Elastic MapReduce via kwout

　まずは、手元のVMWare上で小さいデータでテストして、Amazon Elastic MapReduceで、大規模なデータを解析するという使い方がよいでしょう。

Windows用のHadoop VMをセットアップ

　Windows環境を対象に、Yahoo!から配布されている「Hadoop 0.20.S Virtual Machine」をセットアップする手順を説明します。

　Mac環境でもVMWare Fusionを使えば、動かすことが可能です。「Yahoo! Cloud Virtual Machine Appliance − Yahoo! Hadoop Blog」に詳しく解説されています。

「VMWare Player」をインストールVMWare Player」をインストール
「Hadoop 0.20.S Virtual Machine」をダウンロードHadoop 0.20.S Virtual Machine」をダウンロード
ダウンロードしたファイルを解凍し、hadoop-appliance-0.20.S.vmxをダブルクリック
「移動しました」「コピーしました」という選択画面が現れるので，「コピーしました」を選択

　起動すると、以下のようにHadoop VMに関する情報が表示されます。

 ** Welcome to Apache Hadoop tutorial by Yahoo Inc. **
Linux : Ubuntu 8.04
Java  : JRE 6 Update 7 (See License info @ /usr/jre16/)
Login: hadoop-user, Passwd: hadoop (sudo privileges are granted). The other logins are hdfs and mapred (passwd: hadoop).
To start/stop hadoop: login as hadoop-user and run 'sudo /etc/init.d/hadoop restart' (also 'sudo /etc/init.d/hadoop' gives the usage)
To format the HDFS & clean all state/logs: login as hadoop-user and run 'sudo reinit-hadoop'
To shutdown Virtual Machine: login as hadoop-user and run 'sudo poweroff'
To access hdfs and run mapreduce jobs, login as hadoop-user and run kinit. The password is hadoopYahoo1234.
Environment for 'hadoop-user' (set in /home/hadoop-user/.profile)
$HADOOP_HOME=/usr/local/hadoop
$HADOOP_CONF_DIR=/usr/local/etc/hadoop-conf
$PATH=/usr/local/hadoop/bin:$PATH
IP Address of this Virtual Machine: 192.168.0.213

　VirtualMachineには、rootとhadoop-userというアカウントが設定されていて、パスワードは、それぞれroot、hadoopです。hadoop-userでログインしてください。

　なお、起動画面の、「IP Address of this Virtual Machine: 」と表示されているアドレスにPuTTYなどのSSHクライアント経由で接続すると、より便利です。

　すでにHadoopは起動された状態ですので、円周率を計算するサンプルを実行してみます。セキュリティ対応のHadoopなので、kinitでパスワードを入力してから実行します。パスワードは、hadoopYahoo1234です。

hadoop-user@hadoop-desk:~$ cd hadoop
hadoop-user@hadoop-desk:~$ kinit
Password for hadoop-user@LOCALDOMAIN:  hadoopYahoo1234
hadoop-user@hadoop-desk:~/hadoop$ bin/hadoop jar hadoop-examples-0.20.104.1.1006042001.jar pi 10 1000000

　実行すると以下のような円周率が計算されると思います。

……
Job Finished in 61.415 seconds
Estimated value of Pi is 3.14158440000000000000

　なお、Cloudera's Distribution for HadoopでもVMWare用のイメージが公開されています。

次回は、テキストマイニングプログラミング開始！

　今回は、Hadoopとテキストマイニングの概要と、Hadoopのセットアップ方法について解説しましたが、いかがでしたでしょうか。

　次回はいよいよ、テキストマイニングのMapReduceプログラムの作成に入っていきたいと思いますので、お楽しみに。

「次回」へ

前のページへ 1|2|3 　　　　　　

SpecialPR

印刷／保存

連載通知

スポンサーからのお知らせPR

SpecialPR

Java Agile 記事ランキング

本日月間

» ランキングをもっと見る

＠IT eBook

システム開発ノウハウ【発注ナビ】PR

編集部からのお知らせ

【Amazonギフトカードプレゼント】6/4～6【無料オンラインセミナー】『＠IT 開発変革セミナー 2025 Spring』で、PayPayカードイシュイングサービス開発部部長岡元秀憲氏による【基調講演　PayPayカードのクラウド戦略～基幹システムの移行事例と現在の取り組み～】、アジャイルコーチ kyon_mm氏による【基調講演　DevSecOpsとAI活用】などを配信

あなたにおすすめの記事PR

@ITについて

RSSについて

＠ITのRSS一覧

アイティメディアIDについて

アイティメディアIDとは

メールマガジン登録

＠ITのメールマガジンは、もちろん、すべて無料です。ぜひメールマガジンをご購読ください。

申し込みページへ

ITmediaはアイティメディア株式会社の登録商標です。

いまさら聞けないHadoopとテキストマイニング入門：テキストマイニングで始める実践Hadoop活用（1）（3/3 ページ）

Hadoopを使うためのセットアップ

Windows用のHadoop VMをセットアップ

次回は、テキストマイニングプログラミング開始！

関連記事

＠IT eBook

Azure App Serviceであれもこれもできないと嘆く人に贈る無料の電子書籍『App Service on LinuxのNGINXカスタマイズ集』

クラウド時代の今だからこそ学び直す「Active Directory基礎のキソ」

Pythonのファイル操作まとめ：よく使うopen／with／Path／pickleなどを一冊に！　無料の電子書籍『解決！Python ファイル操作編』

エンジニアのお悩みは、エンジニアbotがお答えしましてよ　『エンジニアお悩みデバッグbot』鮮やかに爆誕！

編集部からのお知らせ

いまさら聞けないHadoopとテキストマイニング入門：テキストマイニングで始める実践Hadoop活用（1）（3/3 ページ）

Hadoopを使うためのセットアップ

Windows用のHadoop VMをセットアップ

次回は、テキストマイニングプログラミング開始！

関連記事

＠IT eBook

Azure App Serviceであれもこれもできないと嘆く人に贈る無料の電子書籍『App Service on LinuxのNGINXカスタマイズ集』

クラウド時代の今だからこそ学び直す「Active Directory基礎のキソ」

Pythonのファイル操作まとめ：よく使うopen／with／Path／pickleなどを一冊に！ 無料の電子書籍『解決！Python ファイル操作編』

エンジニアのお悩みは、エンジニアbotがお答えしましてよ 『エンジニアお悩みデバッグbot』鮮やかに爆誕！

編集部からのお知らせ

Pythonのファイル操作まとめ：よく使うopen／with／Path／pickleなどを一冊に！　無料の電子書籍『解決！Python ファイル操作編』

エンジニアのお悩みは、エンジニアbotがお答えしましてよ　『エンジニアお悩みデバッグbot』鮮やかに爆誕！