検索
連載

いまさら聞けないHadoopとテキストマイニング入門テキストマイニングで始める実践Hadoop活用(1)(3/3 ページ)

Hadoopとは何かを解説し、実際にHadoopを使って大規模データを対象にしたテキストマイニングを行います。テキストマイニングを行うサンプルプログラムの作成を通じて、Hadoopの使い方や、どのように活用できるのかを解説します

PC用表示 関連情報
Share
Tweet
LINE
Hatena
前のページへ |       

Hadoopを使うためのセットアップ

 手元のマシンで手軽に試してみたいという用途ならば、セットアップ済みのVMwareのイメージが公開されていて便利ですので、こちらの使用方法を解説します。

 ただ、本格的に使用するには、複数台のUNIX環境のサーバを用意することをお勧めします。

 UNIX環境をお持ちの方は、Hadoopのオフィシャルページなどを見てセットアップしてください。オフィシャルページの日本語訳もあります。

 また、「Cloudera's Distribution for Hadoop」を利用すると、apt-getyumなどのコマンドでインストールができ、より簡単にセットアップすできます。Web上にCloudera's Distribution for Hadoopのセットアップ方法の日本語記事が多数見つかりますので、そちらを参照してください。


 サーバを用意できないという方は、「Amazon Elastic MapReduce」というサービスの使用がおすすめです。これは、Amazonの仮想サーバでHadoopの処理を行えるサービスで、Hadoopのセットアップの手間がほとんど要りません。100台を1時間程度使用しても、大体1000円程度で使えます。


 まずは、手元のVMWare上で小さいデータでテストして、Amazon Elastic MapReduceで、大規模なデータを解析するという使い方がよいでしょう。

Windows用のHadoop VMをセットアップ

 Windows環境を対象に、Yahoo!から配布されている「Hadoop 0.20.S Virtual Machine」をセットアップする手順を説明します。

 Mac環境でもVMWare Fusionを使えば、動かすことが可能です。「Yahoo! Cloud Virtual Machine Appliance − Yahoo! Hadoop Blog」に詳しく解説されています。

  1. VMWare Player」をインストールVMWare Player」をインストール
  2. Hadoop 0.20.S Virtual Machine」をダウンロードHadoop 0.20.S Virtual Machine」をダウンロード
  3. ダウンロードしたファイルを解凍し、hadoop-appliance-0.20.S.vmxをダブルクリック
  4. 「移動しました」「コピーしました」という選択画面が現れるので,「コピーしました」を選択

 起動すると、以下のようにHadoop VMに関する情報が表示されます。

 ** Welcome to Apache Hadoop tutorial by Yahoo Inc. **
Linux : Ubuntu 8.04
Java  : JRE 6 Update 7 (See License info @ /usr/jre16/)
Login: hadoop-user, Passwd: hadoop (sudo privileges are granted). The other logins are hdfs and mapred (passwd: hadoop).
To start/stop hadoop: login as hadoop-user and run 'sudo /etc/init.d/hadoop restart' (also 'sudo /etc/init.d/hadoop' gives the usage)
To format the HDFS & clean all state/logs: login as hadoop-user and run 'sudo reinit-hadoop'
To shutdown Virtual Machine: login as hadoop-user and run 'sudo poweroff'
To access hdfs and run mapreduce jobs, login as hadoop-user and run kinit. The password is hadoopYahoo1234.
Environment for 'hadoop-user' (set in /home/hadoop-user/.profile)
$HADOOP_HOME=/usr/local/hadoop
$HADOOP_CONF_DIR=/usr/local/etc/hadoop-conf
$PATH=/usr/local/hadoop/bin:$PATH
IP Address of this Virtual Machine: 192.168.0.213

 VirtualMachineには、rootとhadoop-userというアカウントが設定されていて、パスワードは、それぞれroot、hadoopです。hadoop-userでログインしてください。

 なお、起動画面の、「IP Address of this Virtual Machine: 」と表示されているアドレスにPuTTYなどのSSHクライアント経由で接続すると、より便利です。

 すでにHadoopは起動された状態ですので、円周率を計算するサンプルを実行してみます。セキュリティ対応のHadoopなので、kinitでパスワードを入力してから実行します。パスワードは、hadoopYahoo1234です。

hadoop-user@hadoop-desk:~$ cd hadoop
hadoop-user@hadoop-desk:~$ kinit
Password for hadoop-user@LOCALDOMAIN:  hadoopYahoo1234
hadoop-user@hadoop-desk:~/hadoop$ bin/hadoop jar hadoop-examples-0.20.104.1.1006042001.jar pi 10 1000000

 実行すると以下のような円周率が計算されると思います。

……
Job Finished in 61.415 seconds
Estimated value of Pi is 3.14158440000000000000

 なお、Cloudera's Distribution for HadoopでもVMWare用のイメージが公開されています。

次回は、テキストマイニングプログラミング開始!

 今回は、Hadoopとテキストマイニングの概要と、Hadoopのセットアップ方法について解説しましたが、いかがでしたでしょうか。

 次回はいよいよ、テキストマイニングのMapReduceプログラムの作成に入っていきたいと思いますので、お楽しみに。


前のページへ |       

Copyright © ITmedia, Inc. All Rights Reserved.

ページトップに戻る