いまさら聞けないHadoopとテキストマイニング入門：テキストマイニングで始める実践Hadoop活用（1）（3/3 ページ）

Hadoopとは何かを解説し、実際にHadoopを使って大規模データを対象にしたテキストマイニングを行います。テキストマイニングを行うサンプルプログラムの作成を通じて、Hadoopの使い方や、どのように活用できるのかを解説します

[吉田一星，ヤフー株式会社] PC用表示関連情報

LINE

Hatena

前のページへ | 　　　　　　

Hadoopを使うためのセットアップ

　手元のマシンで手軽に試してみたいという用途ならば、セットアップ済みのVMwareのイメージが公開されていて便利ですので、こちらの使用方法を解説します。

　ただ、本格的に使用するには、複数台のUNIX環境のサーバを用意することをお勧めします。

　UNIX環境をお持ちの方は、Hadoopのオフィシャルページなどを見てセットアップしてください。オフィシャルページの日本語訳もあります。

　また、「Cloudera's Distribution for Hadoop」を利用すると、apt-getやyumなどのコマンドでインストールができ、より簡単にセットアップすできます。Web上にCloudera's Distribution for Hadoopのセットアップ方法の日本語記事が多数見つかりますので、そちらを参照してください。

Documentation - Cloudera Support via kwout

　サーバを用意できないという方は、「Amazon Elastic MapReduce」というサービスの使用がおすすめです。これは、Amazonの仮想サーバでHadoopの処理を行えるサービスで、Hadoopのセットアップの手間がほとんど要りません。100台を1時間程度使用しても、大体1000円程度で使えます。

Amazon Elastic MapReduce via kwout

　まずは、手元のVMWare上で小さいデータでテストして、Amazon Elastic MapReduceで、大規模なデータを解析するという使い方がよいでしょう。

Windows用のHadoop VMをセットアップ

　Windows環境を対象に、Yahoo!から配布されている「Hadoop 0.20.S Virtual Machine」をセットアップする手順を説明します。

　Mac環境でもVMWare Fusionを使えば、動かすことが可能です。「Yahoo! Cloud Virtual Machine Appliance − Yahoo! Hadoop Blog」に詳しく解説されています。

「VMWare Player」をインストールVMWare Player」をインストール
「Hadoop 0.20.S Virtual Machine」をダウンロードHadoop 0.20.S Virtual Machine」をダウンロード
ダウンロードしたファイルを解凍し、hadoop-appliance-0.20.S.vmxをダブルクリック
「移動しました」「コピーしました」という選択画面が現れるので，「コピーしました」を選択

　起動すると、以下のようにHadoop VMに関する情報が表示されます。

 ** Welcome to Apache Hadoop tutorial by Yahoo Inc. **
Linux : Ubuntu 8.04
Java  : JRE 6 Update 7 (See License info @ /usr/jre16/)
Login: hadoop-user, Passwd: hadoop (sudo privileges are granted). The other logins are hdfs and mapred (passwd: hadoop).
To start/stop hadoop: login as hadoop-user and run 'sudo /etc/init.d/hadoop restart' (also 'sudo /etc/init.d/hadoop' gives the usage)
To format the HDFS & clean all state/logs: login as hadoop-user and run 'sudo reinit-hadoop'
To shutdown Virtual Machine: login as hadoop-user and run 'sudo poweroff'
To access hdfs and run mapreduce jobs, login as hadoop-user and run kinit. The password is hadoopYahoo1234.
Environment for 'hadoop-user' (set in /home/hadoop-user/.profile)
$HADOOP_HOME=/usr/local/hadoop
$HADOOP_CONF_DIR=/usr/local/etc/hadoop-conf
$PATH=/usr/local/hadoop/bin:$PATH
IP Address of this Virtual Machine: 192.168.0.213

　VirtualMachineには、rootとhadoop-userというアカウントが設定されていて、パスワードは、それぞれroot、hadoopです。hadoop-userでログインしてください。

　なお、起動画面の、「IP Address of this Virtual Machine: 」と表示されているアドレスにPuTTYなどのSSHクライアント経由で接続すると、より便利です。

　すでにHadoopは起動された状態ですので、円周率を計算するサンプルを実行してみます。セキュリティ対応のHadoopなので、kinitでパスワードを入力してから実行します。パスワードは、hadoopYahoo1234です。

hadoop-user@hadoop-desk:~$ cd hadoop
hadoop-user@hadoop-desk:~$ kinit
Password for hadoop-user@LOCALDOMAIN:  hadoopYahoo1234
hadoop-user@hadoop-desk:~/hadoop$ bin/hadoop jar hadoop-examples-0.20.104.1.1006042001.jar pi 10 1000000

　実行すると以下のような円周率が計算されると思います。

……
Job Finished in 61.415 seconds
Estimated value of Pi is 3.14158440000000000000

　なお、Cloudera's Distribution for HadoopでもVMWare用のイメージが公開されています。

次回は、テキストマイニングプログラミング開始！

　今回は、Hadoopとテキストマイニングの概要と、Hadoopのセットアップ方法について解説しましたが、いかがでしたでしょうか。

　次回はいよいよ、テキストマイニングのMapReduceプログラムの作成に入っていきたいと思いますので、お楽しみに。

「次回」へ

「テキストマイニングで始める実践Hadoop活用」バックナンバー

いまさら聞けないHadoopとテキストマイニング入門：テキストマイニングで始める実践Hadoop活用（1）（3/3 ページ）

Hadoopを使うためのセットアップ

Windows用のHadoop VMをセットアップ

次回は、テキストマイニングプログラミング開始！

関連記事

Java Agile 記事ランキング