次世代Hadoopの特徴は、
MapReduce 2とGiraph


Hadoopの父に聞く、HadoopとClouderaの現在・未来

有限会社オングス
後藤 大地
2011/9/15


増え続けるHadoop活用企業

 大規模データの分析に、Javaのフレームワーク「Apache Hadoop」(以下、Hadoop)を採用する事例が増えている。HadoopはMapReduceの実装系の1つで、特にログデータ解析やリサーチ目的の大規模データ分析や計算などに活用されている。TwitterやFacebook、mixi、LinkedIn、Groupon、Amazon、eBay、Yahoo!、楽天、クックパッド、リクルート、ディー・エヌ・エー、サイバーエージェントなどのいわゆるWebサービス系企業だけでなく、NTTデータ、Amazon Web Services、国立国会図書館、EMC、PFI、ウルシステムズ、ファーウエイ・テクノロジーズなど、さまざまな企業が活用している。

 今回、Hadoopの開発者でありHadoopの代表的な支援企業の1つ米ClouderaのチーフアーキテクトであるDoug Cutting(ダグ・カッティング)氏が来日し、Hadoopの利用状況や次期Hadoopについて話を聞く機会を得た。その興味深い内容を紹介する。

大量データの分析が優れた結果につながる


米Cloudera チーフアーキテクト Doug Cutting(ダグ・カッティング)氏。オープンソースの検索エンジン「Lucene」「Nutch」の創始者でもある。Clouderaの前は、Excite、Apple、Xerox パロアルト研究所、Yahoo!に在籍。「少ないデータよりも多いデータの方が良い。より良い分析結果を得られる。大量のデータはプロダクションアルゴリズムを超える。より多くのデータが好ましい」

 Hadoopが注目されている背景には、大量のデータを分析することで優れた“結果”が得られやすいからという理由がある。また、分析すべきデータの量は1台のPCで捌けるようなレベルをはるかに超えるケースが増えており、複数のPCを使って処理を実施する必要がある。Hadoopのような分散処理が可能な実装系がなくてはデータ分析を実現できないという現実もある。

 「日本におけるHadoopの活用事例はよく分からないが、グローバルに最もよく使われるシーンはログデータの解析だ。集めたデータを集計して分析することで、Webサイトの品質を上げる資料として活用したり、運用予測のためのデータとして利用できる。もう1つ良く使われるのはインデックス化だ。データを集積してきて分類および整形を実施し、データベースで利用できる形へ加工する」(カッティング氏)

 「Hadoopはバッチ処理にも使われているが、アドホックな(特定の目的のための)処理にもよく活用されている。いわゆる“リサーチ”目的としてトライ&エラーを繰り返して処理をしていくということも行われている」(カッティング氏)

 データ分析に使われるHadoopだが、開発者や技術者が通常の計算用途でも活用している点に注目しておきたい。MapReduceの扱い方が分かっていれば、Hadoopは高速に処理を実施するための便利なプラットフォームとして活用できる。

Hadoopといえば米Cloudera - 日本は米国に次ぐ第2の市場

 「われわれのビジネスはRed HatがLinuxで行っていることとよく似ている。HadoopならCloudera、ということだ。サービスやサポートなど、Hadoopなどのソフトウェアに価値を与えるといったことをやっている。トレーニングも提供しており、バグ修正といったソフトウェアサポートも提供している。企業は自分たちでバグを直したいとは考えないものだからだ」(カッティング氏)

 米Clouderaの主要市場は米国だが、同社にとって次に大きな市場は日本だという。たしかに、すでに米Clouderaは日本の企業とリセラー契約を結んでおり、2011年9月からは日本語によるトレーニングも開始される。

 「これは、あくまでも推測であって決定事項ではないが、日本の次に重要になる市場は欧州、特にイギリスとドイツ辺りではないかと考えている。アジアで日本以外ではどこが次の市場になるのかは分からない。大きな人口があり大きな市場があったとしても、それが次の市場になるとは限らないからだ」(カッティング氏)

 またカッティング氏はこう続ける。「われわれは顧客をベンダロックインの状態にはしたくないという想いがある。このため、すべてのAPIはオープンソースという形で公開している。われわれは同時にモニタリングソフトウェアの販売もしているが、これはHadoopとは切り離したビジネスとなっている」

プロダクト販売ではなく、価値を高めるサービスを提供

 米ClouderaはHadoopを含むいくつかのオープンソースプロダクトをまとめたプラットフォーム「CDH(Cloudera's Distribution including Apache Hadoop)」を提供している。Hadoopを実際に活用できる形にまとめあげたプロダクトだ。「CDH」のようなプロダクトを活用することで簡単に効率の良い処理環境を構築できるという。

 「われわれのオープンソースプロダクトであるCDHは多くのユーザーが活用している。オープンソースで提供しているため正確な数は分からないが、数百から場合によっては数千のユーザーが使っていると見られる」(カッティング氏)

 「どの程度の顧客がいるのかは、なかなかお伝えできないのだが、われわれは顧客が増えた分だけ従業員を雇うという哲学を持っている。すでに100人を超える従業員を雇用している。日本では5名ほどの従業員が業務に従事している。従業員が少ないと感じるかもしれないが、これは日本にはNTTデータなどのリセラーがすでに存在しているからだ」(カッティング氏)

次期Hadoopは大幅にパフォーマンス・アップ

 すでにHadoopを利用している開発者や運用者としては、2012年に登場するとみられる次期Hadoopでどういった変更があるのかが気になるところだ。カッティング氏に次期Hadoopや次期CDHに関する特徴を教えてもらった。

 「来年登場することになるHadoopでは多くの新機能が追加される。まず、『HDFS(Hadoop Distributed File System)』のパフォーマンスが改善される。特に、読み込みに関するパフォーマンスが向上する。読み込みが頻繁に実施される『HBase』といったアプリケーションの性能向上が期待できる。HDFSのもう1つの改善はネームノードの冗長化にある。これによって可用性が向上することになる」(カッティング氏)

 「MapReduceに関しては、『MapReduce 2』と呼ばれる完全に書き換えられた実装が導入される。MapReduce 2では、既存の実装を“ジョブの実行”と“スケジューリング”という2つへの分離が実施されている。MapReduce 2を導入することで、1つのクラスタでMapReduce以外のアルゴリズムも実行できるようになる。その例はグラフアルゴリズムの処理などだ。具体的には大規模グラフ処理を実現する『Giraph』が導入されることになるだろう。ソーシャルグラフであるとかWebページのリンクであるとか、いわゆる『グラフ構造』を処理するためのものだ」(カッティング氏)

 「次期CDHに関して、おそらく最も大きな変更は『Apache Bigtop』の採用にある。Bigtopは試験からビルドまでを自動化する機能。この機能を利用してCDHに自由に機能を組み込めるようにする。そもそも次期CDHはBigtopを使って構築されることになる。恐らく2012年の前半には次期CDHをリリースできるだろう。同梱される配布物はすべて最新版にアップデートされることになる」(カッティング氏)

Asakusaフレームワーク、初めて知ったけど興味深いね

 日本におけるHadoopといえば「Asakusa」フレームワークを思い浮かべるユーザーも多いだろう。最後に、カッティング氏にAsakusaフレームワークについてたずねてみた。

 「日本に来るまでAsakusaフレームワークについて知らなかったのだが、この数日間、いろんな人からAsakusaフレームワークについて話を聞いて興味を持っている。発想がとても興味深く、もっと知りたいと思っている」(カッティング氏)

Hadoopのマスコットの基になったという、黄色い象のぬいぐるみを持ち、笑顔で撮影に応じてくれたカッティング氏。「数あるHadoopのサブプロジェクトの中で人気があるのは、機械学習/データマイニングのライブラリ『Apache Mahout』だ。次期Hadoopにも組み込まれる」

関連リンク


MapReduceのJava実装Apache Hadoopを使ってみた
いま再注目の分散処理技術(後編) 
オープンソースのHadoop
をインストールしてサンプルアプリを実行するまでの手順や利点を解説しつつ、Eclipseプラグインも紹介しよう
Java Solution」フォーラム 2008/9/29
テキストマイニングで始める実践Hadoop活用
Hadoopとは何かを解説し、実際にHadoopを使って、大規模データを対象にしたテキストマイニングを行います。テキストマイニングを行うサンプルプログラムの作成を通じて、Hadoopの使い方や、どのように活用できるのかを解説します
分散Key-Valueストアの本命「Bigtable」
RDBとは別の、クラウド時代のデータベースとして注目を浴びている「分散Key-Valueストア」。その本命ともいえる、Googleの数々のサービスの基盤技術「Bigtable」について徹底解説
 
「クラウドで守る」「クラウドを守る」
Hadoopでスパム対策も、米国発セキュリティトレンドレポート
 RSA Conference 2010でのディスカッションを基に「クラウドセキュリティ」の最新動向をレポート
Security&Trust」フォーラム 2010/5/11
Hadoop+Hive検証環境を構築してみる
Hive――RDB使いのためのHadoopガイド(前)
 Hadoop上でSQLライクな操作が可能なDWH向けのプロダクトHive。RDBに慣れた人にも使いやすいので、ぜひ試したい
Database Expert」フォーラム 2009/2/27

著者プロフィール



後藤 大地

オングス代表取締役。@ITへの寄稿、MYCOMジャーナルにおけるニュース執筆のほか、アプリケーション開発やシステム構築、『改訂第二版 FreeBSDビギナーズバイブル』『D言語パーフェクトガイド』『UNIX本格マスター 基礎編〜Linux&FreeBSDを使いこなすための第一歩〜』など著書多数。

Java Solution全記事一覧


Java Agile フォーラム 新着記事
@ITメールマガジン 新着情報やスタッフのコラムがメールで届きます(無料)

注目のテーマ

Java Agile 記事ランキング

本日 月間