PFIとNTTレゾナントが共同調査で報告

Hadoopは耐障害性に課題があるが実用性十分

2008/08/25

 Preferred Infrastructure(PFI)は8月25日、NTTレゾナントと共同で行った、オープンソースの分散システム「Hadoop」(ハドゥープ)に関する調査を行い、その解析資料を公開した。

 HadoopはApacheの1プロジェクトとして開発が進められているJavaで書かれたソフトウェアで、グーグルの大規模データ処理基盤技術である「Google File System」(GFS)、「MapReduce」をオープンソースで実装したもの。多数のサーバを使って大規模なデータ処理が行える。Hadoopへの貢献度の高さで知られる米ヤフーは2008年2月19日に、1万台のLinuxクラスタを使ったHadoopシステムを発表。5PBのディスクストレージを使い、Web検索用のデータを作成しているという。ヤフーのほか、Facebook、IBMなど採用例が増えており、注目されている(採用実績)。

 PFIとNTTレゾナントは、GFSとMapReduceの公開論文を比較対象とすることで、Hadoopに実装されている機能を調査した。また、ソースコード解析による実装方式の調査と、実験による基本性能の調査も行ったという。

 調査の結果、HadoopはGFSの論文で言及されている主要な機能を備えていることが分かったという。逆にHadoopのみが持つ機能として、Java以外の言語でMapReduceプログラムを記述できる「HadoopStreaming」や、MapReduceプログラム全体で使うファイルを簡単に扱う分散キャッシュ機能などがあるという。

 信頼性についてはHadoopで実装されていない機能があり、レポートは「信頼性には課題を残している」としている。具体的には、細かく分けられたデータの塊であるチャンク(Hadoopではブロック)について、一定のタイミングでバックグラウンドでチェックサムを取りファイルが壊れていないことを保証する自動チェックサム検査がHadoopで実装されていなかったり、分散ノードを管理するマスターサーバ(NameNode)が異常終了した場合、Hadoopでは手動で復旧させる必要があることなど、HDFS(Hadoop Distributed Filesystem)ではGFSほど耐障害性の機能が提供されていないという。Hadoopではディスク使用量が偏らないようチャンクを再配置するバランシング作業も自動化されていない。

 性能評価については、基本的なリード/ライトの速度測定、100GBのデータのソートなどを行い、いずれも12台のサーバで台数に対しておおむねリニアにスループットが向上することを確認。

 こうしたことから、レポートでは「Hadoopの実用性は十分」とし、「オープンソース分散システムの利用検討は、大規模なデータ処理を低コストで実現するための1つの手段として、企業にとっても重要な選択肢」と結論づけている。

(@IT 西村賢)

情報をお寄せください:

Java Agile フォーラム 新着記事

キャリアアップ

- PR -

注目のテーマ

- PR -
ソリューションFLASH

「ITmedia マーケティング」新着記事

ハッシュタグはオワコン? イーロン・マスク氏も「使うな」と投稿、その意図は……
ハッシュ記号(#)とキーワードを連結させることで投稿のトピックを明示する「ハッシュタ...

mixi2で「企業アカウント」を始める前に知っておきたい3つのポイント
2024年末に電撃デビューした国産SNS「mixi2」。企業の新たなコミュニケーションチャネル...

「サイト内検索」&「ライブチャット」売れ筋TOP5(2024年12月)
今週は、サイト内検索ツールとライブチャットの国内売れ筋TOP5をそれぞれ紹介します。