PFIとNTTレゾナントが共同調査で報告

Hadoopは耐障害性に課題があるが実用性十分

2008/08/25

 Preferred Infrastructure(PFI)は8月25日、NTTレゾナントと共同で行った、オープンソースの分散システム「Hadoop」(ハドゥープ)に関する調査を行い、その解析資料を公開した。

 HadoopはApacheの1プロジェクトとして開発が進められているJavaで書かれたソフトウェアで、グーグルの大規模データ処理基盤技術である「Google File System」(GFS)、「MapReduce」をオープンソースで実装したもの。多数のサーバを使って大規模なデータ処理が行える。Hadoopへの貢献度の高さで知られる米ヤフーは2008年2月19日に、1万台のLinuxクラスタを使ったHadoopシステムを発表。5PBのディスクストレージを使い、Web検索用のデータを作成しているという。ヤフーのほか、Facebook、IBMなど採用例が増えており、注目されている(採用実績)。

 PFIとNTTレゾナントは、GFSとMapReduceの公開論文を比較対象とすることで、Hadoopに実装されている機能を調査した。また、ソースコード解析による実装方式の調査と、実験による基本性能の調査も行ったという。

 調査の結果、HadoopはGFSの論文で言及されている主要な機能を備えていることが分かったという。逆にHadoopのみが持つ機能として、Java以外の言語でMapReduceプログラムを記述できる「HadoopStreaming」や、MapReduceプログラム全体で使うファイルを簡単に扱う分散キャッシュ機能などがあるという。

 信頼性についてはHadoopで実装されていない機能があり、レポートは「信頼性には課題を残している」としている。具体的には、細かく分けられたデータの塊であるチャンク(Hadoopではブロック)について、一定のタイミングでバックグラウンドでチェックサムを取りファイルが壊れていないことを保証する自動チェックサム検査がHadoopで実装されていなかったり、分散ノードを管理するマスターサーバ(NameNode)が異常終了した場合、Hadoopでは手動で復旧させる必要があることなど、HDFS(Hadoop Distributed Filesystem)ではGFSほど耐障害性の機能が提供されていないという。Hadoopではディスク使用量が偏らないようチャンクを再配置するバランシング作業も自動化されていない。

 性能評価については、基本的なリード/ライトの速度測定、100GBのデータのソートなどを行い、いずれも12台のサーバで台数に対しておおむねリニアにスループットが向上することを確認。

 こうしたことから、レポートでは「Hadoopの実用性は十分」とし、「オープンソース分散システムの利用検討は、大規模なデータ処理を低コストで実現するための1つの手段として、企業にとっても重要な選択肢」と結論づけている。

(@IT 西村賢)

情報をお寄せください:

Java Agile フォーラム 新着記事

キャリアアップ

- PR -

注目のテーマ

- PR -
ソリューションFLASH

「ITmedia マーケティング」新着記事

トランプ氏勝利で追い風 ところでTwitter買収時のマスク氏の計画はどこへ?――2025年のSNS大予測(X編)
2024年の米大統領選挙は共和党のドナルド・トランプ氏の勝利に終わった。トランプ氏を支...

AI導入の効果は効率化だけじゃない もう一つの大事な視点とは?
生成AIの導入で期待できる効果は効率化だけではありません。マーケティング革新を実現す...

ハロウィーンの口コミ数はエイプリルフールやバレンタインを超える マーケ視点で押さえておくべきことは?
ホットリンクは、SNSの投稿データから、ハロウィーンに関する口コミを調査した。