PFIとNTTレゾナントが共同調査で報告

Hadoopは耐障害性に課題があるが実用性十分

2008/08/25

 Preferred Infrastructure(PFI)は8月25日、NTTレゾナントと共同で行った、オープンソースの分散システム「Hadoop」(ハドゥープ)に関する調査を行い、その解析資料を公開した。

 HadoopはApacheの1プロジェクトとして開発が進められているJavaで書かれたソフトウェアで、グーグルの大規模データ処理基盤技術である「Google File System」(GFS)、「MapReduce」をオープンソースで実装したもの。多数のサーバを使って大規模なデータ処理が行える。Hadoopへの貢献度の高さで知られる米ヤフーは2008年2月19日に、1万台のLinuxクラスタを使ったHadoopシステムを発表。5PBのディスクストレージを使い、Web検索用のデータを作成しているという。ヤフーのほか、Facebook、IBMなど採用例が増えており、注目されている(採用実績)。

 PFIとNTTレゾナントは、GFSとMapReduceの公開論文を比較対象とすることで、Hadoopに実装されている機能を調査した。また、ソースコード解析による実装方式の調査と、実験による基本性能の調査も行ったという。

 調査の結果、HadoopはGFSの論文で言及されている主要な機能を備えていることが分かったという。逆にHadoopのみが持つ機能として、Java以外の言語でMapReduceプログラムを記述できる「HadoopStreaming」や、MapReduceプログラム全体で使うファイルを簡単に扱う分散キャッシュ機能などがあるという。

 信頼性についてはHadoopで実装されていない機能があり、レポートは「信頼性には課題を残している」としている。具体的には、細かく分けられたデータの塊であるチャンク(Hadoopではブロック)について、一定のタイミングでバックグラウンドでチェックサムを取りファイルが壊れていないことを保証する自動チェックサム検査がHadoopで実装されていなかったり、分散ノードを管理するマスターサーバ(NameNode)が異常終了した場合、Hadoopでは手動で復旧させる必要があることなど、HDFS(Hadoop Distributed Filesystem)ではGFSほど耐障害性の機能が提供されていないという。Hadoopではディスク使用量が偏らないようチャンクを再配置するバランシング作業も自動化されていない。

 性能評価については、基本的なリード/ライトの速度測定、100GBのデータのソートなどを行い、いずれも12台のサーバで台数に対しておおむねリニアにスループットが向上することを確認。

 こうしたことから、レポートでは「Hadoopの実用性は十分」とし、「オープンソース分散システムの利用検討は、大規模なデータ処理を低コストで実現するための1つの手段として、企業にとっても重要な選択肢」と結論づけている。

(@IT 西村賢)

情報をお寄せください:

Java Agile フォーラム 新着記事

キャリアアップ

- PR -

注目のテーマ

- PR -
ソリューションFLASH

「ITmedia マーケティング」新着記事

LINEで求職者に合った採用情報を配信 No Companyが「チャットボット for 採用マーケティング」を提供開始
就活生が身近に利用しているLINEを通して手軽に自社の採用情報を受け取れる環境を作れる。

GoogleがIABのプライバシーサンドボックス批判に猛反論 完全論破へ42ページのレポートを公開
Googleは、米インタラクティブ広告協会から寄せられた批判について「多くの誤解と不正確...

広報担当者の悩みあるある「取材を受けたのに思ったような記事にならないのは何故?」
自社や自社の製品・サービスについて広く知ってもらうためにメディアの取材を増やすこと...