「MapReduce」をサポートし、高速・安価を実現したDWH180万ドルで100テラバイトクラスのDWHを実現

» 2009年05月29日 00時00分 公開
[大津心,@IT]

 現在ほとんどの企業では、企業内データの急増に頭を悩ませている。同時にデータを集約し、分析する重要性も増している。従って、急増しているデータを有効活用するために、DWH(データウェアハウス)やBI(ビジネスインテリジェンス)などのツールを導入する企業も多い。ただし、分析基となるデータが急増しているために、DWHやBIの処理速度が遅いとクエリに対する処理に時間がかかり、実用面で問題が生じているのも事実だ。このことから、各DWHベンダはさまざまな手法でクエリの処理速度向上を目指している。その中でソフトウェアの並列処理だけで高速DWHを提供しているのが米グリーンプラムだ。今回は、米グリーンプラムでアジアパシフィック地域担当副社長を務めるキース・バッジ(Keith Budge)氏に話を聞いた。

写真 米グリーンプラム アジアパシフィック地域担当副社長 キース・バッジ氏

 グリーンプラムは、米国サンマテオに本社を置く社員100人程度のベンチャー企業。まだ起業したばかりで、現在IPOの準備をしている段階だという。同社の主力製品は「Greenplum Database」。現在、ワールドワイドで80社のユーザーがいるという。

 同製品はソフトウェアで、ハードウェアは汎用のものを利用できる点が特徴。また、「Nothing Shared Architecture」と呼ぶ超並列処理技術を採用、Googleが考案した大規模分散処理アルゴリズム「MapReduce」もサポートしている。必要な分だけ並列にサーバやストレージをつなげればよいので、コスト面で有利だという。バッジ氏は、「間違いなく拡張性が高い。1テラバイト程度から数ペタバイトまであらゆる規模のユーザーがいる。サーバを増やすだけで容量も速度も高めることができるので、非常に費用対効果が高い」と説明した。

 最大規模のユーザーは米eBayだという。eBayの場合6ペタバイト規模のDWHを構築しているという。また、MySpaceは1兆個のデータテーブルが存在し、毎日3テラバイトのデータが追加されているという。それを、40ノードのデータウェアハウスアプライアンスで管理、現在400テラバイト規模のDWHになっているとした。

 このDWHの基幹アーキテクチャである「Nothing Shared Architecture」は、1つのDBを複数のセグメントに分割し、複数台のサーバに分散配置。各サーバが自分の担当するセグメントを分散処理することでワークロードを分散することでスケーラビリティを確保している。クエリも並列実行し、テーブルスキャンや結合、集約などすべての操作もセグメント全体で同時に並列実行する。分散処理はマスタホストがすべて管理し、つながっているサーバの台数や構成を判断し、それに応じた分散処理を命令する仕組みだ。マイクロストラテジやSASなどとパートナーシップを締結しており、さまざまなBIツールとの連携も可能だという。現在のバージョンは「3.2」だが、2010年頭にはMapReduceを拡張した「4.0」をリリースする予定だ。

 バッジ氏は、「Greenplum DatabaseはPostgreSQLをベースにしているため、PostgreSQLに詳しい人ならすぐなじめるだろう。ソフトウェア製品なので、場合によっては既存のハードウェアを使って分散DWH環境を構築することもできる。ただし、ハードウェア性能を最大限発揮するために、デルやHP、日立といったメーカーごとの推奨構成なども提供している。あらゆるハードウェア構成に対応するために、『データ容量に応じた課金』や『買い切り』『年間契約』『CPU数課金』など、さまざまな課金制度を用意している」と説明した。

 また、昨今DWH製品選定時には、自社で実際に使っているデータを持ち込んでテスト/評価するのが主流になりつつある。そのため、グリーンプラムでは米国本社にテストセンターを設けているほか、日本で総代理店契約を締結している東京エレクトロンデバイスや、そのパートナー企業でもテスト環境を構築しており、日本のユーザー向けに実地テスト環境を提供しているとした。

 グリーンプラムは、2009年度末までに日本オフィスを設立するほか、東京エレクトロンデバイスとの関係を強化し、販売パートナーの拡大に努める。

Copyright © ITmedia, Inc. All Rights Reserved.

注目のテーマ