5日間の処理を1時間に短縮

DWHからHadoop移行で成功事例、欧州広告企業

2010/03/15

 大規模サービスを展開するWeb企業から始まったHadoop利用だが、エンタープライズ分野でも少しずつ成功事例が出てきているようだ。Hadoopの商用パッケージとサポートに特化したベンチャー企業、米Clouderaの3月10日付ブログで、ヨーロッパでターゲティング広告事業を展開するnugg.adが成功事例を詳細に報告している。報告しているのはnugg.adのCTO、リチャード・フットン(Richard Hutton)氏。

 nugg.adでは、2007年から2009年までの間、PostgreSQLをベースに古典的なデータウェアハウス(DWH)によるシステムを構築していたが、2009年6月から10月にかけてHadoopベースのシステムに移行。それまで5日かかっていたような処理が1時間にまで短縮し、計算処理の大幅時間短縮によって、これまで提供が考えられなかったような付加価値サービスの提供が可能となったという。

 nugg.adはユーザーのクリックを集計して、そこから有益な広告を出すターゲティング広告の大手。ヨーロッパで最大規模だという。

 ユーザーのクリック情報を集計して、リアルタイムでキャンペーンの効果測定やターゲティング広告の精度の追跡、レポートの作成、機械学習のための学習用データ作成、機械学習モデルの構築などを行うが、1日に生成されるデータ量が年々増えてしまったため、DWHを使ったアプローチではスケールしなくなったという。

 2008年に1日30GBだったログの量は、2010年現在100GBに増加。1日分のデータを処理するのに23時間ほどかかるようになっていたという。さらに週次報告の作成には5日間を要し、2009年時点では常に1週間遅れという状態になっていた。これを計36コア、8TBのディスク容量があるクラスタで処理するようにして、5日の処理時間を1時間に短縮したと言う。

 nugg.adでは新システムを検討するに当たって、当初は3台のHadoopクラスタから試験的に利用を開始したという。このとき、スケーラビリティ以外でHadoopを使うメリットと感じたのは、

  • 管理・監視の容易さ
  • 使いやすさ
  • ソフトウェア・ライセンス料が発生しないこと
  • システム拡張のコストはハードウェアのみであること

という点だという。nugg.adではまず、分散ファイルシステムのHDFS上にログデータを載せて、Pigスクリプトを書くところから始め、その後、Hadoopの標準的なAPIを使って必要なレポート作成の処理が行えるようになるまで1カ月ほどかかったという。さらにその後もDWHの機能を少しずつ移行して、4カ月で完全移行が終了したという。この作業の中で役立ったのは、Hadoopの解説書と、JVM上の動的言語として注目を集めつつある「Clojure」だったという(Clojureについては最近、解説書の邦訳も出ている)。

 nugg.adでは処理時間を大幅に削減できたことで、機械学習の学習用統計データを顧客企業間で共有し、それによってターゲティング精度を上げられるオプションサービスの提供も可能になったという。これはHadoopのように、クラスタにサーバを追加することで処理性能を上げていけるスケールアウト型のアーキテクチャの恩恵という。

 ClouderaはDebian GNU/Linux、Cent OS、Red Hat Enterprise LinuxなどのLinuxデストリビューション向けと、Amazon Web Services、rackspaceなどのクラウド(上のVM)向けのHadoopパッケージを提供している。nugg.adはHadoop利用に当たってClouderaのデストリビューションを利用している。

 Clouderaの解説によれば、Hadoopは必ずしもDWHがこなす処理のすべてを置き換えるべきものではなく、構造化されたデータであれば従来型のOLAPソリューションを使い、複雑な非構造化データの処理にHadoopのようなMapReduce系のソリューションを使うことで、両者を併用できる、としている。いずれにしても、エンタープライズ市場における大規模データ処理で、DWHに加えて今後はHadoopの利用が進む可能性があると言えそうだ。

(@IT 西村賢)

情報をお寄せください:

Database Expert フォーラム 新着記事
@ITメールマガジン 新着情報やスタッフのコラムがメールで届きます(無料)

キャリアアップ

- PR -

注目のテーマ

- PR -
ソリューションFLASH

「ITmedia マーケティング」新着記事

プログラマティック広告はどう変化? 米国レポートから見える「今後の動向」
CTVとプライベートマーケットプレイスへの広告支出のシフトにより、米広告業界ではプログ...

「顧客体験」の重要性高まる 2024年「CX」関連の人気記事TOP10を紹介
今回の記事では、2024年「ITmedia ビジネスオンライン CX Experts」のアクセスランキング...

SNSの情報がアルゴリズムで最適化されていることを「知らない」が6割超 年代別では?
ロイヤリティ マーケティングは、10〜60代のSNS利用者を対象に、SNS情報の信用度に関する...