5日間の処理を1時間に短縮
DWHからHadoop移行で成功事例、欧州広告企業
2010/03/15
大規模サービスを展開するWeb企業から始まったHadoop利用だが、エンタープライズ分野でも少しずつ成功事例が出てきているようだ。Hadoopの商用パッケージとサポートに特化したベンチャー企業、米Clouderaの3月10日付ブログで、ヨーロッパでターゲティング広告事業を展開するnugg.adが成功事例を詳細に報告している。報告しているのはnugg.adのCTO、リチャード・フットン(Richard Hutton)氏。
nugg.adでは、2007年から2009年までの間、PostgreSQLをベースに古典的なデータウェアハウス(DWH)によるシステムを構築していたが、2009年6月から10月にかけてHadoopベースのシステムに移行。それまで5日かかっていたような処理が1時間にまで短縮し、計算処理の大幅時間短縮によって、これまで提供が考えられなかったような付加価値サービスの提供が可能となったという。
nugg.adはユーザーのクリックを集計して、そこから有益な広告を出すターゲティング広告の大手。ヨーロッパで最大規模だという。
ユーザーのクリック情報を集計して、リアルタイムでキャンペーンの効果測定やターゲティング広告の精度の追跡、レポートの作成、機械学習のための学習用データ作成、機械学習モデルの構築などを行うが、1日に生成されるデータ量が年々増えてしまったため、DWHを使ったアプローチではスケールしなくなったという。
2008年に1日30GBだったログの量は、2010年現在100GBに増加。1日分のデータを処理するのに23時間ほどかかるようになっていたという。さらに週次報告の作成には5日間を要し、2009年時点では常に1週間遅れという状態になっていた。これを計36コア、8TBのディスク容量があるクラスタで処理するようにして、5日の処理時間を1時間に短縮したと言う。
nugg.adでは新システムを検討するに当たって、当初は3台のHadoopクラスタから試験的に利用を開始したという。このとき、スケーラビリティ以外でHadoopを使うメリットと感じたのは、
- 管理・監視の容易さ
- 使いやすさ
- ソフトウェア・ライセンス料が発生しないこと
- システム拡張のコストはハードウェアのみであること
という点だという。nugg.adではまず、分散ファイルシステムのHDFS上にログデータを載せて、Pigスクリプトを書くところから始め、その後、Hadoopの標準的なAPIを使って必要なレポート作成の処理が行えるようになるまで1カ月ほどかかったという。さらにその後もDWHの機能を少しずつ移行して、4カ月で完全移行が終了したという。この作業の中で役立ったのは、Hadoopの解説書と、JVM上の動的言語として注目を集めつつある「Clojure」だったという(Clojureについては最近、解説書の邦訳も出ている)。
nugg.adでは処理時間を大幅に削減できたことで、機械学習の学習用統計データを顧客企業間で共有し、それによってターゲティング精度を上げられるオプションサービスの提供も可能になったという。これはHadoopのように、クラスタにサーバを追加することで処理性能を上げていけるスケールアウト型のアーキテクチャの恩恵という。
ClouderaはDebian GNU/Linux、Cent OS、Red Hat Enterprise LinuxなどのLinuxデストリビューション向けと、Amazon Web Services、rackspaceなどのクラウド(上のVM)向けのHadoopパッケージを提供している。nugg.adはHadoop利用に当たってClouderaのデストリビューションを利用している。
Clouderaの解説によれば、Hadoopは必ずしもDWHがこなす処理のすべてを置き換えるべきものではなく、構造化されたデータであれば従来型のOLAPソリューションを使い、複雑な非構造化データの処理にHadoopのようなMapReduce系のソリューションを使うことで、両者を併用できる、としている。いずれにしても、エンタープライズ市場における大規模データ処理で、DWHに加えて今後はHadoopの利用が進む可能性があると言えそうだ。
関連リンク
関連記事
情報をお寄せください:
- Oracleライセンス「SE2」検証 CPUスレッド数制限はどんな仕組みで制御されるのか (2017/7/26)
データベース管理システムの運用でトラブルが発生したらどうするか。DBサポートスペシャリストが現場目線の解決Tipsをお届けします。今回は、Oracle SE2の「CPUスレッド数制限」がどんな仕組みで行われるのかを検証します - ドメイン参加後、SQL Serverが起動しなくなった (2017/7/24)
本連載では、「SQL Server」で発生するトラブルを「どんな方法で」「どのように」解決していくか、正しい対処のためのノウハウを紹介します。今回は、「ドメイン参加後にSQL Serverが起動しなくなった場合の対処方法」を解説します - さらに高度なSQL実行計画の取得」のために理解しておくべきこと (2017/7/21)
日本オラクルのデータベーススペシャリストが「DBAがすぐ実践できる即効テクニック」を紹介する本連載。今回は「より高度なSQL実行計画を取得するために、理解しておいてほしいこと」を解説します - データベースセキュリティが「各種ガイドライン」に記載され始めている事実 (2017/7/20)
本連載では、「データベースセキュリティに必要な対策」を学び、DBMSでの「具体的な実装方法」や「Tips」などを紹介していきます。今回は、「各種ガイドラインが示すコンプライアンス要件に、データベースのセキュリティはどのように記載されているのか」を解説します
|
|
キャリアアップ
- - PR -
- - PR -
転職/派遣情報を探す
「ITmedia マーケティング」新着記事
プログラマティック広告はどう変化? 米国レポートから見える「今後の動向」
CTVとプライベートマーケットプレイスへの広告支出のシフトにより、米広告業界ではプログ...
「顧客体験」の重要性高まる 2024年「CX」関連の人気記事TOP10を紹介
今回の記事では、2024年「ITmedia ビジネスオンライン CX Experts」のアクセスランキング...
SNSの情報がアルゴリズムで最適化されていることを「知らない」が6割超 年代別では?
ロイヤリティ マーケティングは、10〜60代のSNS利用者を対象に、SNS情報の信用度に関する...