5日間の処理を1時間に短縮
DWHからHadoop移行で成功事例、欧州広告企業
2010/03/15
大規模サービスを展開するWeb企業から始まったHadoop利用だが、エンタープライズ分野でも少しずつ成功事例が出てきているようだ。Hadoopの商用パッケージとサポートに特化したベンチャー企業、米Clouderaの3月10日付ブログで、ヨーロッパでターゲティング広告事業を展開するnugg.adが成功事例を詳細に報告している。報告しているのはnugg.adのCTO、リチャード・フットン(Richard Hutton)氏。
nugg.adでは、2007年から2009年までの間、PostgreSQLをベースに古典的なデータウェアハウス(DWH)によるシステムを構築していたが、2009年6月から10月にかけてHadoopベースのシステムに移行。それまで5日かかっていたような処理が1時間にまで短縮し、計算処理の大幅時間短縮によって、これまで提供が考えられなかったような付加価値サービスの提供が可能となったという。
nugg.adはユーザーのクリックを集計して、そこから有益な広告を出すターゲティング広告の大手。ヨーロッパで最大規模だという。
ユーザーのクリック情報を集計して、リアルタイムでキャンペーンの効果測定やターゲティング広告の精度の追跡、レポートの作成、機械学習のための学習用データ作成、機械学習モデルの構築などを行うが、1日に生成されるデータ量が年々増えてしまったため、DWHを使ったアプローチではスケールしなくなったという。
2008年に1日30GBだったログの量は、2010年現在100GBに増加。1日分のデータを処理するのに23時間ほどかかるようになっていたという。さらに週次報告の作成には5日間を要し、2009年時点では常に1週間遅れという状態になっていた。これを計36コア、8TBのディスク容量があるクラスタで処理するようにして、5日の処理時間を1時間に短縮したと言う。
nugg.adでは新システムを検討するに当たって、当初は3台のHadoopクラスタから試験的に利用を開始したという。このとき、スケーラビリティ以外でHadoopを使うメリットと感じたのは、
- 管理・監視の容易さ
- 使いやすさ
- ソフトウェア・ライセンス料が発生しないこと
- システム拡張のコストはハードウェアのみであること
という点だという。nugg.adではまず、分散ファイルシステムのHDFS上にログデータを載せて、Pigスクリプトを書くところから始め、その後、Hadoopの標準的なAPIを使って必要なレポート作成の処理が行えるようになるまで1カ月ほどかかったという。さらにその後もDWHの機能を少しずつ移行して、4カ月で完全移行が終了したという。この作業の中で役立ったのは、Hadoopの解説書と、JVM上の動的言語として注目を集めつつある「Clojure」だったという(Clojureについては最近、解説書の邦訳も出ている)。
nugg.adでは処理時間を大幅に削減できたことで、機械学習の学習用統計データを顧客企業間で共有し、それによってターゲティング精度を上げられるオプションサービスの提供も可能になったという。これはHadoopのように、クラスタにサーバを追加することで処理性能を上げていけるスケールアウト型のアーキテクチャの恩恵という。
ClouderaはDebian GNU/Linux、Cent OS、Red Hat Enterprise LinuxなどのLinuxデストリビューション向けと、Amazon Web Services、rackspaceなどのクラウド(上のVM)向けのHadoopパッケージを提供している。nugg.adはHadoop利用に当たってClouderaのデストリビューションを利用している。
Clouderaの解説によれば、Hadoopは必ずしもDWHがこなす処理のすべてを置き換えるべきものではなく、構造化されたデータであれば従来型のOLAPソリューションを使い、複雑な非構造化データの処理にHadoopのようなMapReduce系のソリューションを使うことで、両者を併用できる、としている。いずれにしても、エンタープライズ市場における大規模データ処理で、DWHに加えて今後はHadoopの利用が進む可能性があると言えそうだ。
関連リンク
関連記事
情報をお寄せください:
- Oracleライセンス「SE2」検証 CPUスレッド数制限はどんな仕組みで制御されるのか (2017/7/26)
データベース管理システムの運用でトラブルが発生したらどうするか。DBサポートスペシャリストが現場目線の解決Tipsをお届けします。今回は、Oracle SE2の「CPUスレッド数制限」がどんな仕組みで行われるのかを検証します - ドメイン参加後、SQL Serverが起動しなくなった (2017/7/24)
本連載では、「SQL Server」で発生するトラブルを「どんな方法で」「どのように」解決していくか、正しい対処のためのノウハウを紹介します。今回は、「ドメイン参加後にSQL Serverが起動しなくなった場合の対処方法」を解説します - さらに高度なSQL実行計画の取得」のために理解しておくべきこと (2017/7/21)
日本オラクルのデータベーススペシャリストが「DBAがすぐ実践できる即効テクニック」を紹介する本連載。今回は「より高度なSQL実行計画を取得するために、理解しておいてほしいこと」を解説します - データベースセキュリティが「各種ガイドライン」に記載され始めている事実 (2017/7/20)
本連載では、「データベースセキュリティに必要な対策」を学び、DBMSでの「具体的な実装方法」や「Tips」などを紹介していきます。今回は、「各種ガイドラインが示すコンプライアンス要件に、データベースのセキュリティはどのように記載されているのか」を解説します
|
|
キャリアアップ
- - PR -
- - PR -
転職/派遣情報を探す
「ITmedia マーケティング」新着記事
CMOはなぜ短命? なぜ軽視される? いま向き合うべき3つの厳しい現実
プロダクト分析ツールを提供するAmplitudeのCMOが、2025年のマーケティングリーダーに課...
トラフィック1300%増、生成AIがEコマースを変える
アドビは、2024年のホリデーシーズンのオンラインショッピングデータを公開した。
「ドメインリスト貸し」は何がマズい? サイトの評判の不正使用について解説
「サイトの評判の不正使用」について理解し、正しい対策が取れるにしましょう。