スピード競争の行きつく先[Analysis]

» 2009年02月23日 00時00分 公開
[大津心,@IT]

 企業内データが増加し続けている。サーバやストレージが安価になったことで、事業部単位でサーバなどが構築しやすくなったことに加えて、ディスク容量に余裕が出てきたことから、ユーザーも比較的安易にデータを溜めやすくなっている点も一因に挙げられるだろう。一方で、経営陣は企業内のデータを有効活用するために、BI(ビジネスインテリジェンス)DWH(データウェアハウス)を導入し、何とか企業に蓄積している玉石混淆のデータから宝石を取りだしたいと願っている。

 そこで注目を集めているのが、前述のBIやDWHだ。筆者は以前BIについて書かせていただいたので、今回はDWHに注目したい。DWHとは意思決定を支援するためのデータベースシステムで、企業内に散らばるDB(データベース)やシステムから集めた、意思決定のための生のデータを蓄積するためのものだ。

 当然、社内中のシステムやDBからデータが集まってくるため、データ量がかなり膨大になる。場合によってはテラバイトを超えて、ペタバイト級のものもあるという。DWHの性質上、膨大なデータが蓄積するのが宿命なので、そこで課題になるのが「膨大なデータをいかに迅速に処理できるか」だ。DWHベンダ各社はこの点をかなり競っている。

 データ量や分析の複雑さ、データに含まれるゴミの量などによっても左右されるが、データ分析のバッチを走らせるのに数時間〜数日間かかるケースが多かった。日々データが増え続けるため、夜間バッチが終わらずに翌朝の業務に支障が出るようなケースもある。それがいまでは、ハードウェアやDWH性能の向上により、テラバイトやペタバイト級のデータをほぼリアルタイムで分析できるケースもあるという。

 やはり、データ分析においてこのようなスピードは大きな武器になる。小売業などではリアルタイムに販売傾向が分析できれば、より正確なマーケティング分析を行うことが可能だろう。このように大容量データ分析が比較的身近になったことから、DWHの新規導入や入れ替えを検討している企業も多い。

 このようなユーザーニーズに応えるため、DWHベンダ各社はさまざまな工夫を用いてDWHの処理速度向上に励んでいる。ハードウェアに工夫して処理速度を上げているベンダや、データクリーニング精度を向上させて、必要なデータだけ分析することで速度を上げているベンダ、高度なチューニングを施すベンダ……などなど。各社それぞれ努力している。しかし、なかなか技術面のアピールだけでは差別化が難しいため、最近では実際にDWHにデータを入れて時間を測るという原始的かつ明快な方法で比較検討するユーザーが増えている。さらに、企業内で実際に利用しているデータをテスト機に入れ、本番環境に限りなく近い環境下で比較する企業もあるという。

 ただし、こういった実機テストはほとんどの場合、ベンダ側がテスト機をユーザー側に持ち込んだり、ベンダのテスト施設にユーザーがデータを持ち込んだりして、最終的にはベンダ側のエンジニアがテストを行う。そして、テスト結果をユーザーに提出する形式だ。ここに注意点がある。ユーザーが過度に「テスト結果(処理速度)」に注目するために、結果だけを追求するベンダもいるのだ。

 あるベンダの場合、そのテストのためだけに世界有数のチューナーを日本に呼び寄せて結果を出しているようなケースもある。カーレースでいうと、予選でタイムを出すために耐久力を多少犠牲にしているような状態だ。このようなパフォーマンスを購入後に引き続き出すのは難しいだろう。大小の違いはあるだろうが、各ベンダがこのような「テストのための取り組み」をしていると思われる。

 このような「結果偏重主義」にならないために、理想をいえば、ユーザー企業の運用管理者がテスト機に実データを入れて、数日間〜数週間さまざまなことを試してみるべきだろう。その際に、分析速度だけではなく、使いやすさや運用の容易性も今後の運用フェイズを考えて審査するべきだ。DWH先進国の米国では、実際にこのようなユーザーが出てきているという。

Copyright © ITmedia, Inc. All Rights Reserved.

注目のテーマ