Database WatchDatabase Watch 2011年6月版

爆発的に大きくなるデータに対処する

加山恵美
2011/6/24
近年、商用データベース業界は大規模システムにおける処理能力競争になっています。さらに、クラウドの流行がシステム大規模化のペースを上げているようです。今月はIBMが発表した大規模データ活用を支援するソフトウェアの発表と、Microsoft SQL Serverにおけるハードウェア選択のツボがテーマです。

大規模データを処理するIBM BigInsightsとStreams

 日本IBMは2011年5月23日、大規模データを分析するソフトウェア「IBM InfoSphere BigInsights Enterprise Edition V1.1(以下BigInsights)」と「IBM InfoSphere Streams V2.0(以下Streams)」を発表しました。

 コンピュータが扱う情報量は加速度的に増加を続けています。例えばTwitterでは1日に7Tbytes、facebookでは1日に10Tbytesものデータを処理しているそうです。またデータの8割が非構造化データという報告もあります。データベースはデータ量の増大と非構造化データへの対応を迫られているのです。

 膨大なデータの処理が必要な分野というと、Googleなど大規模Webサイトを連想しがちですが、ほかにも通信、金融、学術、医療などいろいろな用途があります。今回の製品とは直接関係ありませんが、例えば海外のある電力会社は各戸にスマートメーター(電力量計)に設置し、100万kWの発電所2基を削減しようと計画しています。より細かく電力量を計測し、分析することで、発電量を抑制できるということです。

データを精密に分析して発電量を最適化

 少し話はそれますが、現在の送電網の仕組みでは、発電所からの電気をためておくことができません。そして電力消費量は天気や時間帯により大きく変動します。発電にはコストがかかりますから、必要量を上回りつつ余剰をできるだけ減らすよう、発電所では発電量を常に微調整しています。すべての家庭や事業所が、いつ電気機器のスイッチを入れても電気を共有できるようにするというのは、常に流しそうめんを全員に行き渡るように作って送るような感覚かもしれません。

 流しそうめんはさておき、電気は不足しないよう多少多めに送電しているため、最適化すれば発電量を抑えられます。ただし膨大なデータと向き合わなくてはなりません。メーターを月次で読むのと比べると、15分ごとに計測するとデータ量は約3000倍に増加します。年次のトランザクションは3500億にも上ります。システム処理は大変になりますが、それで発電量を減らせるなら経済的にも環境的にもよいことですよね。

 こうした膨大なデータに直面している業界が増えてきているというのが昨今の実情です。課題は使いやすさ、リアルタイムで処理できること、多様なデータを分析できること、障害に対応できること、リソースを最適に利用できることなどです。

 IBMは記者会見でBig dataアーキテクチャ構想を示していました(下図:クリックすると拡大)。オープンソース技術や自社製品をどう組み立ててBig dataを扱うか、その仕組みが分かります。

 図中でBigInsightsに当たるのが「Internet Scale Analytics」でStreamsに当たるのが「In-motion Analytics」です。前者がインターネット規模(大規模データ)の分析で、後者がストリーミングデータの分析となります。

 BigInsightsはApache Hadoopなどのオープンソースソフトウェアを組み合わせつつ、IBM独自の管理コンソール、IBM製品とのデータ統合機能、大規模で半構造化データを扱いやすいクエリー言語なども盛り込んでいます。無料で10Tbytesまで利用できるBasic Editionと、従量制で利用できるEnterprise Editionの2種類があります。

 StreamsはV2.0とあるように新バージョンです。開発言語の機能拡張、対応するデータベースの拡張(Netezza TwinFin、Microsoft SQL Server、MySQLなど)、マイニングツールキット、金融業界向けのツールキットなどが新バージョンの特徴です。加えて、実証実験では従来比3.5倍の分析速度を記録するなど、パフォーマンス向上も大きなポイントです。

 今回の発表に先立ち、アメリカIBMは大規模データ解析に関する技術およびサービスの研究開発に1億ドルを投じる計画を明らかにしました。オープンソースコミュニティにコミッタを出すなど、オープンソースへは本格的に関与していくという姿勢がうかがえます。

 なお震災で延期になったInformation On Demand Conference Japan 20117月28日から開催となりました。場所は芝公園のザ・プリンス パークタワー東京です。


1/2 次のページへ

Index
爆発的に大きくなるデータに対処する
→ Page 1
大規模データを処理するIBM BigInsightsとStreams
データを精密に分析して発電量を最適化

Page 2
SQL Server技術者向けに定例セミナー
計算、予測してハードウェア構成を決めていく



Database Expert フォーラム 新着記事
@ITメールマガジン 新着情報やスタッフのコラムがメールで届きます(無料)

注目のテーマ

Database Expert 記事ランキング

本日月間