爆発的に大きくなるデータに対処する
2011/6/24
大規模データを処理するIBM BigInsightsとStreams
日本IBMは2011年5月23日、大規模データを分析するソフトウェア「IBM InfoSphere BigInsights Enterprise Edition V1.1(以下BigInsights)」と「IBM InfoSphere Streams V2.0(以下Streams)」を発表しました。
コンピュータが扱う情報量は加速度的に増加を続けています。例えばTwitterでは1日に7Tbytes、facebookでは1日に10Tbytesものデータを処理しているそうです。またデータの8割が非構造化データという報告もあります。データベースはデータ量の増大と非構造化データへの対応を迫られているのです。
膨大なデータの処理が必要な分野というと、Googleなど大規模Webサイトを連想しがちですが、ほかにも通信、金融、学術、医療などいろいろな用途があります。今回の製品とは直接関係ありませんが、例えば海外のある電力会社は各戸にスマートメーター(電力量計)に設置し、100万kWの発電所2基を削減しようと計画しています。より細かく電力量を計測し、分析することで、発電量を抑制できるということです。
データを精密に分析して発電量を最適化
少し話はそれますが、現在の送電網の仕組みでは、発電所からの電気をためておくことができません。そして電力消費量は天気や時間帯により大きく変動します。発電にはコストがかかりますから、必要量を上回りつつ余剰をできるだけ減らすよう、発電所では発電量を常に微調整しています。すべての家庭や事業所が、いつ電気機器のスイッチを入れても電気を共有できるようにするというのは、常に流しそうめんを全員に行き渡るように作って送るような感覚かもしれません。
流しそうめんはさておき、電気は不足しないよう多少多めに送電しているため、最適化すれば発電量を抑えられます。ただし膨大なデータと向き合わなくてはなりません。メーターを月次で読むのと比べると、15分ごとに計測するとデータ量は約3000倍に増加します。年次のトランザクションは3500億にも上ります。システム処理は大変になりますが、それで発電量を減らせるなら経済的にも環境的にもよいことですよね。
こうした膨大なデータに直面している業界が増えてきているというのが昨今の実情です。課題は使いやすさ、リアルタイムで処理できること、多様なデータを分析できること、障害に対応できること、リソースを最適に利用できることなどです。
IBMは記者会見でBig dataアーキテクチャ構想を示していました(下図:クリックすると拡大)。オープンソース技術や自社製品をどう組み立ててBig dataを扱うか、その仕組みが分かります。
図中でBigInsightsに当たるのが「Internet Scale Analytics」でStreamsに当たるのが「In-motion Analytics」です。前者がインターネット規模(大規模データ)の分析で、後者がストリーミングデータの分析となります。
BigInsightsはApache Hadoopなどのオープンソースソフトウェアを組み合わせつつ、IBM独自の管理コンソール、IBM製品とのデータ統合機能、大規模で半構造化データを扱いやすいクエリー言語なども盛り込んでいます。無料で10Tbytesまで利用できるBasic Editionと、従量制で利用できるEnterprise Editionの2種類があります。
StreamsはV2.0とあるように新バージョンです。開発言語の機能拡張、対応するデータベースの拡張(Netezza TwinFin、Microsoft SQL Server、MySQLなど)、マイニングツールキット、金融業界向けのツールキットなどが新バージョンの特徴です。加えて、実証実験では従来比3.5倍の分析速度を記録するなど、パフォーマンス向上も大きなポイントです。
今回の発表に先立ち、アメリカIBMは大規模データ解析に関する技術およびサービスの研究開発に1億ドルを投じる計画を明らかにしました。オープンソースコミュニティにコミッタを出すなど、オープンソースへは本格的に関与していくという姿勢がうかがえます。
なお震災で延期になったInformation On Demand Conference Japan 2011は7月28日から開催となりました。場所は芝公園のザ・プリンス パークタワー東京です。
1/2 |
Index | |
爆発的に大きくなるデータに対処する | |
Page 1 大規模データを処理するIBM BigInsightsとStreams データを精密に分析して発電量を最適化 |
|
Page 2 SQL Server技術者向けに定例セミナー 計算、予測してハードウェア構成を決めていく |
- Oracleライセンス「SE2」検証 CPUスレッド数制限はどんな仕組みで制御されるのか (2017/7/26)
データベース管理システムの運用でトラブルが発生したらどうするか。DBサポートスペシャリストが現場目線の解決Tipsをお届けします。今回は、Oracle SE2の「CPUスレッド数制限」がどんな仕組みで行われるのかを検証します - ドメイン参加後、SQL Serverが起動しなくなった (2017/7/24)
本連載では、「SQL Server」で発生するトラブルを「どんな方法で」「どのように」解決していくか、正しい対処のためのノウハウを紹介します。今回は、「ドメイン参加後にSQL Serverが起動しなくなった場合の対処方法」を解説します - さらに高度なSQL実行計画の取得」のために理解しておくべきこと (2017/7/21)
日本オラクルのデータベーススペシャリストが「DBAがすぐ実践できる即効テクニック」を紹介する本連載。今回は「より高度なSQL実行計画を取得するために、理解しておいてほしいこと」を解説します - データベースセキュリティが「各種ガイドライン」に記載され始めている事実 (2017/7/20)
本連載では、「データベースセキュリティに必要な対策」を学び、DBMSでの「具体的な実装方法」や「Tips」などを紹介していきます。今回は、「各種ガイドラインが示すコンプライアンス要件に、データベースのセキュリティはどのように記載されているのか」を解説します
|
|