検索
Special

常に流れ込んでくるデータ、ハイブリッド環境に散在するデータをどう蓄積・分析するか?IoT時代に不可欠な、データの在りかを問わない分析環境の作り方

IoTが本格化しつつある中で、センサーなどを使って「現実世界からデータを収集する」ことがフォーカスされがちな側面もあるが、本当に大切なのは「収集した後」だ。フォーマットがバラバラなデータが間断なく流れ込んでくる中で、どうすればデータを無駄にせず有効活用できるのだろうか? IoT時代の分析環境の作り方を、日本アイ・ビー・エム ソフトウエア アナリティクス事業部の土屋敦氏に聞いた。

PC用表示
Share
Tweet
LINE
Hatena

“ハイブリッド時代のデータレイク”に不可欠な仕組みとは

 モバイルデバイスの浸透、インターネットとセンサー技術の進化に伴い、世界のあらゆるモノがインターネットにつながる“Internet of Things(IoT)”のトレンドが本格化しつつある。これを受けて、企業では日々処理するデータ量が加速度的に増大しており、これらのデータをどのように収集・蓄積・活用していくかが大きな課題になっている。

 「IoTの時代には、業務システムで蓄積される構造化データに加えて、センサー情報やログ情報、SNS情報などの非構造化データまで含めて膨大なデータをリアルタイムに収集・蓄積していくことが求められます。しかし、従来型のデータウェアハウスでこれに対応しようとすれば、多大なコストと運用負荷が掛かるため、“IoT時代のデータ置き場”としては現実的ではありません」と指摘するのは、日本アイ・ビー・エム ソフトウエア アナリティクス事業部 プラットフォーム・アーキテクト・グループ テクニカル・リードの土屋敦氏。同氏は「こうした課題を解決できるのがクラウドサービスです」と話す。

ALT
日本アイ・ビー・エムの土屋敦氏

 「数年前までは、ネットワーク環境、セキュリティ、容量など、クラウド上へのデータ格納には課題がありましたが、現在では、テクノロジの進化によって、クラウド上に膨大なデータを高速かつセキュアに格納できるようになっています。これから本格化するIoT時代において、効率的にデータを収集・蓄積・管理するためには、メインの“データ置き場”としてクラウドサービスが必要不可欠になります」

 しかし、単にクラウド上にデータを収集・蓄積するだけでは、真の目的である「データ活用」につなげていくのは難しい。なぜなら、センサーやSNSから収集される情報は、フォーマットがバラバラの非構造化データであり、そのままの状態では従来型のDWHのみで分析処理することはとても非効率であるためだ。

 「専任の分析担当者がいる企業では、収集したセンサー情報などを手動、もしくはETLでRDBのフォーマットに変換してデータ分析を行っているケースもあります。ただ、この方法では手間もコストも掛かり、効果的に分析ができているか否か疑問です。多くの企業は、膨大なセンサー情報を収集・蓄積して『見える化』するにとどまり、そこから有用な知見を引き出す『分析』にまでは至っていないのが現状ではないでしょうか」

フォーマットがバラバラの大量データを、どう活用するか?

 こうした課題を受けて、日本IBMでは、IoTにおけるデータ収集、蓄積、分析、活用までの課題を包括的にカバーする一連のソリューションを展開しているという。

 まず、センサーやデバイスから収集したデータを蓄積、分析し、アクションに落とし込むところまでを包括的に支援するソリューションとして「Internet of Things Foundation」(以下、IoT Foundation)を用意している。IoTでは、さまざまなデバイスやクラウド上から、センサー情報やログ情報、SNS情報といった非構造化データを収集してくる必要がある。IoT Foundationは、各種デバイスとアプリケーションを接続する“IoTのハブ”を担い、膨大かつ多種多様なデータを収集できる。さまざまな機能をPaaSとして提供する「IBM Bluemix」の一サービスであり、大きな初期投資なしでいつでも始められることも大きな特徴だ。

ALT
図1 IoT Foundationの概念図

 このIoT Foundationで収集した膨大なデータを受け入れ、蓄積していくのが、NoSQL型DBaaS(Database as a Service)の「Cloudant」だ。特徴は、スキーマレスで、データフォーマットにJSONを使用していること。これにより、センサー情報やログ情報のデータストレージ、またモバイルアプリなどのデータストアに適したDBaaSとなっている。

 「従来のRDBでは、センサー情報のように大量なデータが“常に”流れ込んでくるケースや、モバイルゲームのように多人数からの同時アクセスがあるケースに対応するのは難しい側面がありました。Cloudantでは、これらのケースでも問題なく処理することができます。まさしくIoTの“データ置き場”として機能するわけです」(土屋氏)。

 ただし、Cloudantだけでは十分な分析機能は備えていないため、格納されたJSON形式のデータをRDBMS形式のデータに自動変換しdashDBへ同期する機能を搭載している。これによって、RDBとデータ連携を行い、分析を行う仕組みとしている。IoTを実践する上では、“常に流れ込んでくる”大量データを、いかに確実に受け止めるかが一つのポイントになるためだ。

 このCloudantで自動変換されたRDBMS形式データを使って、データの分析・活用を支援するソリューションとして、IBMが用意しているのが「dashDB」だ。特徴は大きく二つ。一つは、IBM Bluemix上で提供しているクラウドサービスであること。ハードウエアなどを用意することなく、すぐにでもデータ分析を始められる。もう一つは、列指向データベースへの対応、次世代イン・メモリ技術の採用などによって高速分析を実現している他、専用DWHアプライアンス「PureData System for Analytics (Netezza)」にも実装されているイン・データベース分析機能を実装し、高度な統計分析手法をサポートしていること。

ALT
図2 dashDBの特徴

 「CloudantとdashDBのデータ連携では、Cloudantに格納されたJSON形式データに対してスキーマ・ディスカバリー・プロセスを実行することで、必要なデータを常にRDBMS形式に自動変換してdashDBに取り込み、継続的同期を図ることができます。これにより、常に流れ込んでくる大量データを使って、スピーディに高度な分析ができる環境を整える仕組みです

ALT
図3 CloudantとdashDBのデータ連携により、センサーやモバイルなどから収集したデータをいつでも容易に分析できる環境が整う

データの置き場所を問わず、あらゆるデータソースを柔軟に活用

 さらに、土屋氏は、「データの活用フィールドはクラウド上だけにとどまらない」と指摘する。というのも、「有効なアクションを創出する上では、オンプレミスシステムや、『Salesforce』などクラウドサービスに格納されている業務データも重要な分析対象となる」ためだ。これらをセンサーデータなどと組み合わせた形での分析ニーズも高まってきているという。換言すれば、ハイブリッドクラウド環境、マルチクラウド環境でのデータ活用が求められつつあるというわけだ。

 そこで日本IBMでは、クラウドETLソリューションの「DataWorks」を提供している。DataWorksは、セルフサービスで複数のデータソースに容易にアクセスできるシンプルなETLツールだ。dashDBやSalesforceなどのクラウド上のデータはもとより、「Oracle DB」や「DB2」といったオンプレミス上で管理されているデータにもアクセスすることが可能となっており、クラウドサービス間、およびオンプレミス/クラウド間をつないだシームレスなデータ活用を実現する。

ALT
図4 DataWorksを介して、オンプレミスとクラウドのハイブリッド環境でも、データの在りかを問わず、あらゆるデータソースを使って分析することができる

 ここで見逃せないのが、DataWorksはセルフサービスによるデータアクセスが可能である点だ。

 「従来、データ分析を行う際には、必要なデータをIT部門に切り出してもらう必要があったため、タイムリーに分析を行うのが難しい問題がありました。しかしDataWorksでは、分析者はIT部門に頼ることなく、あらゆるデータソースから目的に応じたデータを自分で切り出し、dashDBで自由に分析できます。つまりDataWorksとdashDBを組み合わせることで、セルフサービスBIとしてのデータ活用環境も整えられるわけです」

 また、オンプレミスとクラウド間のデータがシームレスにつながったハイブリッドクラウド環境が実現することで、「データ活用の可能性はさらに広がる」と土屋氏はいう。

 「クラウドがいくら進化しても、機密性の高いデータや法的に制限のあるデータなど、オンプレミス上で管理しなければならないデータは確実に存在します。その場合も、DataWorksなどを活用することで、オンプレミスとクラウド間の壁がなくなり、オンプレミス上の機密データを移動する影響を及ぼすことなく、さまざまなデータを場所を使い分けながらセキュアに分析可能になります。さらに、DataWorksで統合された多種多様なデータと、IBM Bluemix上で提供されている自然言語質問応答システムの『Watson』を組み合わせることで、今まで見えてこなかった知見を得たり、新たなサービスにつながるアイデアを獲得したりすることも期待できます」

 日本IBMでは今後、Cloudant、dashDB、Netezza、DB2など、クラウドとオンプレミスの各種データ活用ソリューションの完全な相互互換性を実現していく計画だという。土屋氏は、「今後は、データをどう活用するのかという各社の目的に応じて、さまざまなソリューションを最適な形で組み合わせていく時代になっていきます。そうした中で分析の自由度を一層高めるために、弊社ではクラウドもオンプレミスも関係なく、データがどこにあろうと、どのソリューションを使おうと、共通の操作性で、シームレスにデータを活用できるようにしていく計画です」と語る。

 蓄積してきた膨大なデータを活用したくても、ITがボトルネックになって実現できなかったという企業は少なくない。まずはIBM Bluemix上ですぐにでも始められるCloudantとdashDBを使ってみることで、本格的なIoT時代に向けて自社はどのような分析環境を築くべきなのか、その手応えをつかんでみてはいかがだろうか。

おすすめホワイトペーパー

NoSQLをベースにした、マネージドクラウドサービスの使い方

膨大な種類のデータを扱うIoT時代に、データベースを自社構築、運用するのは膨大な手間とコストを要する。さまざまな分析ニーズや将来の拡張性を見据えたマネージドクラウドサービスであるDBaaSの導入優位性を解説する。

ビッグデータ活用基盤をクラウドで 「Data Warehouse-as-a-Service」とは?

IoT(モノのインターネット)の時代を迎え、企業が保有する膨大なデータの分析、活用基盤の整備が急務だ。データウェアハウス構築、運用にかかる課題を解決する、「Data Warehouse-as-a-Service」の導入優位性を紹介しよう。

適切なNoSQLデータベースの選択が成否を分ける、目的別NoSQL検討ポイント

Webやモバイル、IoTなど、新たなアプリやシステムが膨大な種類のデータを生み出している。そこで再び注目されるのが「NoSQL」だ。「柔軟性」「拡張性」「可用性」など、自社のビジネスニーズに対応したNoSQLの導入ポイントを解説する。

Copyright © ITmedia, Inc. All Rights Reserved.


提供:日本アイ・ビー・エム株式会社
アイティメディア営業企画/制作:@IT 編集部/掲載内容有効期限:2016年1月31日

関連ホワイトペーパー

膨大な種類のデータを扱うIoT時代に、データベースを自社構築、運用するのは膨大な手間とコストを要する。さまざまな分析ニーズや将来の拡張性を見据えたマネージドクラウドサービスであるDBaaSの導入優位性を解説する。

IoT(モノのインターネット)の時代を迎え、企業が保有する膨大なデータの分析、活用基盤の整備が急務だ。データウェアハウス構築、運用にかかる課題を解決する、「Data Warehouse-as-a-Service」の導入優位性を紹介しよう。

Webやモバイル、IoTなど、新たなアプリやシステムが膨大な種類のデータを生み出している。そこで再び注目されるのが「NoSQL」だ。「柔軟性」「拡張性」「可用性」など、自社のビジネスニーズに対応したNoSQLの導入ポイントを解説する。

ページトップに戻る