グーグルがビッグデータ分析基盤をサービスとして提供へ――「Cloud Dataflow」をデモGoogle I/O 2014速報

Google I/Oでは、多様なデバイスに注力する発表が相次いだ一方で、データ分析基盤サービスの発表もあった。ストリーム処理もバッチ処理もシンプルな実装で実現する。

» 2014年06月26日 18時11分 公開
[鈴木聖子@IT ]

 米グーグルは2014年6月25日にサンフランシスコで開いた年次開発者会議「Google I/O 2014」で、新しいビッグデータ分析サービスの「Google Cloud Dataflow」や、Google Cloud Platform向けの各種新ツールを発表した。

 Cloud Dataflowは「バッチモード」と「ストリーミングモード」の両方で大量のデータを処理できるビッグデータ分析サービス。MapReduceの後継として、Javaの並列処理ライブラリである「FlumeJava」、高速なデータプロセッシングアプリケーションを構築するためのフレームワーク「MillWheel」といったグーグルが自社で利用している独自技術をベースに開発されたものだ。今回のイベントでは初めて聴衆の前でデモを披露した。

データ変換などの処理や最適化、処理環境などもGoogle Cloud Dataflow側が受け持つため、アプリケーション構築のみに注力できるという(画像はいずれもグーグルがYoutubeで公開しているキーノートセッション動画からの抜粋)
Pipelineを使ってJSON形式のストリームデータを生成すると同時にバッチ処理用にもデータを蓄積、多様なデータ形式に変換し、それぞれの処理を行う。デモは、Twitter APIを使ったセンチメント分析をしているところ
時節柄、直近で開催されたサッカーの試合中の動向分析の結果が示された

 グーグルによると、分散コンピューティングを使って大量のデータを処理するMapReduceの導入から10年が経ち、デバイスや情報量の増大に伴って分析能力の強化が求められる一方、複雑さが増す現状に対応したものだという。Cloud Dataflowではアクショナブルなデータの分析が容易になり、運用コストも抑えられると説明している。

 利用シナリオとしてはETL(抽出、変換、ロード)処理やバッチデータ処理、ストリーミング分析などを想定している。利用時に必要なコード類は自動最適化を適用、リソース自動的に管理ができるという。

クラウド環境のアプリケーションパフォーマンス監視ツールも

 一方、Google Cloud Platform向けに発表された新ツールのうち、「Google Cloud Monitoring」は2014年5月に買収した「Stackdriver」のクラウド環境モニタリング技術をベースに開発した。

 同ツールでは本番環境のシステムを診断し、アプリケーションスタックに発生した異常の検出や修正を支援する。Cloud Platformの他、Webサーバー機能を持つOSSソフトウェア「Apache」「Nginx」「IIS」、Javaサーブレットコンテナエンジン「Apache Tomcat」やデータベース「MongoDB」「MySQL」、キーバリューストア「Redis」、検索用サーバー「Elasticsearch」など、主要オープンソースアプリケーションにも対応する。

 例えば、App Engineモジュールに接続しているユーザーのエラー発生率が上昇したり、Cassandraデータベースのクエリに時間がかかる、といったケースのトラブルシューティングに利用できるという。

 また、アプリケーションのリクエスト処理にかかる時間を視覚化して、性能にボトルネックが生じている根本原因の究明に利用できる「Cloud Trace」、本番環境に負荷をかけずにアプリケーションのデバッグができる「Cloud Debugger」などのツールも提供する。


* 本記事掲載時、FlumeについてApacheFlumeとして言及していましたが、正しくはJavaの並列処理ライブラリであるFlumeJavaでした。本文言及は既に修正しています。(2014年6月30日)

Copyright © ITmedia, Inc. All Rights Reserved.

RSSについて

アイティメディアIDについて

メールマガジン登録

@ITのメールマガジンは、 もちろん、すべて無料です。ぜひメールマガジンをご購読ください。