グーグルらがDataflowのOSS化をASFに提案:データ分析のロジックをオープンでプラガブルに
米グーグルがCloudera、Data Artisans、Talend、Cask、ペイパルらと共同でDataflowをApache Software Foundation(ASF)のインキュベータープロジェクトに提案。さまざまな実装アイデアが登場するデータ分析実行エンジンに対応した仕組みをオープンエコシステムで構築するという。
米グーグルがCloudera、Data Artisans、Talend、Cask、ペイパルらと共同で「Google Cloud Dataflow」(以下、Dataflow)をApache Software Foundation(ASF)のインキュベータープロジェクトに提案しているという。2016年1月20日、グーグルのソフトウェアエンジニアであるFrances Perry氏とプロダクトマネジャーのJames Malone氏が「Google Cloud Platform Blog」で公表した。
Dataflowは、2014年6月に「Google I/O 2014」でGoogle Cloudのサービスとして発表されていたもの。
Cloud Dataflowは「バッチモード」と「ストリーミングモード」の両方で大量のデータを処理できるビッグデータ分析サービス。MapReduceの後継として、Javaの並列処理ライブラリである「FlumeJava」、高速なデータプロセッシングアプリケーションを構築するためのフレームワーク「MillWheel」といったグーグルが自社で利用している独自技術をベースに開発されたものだ。
ASFへの提案は、Cloudera、Data Artisans、Talend、Cask、ペイパルらと共同で行われる。プロジェクトには、Dataflowモデル、Java SDKの他、将来的にはPython SDKも同じプロジェクトに含める方針だという。
このことを公表したブログ記事では、従来のデータ分析プロセスが、新しいものを取り込む際に、過去のこなれたビジネスプロセスを破棄してリスクのある新しいプロセスを記述し直す必要があった点を「十分にテストされたビジネスロジックを捨ててしまうことに順応するのは望ましくない」と指摘している。
MapreduceやApache Spark、Apache Flinkなど、続々と登場する新しいデータ分析エンジンに対して、それぞれのエンジン固有のAPIに合わせて処理を書き直したり、バッチ向け、ストリームデータ向けでそれぞれにアプリケーションを書き直していくことには無駄とリスクがある、ということだ。
Dataflowを利用すれば「一つのポータブルなデータパイプラインを記述すれば、バッチでもストリームでも利用でき、かつSparkやFink、Dataflowなどのランタイムを操作できる」と、その利点を説明している。ランタイム操作とは、Dataflowの「runner」(データ分析の実行エンジンとの接続する部分の実装)を指す。
Dataflow Java SDKは実行エンジンと接続するため、プラガブルなrunnerをサポートするよう設計されている。現在runnerとして、Data Artisansが提供するApache Flink用、Clouderaが提供するApache Spark用、グーグルは単一ノードのローカル実行用とCloud Dataflow Service用の4つが用意されている。
グーグルでは、ASFの下でオープンソースソフトウェアとして開発を行うことで、オープンなエコシステムを利用でき、Dataflowモデル、SDK、対応するrunnerを拡充できるとしている。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
- 知らないと大損する、Apache Sparkの基礎知識と3つのメリット
社会一般から大きな注目を集めているIoT(Internet of Things)。だが、その具体像はまだ浸透しているとはいえない。今回は、IoTやビッグデータのキーテクノロジとして注目されている「Apache Spark」について、Sparkを製品に取り込んでいる日本IBMの土屋敦氏と、数多くの企業のデータ分析を担うブレインパッドの下田倫大氏に話をうかがった。 - 「Apache Spark」、トップレベルプロジェクトに昇格
Sparkプロジェクトがついにトップレベルプロジェクトに昇格。既に大手企業が採用に動く、大規模データを高速かつ柔軟に処理できるクラスタコンピューティングフレームワークだ。 - 「Apache Kylin」がトップレベルプロジェクトに昇格
OLAP on Hadoopを実現する「Apache Kylin」がトップレベルプロジェクトに昇格した。巨大なデータセットを扱うことができ、既存BIツールと組み合わせることもできる。