Sparkプロジェクトがついにトップレベルプロジェクトに昇格。既に大手企業が採用に動く、大規模データを高速かつ柔軟に処理できるクラスタコンピューティングフレームワークだ。
Apache Software Foundation(ASF)は2月27日、大規模データの処理や分析に使われるオープンソースの高速エンジン「Apache Spark」がトップレベルプロジェクト(TLP)に昇格したと発表した。
Apache Sparkは大規模データを高速かつ柔軟に処理できるクラスタコンピューティングフレームワークで、その速度や使いやすさを特徴とする。メモリ内でApache Hadoop MapReduceに比べて最大100倍の速度でプログラムを実行できるとしている。また、Java、Python、Scalaを使ってアプリケーションが開発できるAPIも提供している。
この他、SQLクエリのフロントエンドとしてのShark、機械学習のためのMlib、描画用APIであるGraphX、ストリームデータ用のSpark Streamingなどの機能とシームレスに連携したアプリケーションの構築が可能だとしている。
もともとは米カリフォルニア大学のAMPLabで2009年に開発され、2013年に「Apache Incubator」となって、25組織のデベロッパ120以上が開発に協力してきた。Cloudera、IBM、Intel、米Yahoo!などの大手にも採用されているという。
ライセンスはApache License v2.0を利用。開発チームは「今後数カ月のうちに、非常にエキサイティングな機能を登場させる。Sparkのさらにパワフルなバージョンに期待してほしい」と予告している。
大量データをサービス開発に生かす機運が高まっている今、多くのIT技術者はビジネスサイドの要請に、柔軟・迅速に応えられるデータ基盤整備を迫られている。本特集では、その基礎技術や理解しておくべき技術動向、新たな収益に結び付くデータ活用の在り方を紹介する。
Copyright © ITmedia, Inc. All Rights Reserved.