「Apache Spark」、トップレベルプロジェクトに昇格：既に採用多数、データ分析が捗る？

Sparkプロジェクトがついにトップレベルプロジェクトに昇格。既に大手企業が採用に動く、大規模データを高速かつ柔軟に処理できるクラスタコンピューティングフレームワークだ。

[鈴木聖子，＠IT] PC用表示関連情報

LINE

Hatena

　Apache Software Foundation（ASF）は2月27日、大規模データの処理や分析に使われるオープンソースの高速エンジン「Apache Spark」がトップレベルプロジェクト（TLP）に昇格したと発表した。

　Apache Sparkは大規模データを高速かつ柔軟に処理できるクラスタコンピューティングフレームワークで、その速度や使いやすさを特徴とする。メモリ内でApache Hadoop MapReduceに比べて最大100倍の速度でプログラムを実行できるとしている。また、Java、Python、Scalaを使ってアプリケーションが開発できるAPIも提供している。

　この他、SQLクエリのフロントエンドとしてのShark、機械学習のためのMlib、描画用APIであるGraphX、ストリームデータ用のSpark Streamingなどの機能とシームレスに連携したアプリケーションの構築が可能だとしている。

　もともとは米カリフォルニア大学のAMPLabで2009年に開発され、2013年に「Apache Incubator」となって、25組織のデベロッパ120以上が開発に協力してきた。Cloudera、IBM、Intel、米Yahoo！などの大手にも採用されているという。

　ライセンスはApache License v2.0を利用。開発チームは「今後数カ月のうちに、非常にエキサイティングな機能を登場させる。Sparkのさらにパワフルなバージョンに期待してほしい」と予告している。

関連特集：「データ分析を支える技術」

大量データをサービス開発に生かす機運が高まっている今、多くのIT技術者はビジネスサイドの要請に、柔軟・迅速に応えられるデータ基盤整備を迫られている。本特集では、その基礎技術や理解しておくべき技術動向、新たな収益に結び付くデータ活用の在り方を紹介する。

特集：データ分析を支える技術

「Apache Spark」、トップレベルプロジェクトに昇格：既に採用多数、データ分析が捗る？

関連特集：「データ分析を支える技術」

関連リンク

総合記事ランキング