Sparkのエンタープライズ対応が「成熟」――Clouderaが宣言：800ノード超のSparkクラスターを運用するユーザーも

HadoopディストリビューターもあらためてSparkへの注力をアピール。既に800ノード超のSparkクラスターを運用するユーザーも存在するという。

LINE

Hatena

　Hadoopディストリビューションを提供する米Cloudera（クラウデラ）は2015年11月30日（米国時間）、Apache Sparkへの対応が「成熟した」とのリリースを発表した。2015年11月19日に発表した「Cloudera Enterprise 5.5」および「Cloudera's Distribution including Apache Hadoop 5.5」ではSpark SQLとSpark MLlibへの対応を発表していたが、今回、あらためてSpark対応の「本気度」とHadoopプラットフォームとしての統一性を強調したかたちだ。

　Clouderaは「単一のプラットフォームとしてのHadoopディストリビューション」のロードマップを持っており、その中でSpark SQLとMLlibに対応したことで、バッチ処理、ストリームデータ処理、機械学習などのユースケースをより快適なものにしていくだろう、としている。

　Clouderaでは、技術者の多くがApache Hadoopや周辺の開発プロジェクトに参加している。Apache Sparkも同様で、Clouderaでは1年以上かけて、エンドツーエンドのIoT（Internet of Things）アプリケーションやシンプルなバッチプロセッシング、ネイティブな機械学習といった大規模なデータプロセッシングのユースケースを想定してSparkのプログラムを成熟させてきたという。

　Cloudearaは「顧客はエンタープライズ品質でのストリームデータプロセッシングエンジンを求めてきた」と、Spark開発プロジェクトへの貢献の理由を説明する。

　SparkをHadoopディストリビューションの一部としてサポートすることで、Clouderaは他のベンダーよりも多くのSpark on Hadoopを運用する顧客を持つことになった。中には800ノードを超えるSparkクラスターをマルチテナントで運用しているケースもあるという。

Clouderaの顧客におけるSparkのユースケース　金融機関でのリスク分析やETLパイプライン高速化、医療機関でのゲノム解析、データサービスでのトレンド分析やドキュメント分類、リテール業界でのリアルタイムインベントリ管理などが挙げられている（出典：米Cloudera）

ClouderaのSparkに関するインフォグラフィック　インフォグラフィックの中には「開発が容易で処理が高速なSparkはHadoop実行エンジンの標準としてMapReduceを置き換えることになるだろう」という記述もあった（出典：米Cloudera）

　Clouderaでは、これに先立つ2015年2月にETL開発ツールとしてSparkプロセッシングエンジン上にSQLクエリエンジン「Hive」を実装した「Hive-on-Spark beta」をリリースしている。また、Hive自身もHadoopプラットフォーム上のSpark SQLのデータスキーマと互換性があるため、「ライトユーザーがシームレスに利用できる」という。Clouderaが提供するディストリビューションでは、HiveによるETL開発、Spark SQLによるアプリケーション開発、インタラクティブなHadoop向けクエリエンジン「Impala」によるインタラクティブなBI（Business Intelligence）も同一プラットフォームで実施できることを強調している。

　Clouderaでは、今後、Sparkのセキュリティ、スケーラビリティやストリーミング処理能力向上などを目指して開発体制を強化するとしている。

Sparkのエンタープライズ対応が「成熟」――Clouderaが宣言：800ノード超のSparkクラスターを運用するユーザーも

関連記事

関連リンク

総合記事ランキング