HadoopディストリビューターもあらためてSparkへの注力をアピール。既に800ノード超のSparkクラスターを運用するユーザーも存在するという。
Hadoopディストリビューションを提供する米Cloudera(クラウデラ)は2015年11月30日(米国時間)、Apache Sparkへの対応が「成熟した」とのリリースを発表した。2015年11月19日に発表した「Cloudera Enterprise 5.5」および「Cloudera's Distribution including Apache Hadoop 5.5」ではSpark SQLとSpark MLlibへの対応を発表していたが、今回、あらためてSpark対応の「本気度」とHadoopプラットフォームとしての統一性を強調したかたちだ。
Clouderaは「単一のプラットフォームとしてのHadoopディストリビューション」のロードマップを持っており、その中でSpark SQLとMLlibに対応したことで、バッチ処理、ストリームデータ処理、機械学習などのユースケースをより快適なものにしていくだろう、としている。
Clouderaでは、技術者の多くがApache Hadoopや周辺の開発プロジェクトに参加している。Apache Sparkも同様で、Clouderaでは1年以上かけて、エンドツーエンドのIoT(Internet of Things)アプリケーションやシンプルなバッチプロセッシング、ネイティブな機械学習といった大規模なデータプロセッシングのユースケースを想定してSparkのプログラムを成熟させてきたという。
Cloudearaは「顧客はエンタープライズ品質でのストリームデータプロセッシングエンジンを求めてきた」と、Spark開発プロジェクトへの貢献の理由を説明する。
SparkをHadoopディストリビューションの一部としてサポートすることで、Clouderaは他のベンダーよりも多くのSpark on Hadoopを運用する顧客を持つことになった。中には800ノードを超えるSparkクラスターをマルチテナントで運用しているケースもあるという。
Clouderaでは、これに先立つ2015年2月にETL開発ツールとしてSparkプロセッシングエンジン上にSQLクエリエンジン「Hive」を実装した「Hive-on-Spark beta」をリリースしている。また、Hive自身もHadoopプラットフォーム上のSpark SQLのデータスキーマと互換性があるため、「ライトユーザーがシームレスに利用できる」という。Clouderaが提供するディストリビューションでは、HiveによるETL開発、Spark SQLによるアプリケーション開発、インタラクティブなHadoop向けクエリエンジン「Impala」によるインタラクティブなBI(Business Intelligence)も同一プラットフォームで実施できることを強調している。
Clouderaでは、今後、Sparkのセキュリティ、スケーラビリティやストリーミング処理能力向上などを目指して開発体制を強化するとしている。
Copyright © ITmedia, Inc. All Rights Reserved.