Sparkのエンタープライズ対応が「成熟」――Clouderaが宣言：800ノード超のSparkクラスターを運用するユーザーも

HadoopディストリビューターもあらためてSparkへの注力をアピール。既に800ノード超のSparkクラスターを運用するユーザーも存在するという。

» 2015年12月02日 08時30分公開

　Hadoopディストリビューションを提供する米Cloudera（クラウデラ）は2015年11月30日（米国時間）、Apache Sparkへの対応が「成熟した」とのリリースを発表した。2015年11月19日に発表した「Cloudera Enterprise 5.5」および「Cloudera's Distribution including Apache Hadoop 5.5」ではSpark SQLとSpark MLlibへの対応を発表していたが、今回、あらためてSpark対応の「本気度」とHadoopプラットフォームとしての統一性を強調したかたちだ。

　Clouderaは「単一のプラットフォームとしてのHadoopディストリビューション」のロードマップを持っており、その中でSpark SQLとMLlibに対応したことで、バッチ処理、ストリームデータ処理、機械学習などのユースケースをより快適なものにしていくだろう、としている。

　Clouderaでは、技術者の多くがApache Hadoopや周辺の開発プロジェクトに参加している。Apache Sparkも同様で、Clouderaでは1年以上かけて、エンドツーエンドのIoT（Internet of Things）アプリケーションやシンプルなバッチプロセッシング、ネイティブな機械学習といった大規模なデータプロセッシングのユースケースを想定してSparkのプログラムを成熟させてきたという。

　Cloudearaは「顧客はエンタープライズ品質でのストリームデータプロセッシングエンジンを求めてきた」と、Spark開発プロジェクトへの貢献の理由を説明する。

　SparkをHadoopディストリビューションの一部としてサポートすることで、Clouderaは他のベンダーよりも多くのSpark on Hadoopを運用する顧客を持つことになった。中には800ノードを超えるSparkクラスターをマルチテナントで運用しているケースもあるという。

Clouderaの顧客におけるSparkのユースケース　金融機関でのリスク分析やETLパイプライン高速化、医療機関でのゲノム解析、データサービスでのトレンド分析やドキュメント分類、リテール業界でのリアルタイムインベントリ管理などが挙げられている（出典：米Cloudera）

ClouderaのSparkに関するインフォグラフィック　インフォグラフィックの中には「開発が容易で処理が高速なSparkはHadoop実行エンジンの標準としてMapReduceを置き換えることになるだろう」という記述もあった（出典：米Cloudera）

　Clouderaでは、これに先立つ2015年2月にETL開発ツールとしてSparkプロセッシングエンジン上にSQLクエリエンジン「Hive」を実装した「Hive-on-Spark beta」をリリースしている。また、Hive自身もHadoopプラットフォーム上のSpark SQLのデータスキーマと互換性があるため、「ライトユーザーがシームレスに利用できる」という。Clouderaが提供するディストリビューションでは、HiveによるETL開発、Spark SQLによるアプリケーション開発、インタラクティブなHadoop向けクエリエンジン「Impala」によるインタラクティブなBI（Business Intelligence）も同一プラットフォームで実施できることを強調している。

　Clouderaでは、今後、Sparkのセキュリティ、スケーラビリティやストリーミング処理能力向上などを目指して開発体制を強化するとしている。

Hadoop＋Embulk＋Kibanaのデータ集計基盤によるデータ可視化と集計データを活用したキーワードサジェストの仕組み
リクルートの事例を基に、大規模BtoCサービスに求められる検索基盤はどう構築されるものなのか、どんな技術が採用されているのか、運用はどうなっているのかなどについて解説する連載。今回は、ログデータの分析および可視化の基盤を構成する5つの主なOSSや集計データを活用したキーワードサジェストの事例を紹介します。
Webブラウザーでできる機械学習Azure ML入門
数学的な知識やソフトウェア知識がないと挑戦しにくい印象の機械学習を、Webサービスとして利用できる環境が「Azure Machine Learning」です。全体のプロセスを見ながら体験して理解してみましょう。
Databaseテクノロジレポート：Hadoop用リアルタイムクエリエンジン Impalaのポテンシャルをレビューした
2012年10月24日に発表されたばかりのHadoop用リアルタイムクエリエンジンをいち早くレビュー。次期CDHに組み込まれる予定の新機能をどう使いこなす？
Amazon Elastic MapReduceで「Impala」が利用可能に
Amazon Elastic MapReduce（EMR）の一部として、オープンソースのHadoop用クエリツール「Impala」が使えるようになった。
SQL on Hadoopが実用段階に：Hadoop用クエリエンジン「Impala」がついに一般公開に
「Hiveの10倍速い」クエリエンジンが一般公開に。最新の列指向データフォーマットなどにも対応している。