検索
連載

Sparkは“誰”に例えられる?──多様化と進化を続ける「Hadoop」、人気急上昇「Spark」Database Watch(2016年3月版)(2/2 ページ)

先日、日本Hadoopユーザー会主催のイベントが開催されました。データベースと関係性が深いデータ分散処理プラットフォームである「Hadoop」と「Spark」の最近事情に迫ります。

Share
Tweet
LINE
Hatena
前のページへ |       
※本記事はアフィリエイトプログラムによる収益を得ています

Sparkは、テイラー・スウィフトか北川景子か 「Spark 2.0」でAPIを用意し、性能強化

photo Spark Conference Japan 2016に登壇したDatabricksのレイノルド・シン氏

 続いてSparkの最新事情も確認しましょう。

 Sparkも、テクノロジーの勉強会やミートアップで話題として取り上げられる機会が増えており、技術解説を中心としたノウハウなども充実してきています。Sparkの基調講演には、エンタープライズ向けにクラウドでSparkプラットフォームを提供する、Databricksのレイノルド・シン(Reynold Xin)氏が登壇しました。

 シン氏はSparkを、「スピード、使いやすさ、洗練された分析を兼ね備えたオープンソースのデータ処理エンジン」と表現しました。併せて、「2015年はSparkが大きく発展した年」と振り返りました。Sparkの露出機会が増え、ビジネス視点での注目も高まったことが理由の一つだそうです。

 例えば、米ビジネス誌「FORTUNE」が「Sparkはビッグデータソフトウェアのテイラー・スウィフト(米国の人気シンガー)だ」と評しました。人気や能力の高さ、露出機会、ビジネスインパクトなどを総じて例えたのでしょう。ファンでなければピンと来ないかもしれませんが、日本コミュニティーのメンバーによると、日本でいえば、テイラー・スウィフトは「(人気女優の)北川景子さんに該当」するそうです(それでも分かるような、分からないような……)。

 Spark開発プロジェクトでは、2015年よりIBMによる大規模な投資が行われています。金額や人員の割り当てもさることながら、「Sparkのテクノロジーセンターを開設」するほどの意欲や覚悟が見受けられます。IBMがこれまでテクノロジーセンターを開設したのは、「Java」と「Linux」のみです。それらと同じくらい将来性があると評価したのでしょう。


 Sparkの2016年は、さらに飛躍する年になるかもしれません。新バージョンである「Spark 2.0」が登場するからです。2016年2月時点では、GitHubで開発中。2016年3〜4月にコードフリーズし、同年4〜5月には正式リリースが予定されています。

 Spark 2.0は、フロントエンドでは「APIを用意する」こと、バックエンドではパフォーマンスの向上が期待されています。シン氏はAPIの指針を「シンプルでも表現豊かに」「セマンティクス(自然言語、人間が理解できる言葉であること)が十分定義されるように」「バックエンドを最適化できるように十分抽象化されること」と説明しました。「使い勝手はかなり変わりそうだが、その効果は大きい」ようで、詳細も近々明らかにされるそうです。

 パフォーマンスに関しては、現バージョンのSpark 1.6と比べてSQL/DataFrameともに「約10倍のスループット向上」が見込まれています。後発のSparkでは、開発当初からHadoopのMapReduceが持つ課題を解決するように設計されています。このため、一般的にSparkは、多くのケースでHadoopより高速だといわれています。これをさらに性能を伸ばすとなると、どんなインパクトをもたらしてくれるのでしょう。こちらは、今後も詳細を追っていきます。

photo Spark 2.0は、SQL/DataFrameがSpark 1.6比で「10倍のスループット向上」が見込まれる(出典:Spark Conference Japan 2016の講演資料)

 最後に余談ですが、午前中の講演ではマスコットのゾウがずっと登壇者の隣に寄り添っていたのが印象的でした。夜の懇親会では豪華なHadoop10周年記念ケーキでお祝いしたそうです。

Copyright © ITmedia, Inc. All Rights Reserved.

前のページへ |       
ページトップに戻る