Sparkは“誰”に例えられる？──多様化と進化を続ける「Hadoop」、人気急上昇「Spark」：Database Watch（2016年3月版）（2/2 ページ）

» 2016年03月07日 05時00分公開

※本記事はアフィリエイトプログラムによる収益を得ています

Sparkは、テイラー・スウィフトか北川景子か　「Spark 2.0」でAPIを用意し、性能強化

Spark Conference Japan 2016に登壇したDatabricksのレイノルド・シン氏

　続いてSparkの最新事情も確認しましょう。

　Sparkも、テクノロジーの勉強会やミートアップで話題として取り上げられる機会が増えており、技術解説を中心としたノウハウなども充実してきています。Sparkの基調講演には、エンタープライズ向けにクラウドでSparkプラットフォームを提供する、Databricksのレイノルド・シン（Reynold Xin）氏が登壇しました。

　シン氏はSparkを、「スピード、使いやすさ、洗練された分析を兼ね備えたオープンソースのデータ処理エンジン」と表現しました。併せて、「2015年はSparkが大きく発展した年」と振り返りました。Sparkの露出機会が増え、ビジネス視点での注目も高まったことが理由の一つだそうです。

　例えば、米ビジネス誌「FORTUNE」が「Sparkはビッグデータソフトウェアのテイラー・スウィフト（米国の人気シンガー）だ」と評しました。人気や能力の高さ、露出機会、ビジネスインパクトなどを総じて例えたのでしょう。ファンでなければピンと来ないかもしれませんが、日本コミュニティーのメンバーによると、日本でいえば、テイラー・スウィフトは「（人気女優の）北川景子さんに該当」するそうです（それでも分かるような、分からないような……）。

　Spark開発プロジェクトでは、2015年よりIBMによる大規模な投資が行われています。金額や人員の割り当てもさることながら、「Sparkのテクノロジーセンターを開設」するほどの意欲や覚悟が見受けられます。IBMがこれまでテクノロジーセンターを開設したのは、「Java」と「Linux」のみです。それらと同じくらい将来性があると評価したのでしょう。

（参考記事）Apache Sparkに注力するIBM、目指すは「データ分析のOS」

　Sparkの2016年は、さらに飛躍する年になるかもしれません。新バージョンである「Spark 2.0」が登場するからです。2016年2月時点では、GitHubで開発中。2016年3～4月にコードフリーズし、同年4～5月には正式リリースが予定されています。

　Spark 2.0は、フロントエンドでは「APIを用意する」こと、バックエンドではパフォーマンスの向上が期待されています。シン氏はAPIの指針を「シンプルでも表現豊かに」「セマンティクス（自然言語、人間が理解できる言葉であること）が十分定義されるように」「バックエンドを最適化できるように十分抽象化されること」と説明しました。「使い勝手はかなり変わりそうだが、その効果は大きい」ようで、詳細も近々明らかにされるそうです。

　パフォーマンスに関しては、現バージョンのSpark 1.6と比べてSQL／DataFrameともに「約10倍のスループット向上」が見込まれています。後発のSparkでは、開発当初からHadoopのMapReduceが持つ課題を解決するように設計されています。このため、一般的にSparkは、多くのケースでHadoopより高速だといわれています。これをさらに性能を伸ばすとなると、どんなインパクトをもたらしてくれるのでしょう。こちらは、今後も詳細を追っていきます。

Spark 2.0は、SQL／DataFrameがSpark 1.6比で「10倍のスループット向上」が見込まれる（出典：Spark Conference Japan 2016の講演資料）

　最後に余談ですが、午前中の講演ではマスコットのゾウがずっと登壇者の隣に寄り添っていたのが印象的でした。夜の懇親会では豪華なHadoop10周年記念ケーキでお祝いしたそうです。

「Database Watch」バックナンバー
Database Expert
実践！「MapReduceでテキストマイニング」徹底解説
Hadoopとは何かを解説し、実際にHadoopを使って大規模データを対象にしたテキストマイニングを行います。テキストマイニングを行うサンプルプログラムの作成を通じて、Hadoopの使い方や、どのように活用できるのかを解説します
Hadoopは「難しい・遅い・使えない」？越えられない壁がある理由と打開策を整理する
ブームだったHadoop。でも実際にはアーリーアダプター以外には、扱いにくくて普及が進まないのが現状だ。その課題に幾つかの解決策が出てきた。転換期を迎えるHadoopをめぐる状況を整理しよう。
Apache Sparkに注力するIBM、目指すは「データ分析のOS」
北米トヨタ販売子会社での採用事例の発表などもあり、日本国内でも注目を集めつつある「Apache Spark」。具体的にはどんな特徴があって、何ができるのだろうか。Sparkへの大規模投資を発表したIBM（日本IBM）を取材した。
GoogleのMapReduceアルゴリズムをJavaで理解する
最近注目を浴びている分散処理技術「MapReduce」の利点をサンプルからアルゴリズムレベルで理解し、昔からあるJava関連の分散処理技術を見直す特集企画（編集部）
ヤフー、Open Compute Project仕様の大規模インフラ基盤を構築
CTCが、ヤフーの米国法人が持つデータセンターへビッグデータの活用を目的とする大規模なインフラ基盤を構築。Open Compute Projectを活用することで、調達コストを削減できたという。2016年早期の本稼働を目指す。
米アップルも参加するOpen Compute Projectが新たな段階に
Open Compute Project Foundationは2015年3月10日（米国時間）、米カリフォルニア州サンノゼでOpen Compute Summit 2015を開幕、米ヒューレット・パッカードが新たなサーバー製品ラインを発表するなど、参加ベンダー／製品、ユースケースの両面で、このプロジェクトの広がりを印象付けた。