大規模分散データ処理フレームワーク「Apache Spark 1.6」がリリースされました。メモリマネジャーなどの変更、拡張が行われ、より高速になっているようです。
米Databricksは2016年1月4日(米国時間)、高速な大規模分散データ処理のフレームワーク「Apache Spark」の新版となる「Apache Spark 1.6」正式版のリリースを発表しました。
Spark 1.6では、よく使われるデータフォーマットの1つであるParquetの読み込みに、新しいParquet Readerを導入。いくつかの処理のバイパスやコードの最適化を行った結果、ベンチマークでこれまで1秒当たり290万行の読み込み速度だったものを1秒当たり450万行まで、約50%改善したと説明されています。
また、Spark 1.6ではこれまで設定により固定されていた実行用のメモリ領域とキャッシュ用のメモリ領域の大きさを、新しいメモリマネジャーの導入によって自動的に最適化できるように改善。手動での最適化を不要にし、実行速度の向上に貢献しました。
直近で導入された「DataFrame」とJavaVMのオーバーヘッドを改善する実行エンジンの「Project Tungsten」は、Sparkの実行速度の改善に寄与しました。
Spark 1.6ではDataFrameを拡張したDataset APIが追加されました。Dataset APIでは、コンパイル時にデータの静的型付けチェックをすることで、ScalaやJavaの実行速度を向上させることが可能になっています。
Copyright © ITmedia, Inc. All Rights Reserved.