マイクロソフトは、Hadoop環境上の「Microsoft R Server」で「Apache Spark」をサポートしたと発表した。
米マイクロソフトは2016年6月28日(米国時間)、Hadoop上の「Microsoft R Server(以下、R Server)」で「Apache Spark(以下、Spark)」をサポートしたと発表した。この対応によって、Sparkの速度面のメリットをオンプレミス環境のRユーザーも享受できるようになったとしている。
R Serverは、同社が2015年1月に買収したRevolution Analyticsが開発した統計用オープンソースソフトウェア「R」のエンタープライズ版で、ビッグデータ解析プラットフォームとして利用できる。データウェアハウスの「Teradata」やLinux、Windows環境にも対応している。Sparkは、Hadoop+MapReduceの構成よりも高速でニアリアルタイムに大規模データを分析できるとされているオープンソースのデータ処理エンジンである。
今回提供するサービスでは、R ServerとSparkを組み合わせることによって、ユーザーは、R関数を数千のSparkノードに対して実行し、データによるモデルの訓練を従来の1000倍の規模で行えるようになるという。
さらに、シングルサーバでしか動作しないCRAN(Comprehensive R Archive Network)アルゴリズムと、5ノードのSparkクラスタ上のR Serverを比較したところ、R Serverは、5倍の規模のハードウェアによって、GLM(Generalized Linear Model)を125倍高速に実行できたとしている。
また、マイクロソフトは同時に、R Serverの統合や運用に使用されるコンポーネント「DeployR」のアーキテクチャを大幅に改良したことも発表した。これにより、使用感が向上するとともに、サポートされるリポジトリデータベースが増え、セキュリティ性も改善させている。
Copyright © ITmedia, Inc. All Rights Reserved.