マイクロソフト、Hadoop上の「R Server」で「Spark」をサポートSparkの速度メリットをオンプレミスRユーザーに提供

マイクロソフトは、Hadoop環境上の「Microsoft R Server」で「Apache Spark」をサポートしたと発表した。

» 2016年06月30日 16時00分 公開
[@IT]

 米マイクロソフトは2016年6月28日(米国時間)、Hadoop上の「Microsoft R Server(以下、R Server)」で「Apache Spark(以下、Spark)」をサポートしたと発表した。この対応によって、Sparkの速度面のメリットをオンプレミス環境のRユーザーも享受できるようになったとしている。

 R Serverは、同社が2015年1月に買収したRevolution Analyticsが開発した統計用オープンソースソフトウェア「R」のエンタープライズ版で、ビッグデータ解析プラットフォームとして利用できる。データウェアハウスの「Teradata」やLinux、Windows環境にも対応している。Sparkは、Hadoop+MapReduceの構成よりも高速でニアリアルタイムに大規模データを分析できるとされているオープンソースのデータ処理エンジンである。

ALT Microsoft R Serverの公式サイト

 今回提供するサービスでは、R ServerとSparkを組み合わせることによって、ユーザーは、R関数を数千のSparkノードに対して実行し、データによるモデルの訓練を従来の1000倍の規模で行えるようになるという。

 さらに、シングルサーバでしか動作しないCRAN(Comprehensive R Archive Network)アルゴリズムと、5ノードのSparkクラスタ上のR Serverを比較したところ、R Serverは、5倍の規模のハードウェアによって、GLM(Generalized Linear Model)を125倍高速に実行できたとしている。

 また、マイクロソフトは同時に、R Serverの統合や運用に使用されるコンポーネント「DeployR」のアーキテクチャを大幅に改良したことも発表した。これにより、使用感が向上するとともに、サポートされるリポジトリデータベースが増え、セキュリティ性も改善させている。

Copyright © ITmedia, Inc. All Rights Reserved.

RSSについて

アイティメディアIDについて

メールマガジン登録

@ITのメールマガジンは、 もちろん、すべて無料です。ぜひメールマガジンをご購読ください。