マイクロソフト、Hadoop上の「R Server」で「Spark」をサポート：Sparkの速度メリットをオンプレミスRユーザーに提供

マイクロソフトは、Hadoop環境上の「Microsoft R Server」で「Apache Spark」をサポートしたと発表した。

[＠IT] PC用表示関連情報

LINE

Hatena

　米マイクロソフトは2016年6月28日（米国時間）、Hadoop上の「Microsoft R Server（以下、R Server）」で「Apache Spark（以下、Spark）」をサポートしたと発表した。この対応によって、Sparkの速度面のメリットをオンプレミス環境のRユーザーも享受できるようになったとしている。

　R Serverは、同社が2015年1月に買収したRevolution Analyticsが開発した統計用オープンソースソフトウェア「R」のエンタープライズ版で、ビッグデータ解析プラットフォームとして利用できる。データウェアハウスの「Teradata」やLinux、Windows環境にも対応している。Sparkは、Hadoop＋MapReduceの構成よりも高速でニアリアルタイムに大規模データを分析できるとされているオープンソースのデータ処理エンジンである。

Microsoft R Serverの公式サイト

　今回提供するサービスでは、R ServerとSparkを組み合わせることによって、ユーザーは、R関数を数千のSparkノードに対して実行し、データによるモデルの訓練を従来の1000倍の規模で行えるようになるという。

　さらに、シングルサーバでしか動作しないCRAN（Comprehensive R Archive Network）アルゴリズムと、5ノードのSparkクラスタ上のR Serverを比較したところ、R Serverは、5倍の規模のハードウェアによって、GLM（Generalized Linear Model）を125倍高速に実行できたとしている。

　また、マイクロソフトは同時に、R Serverの統合や運用に使用されるコンポーネント「DeployR」のアーキテクチャを大幅に改良したことも発表した。これにより、使用感が向上するとともに、サポートされるリポジトリデータベースが増え、セキュリティ性も改善させている。

マイクロソフト、Hadoop上の「R Server」で「Spark」をサポート：Sparkの速度メリットをオンプレミスRユーザーに提供

関連記事

関連リンク

総合記事ランキング