マイクロソフト、Hadoop上の「R Server」で「Spark」をサポート：Sparkの速度メリットをオンプレミスRユーザーに提供

マイクロソフトは、Hadoop環境上の「Microsoft R Server」で「Apache Spark」をサポートしたと発表した。

» 2016年06月30日 16時00分公開

[＠IT]

　米マイクロソフトは2016年6月28日（米国時間）、Hadoop上の「Microsoft R Server（以下、R Server）」で「Apache Spark（以下、Spark）」をサポートしたと発表した。この対応によって、Sparkの速度面のメリットをオンプレミス環境のRユーザーも享受できるようになったとしている。

　R Serverは、同社が2015年1月に買収したRevolution Analyticsが開発した統計用オープンソースソフトウェア「R」のエンタープライズ版で、ビッグデータ解析プラットフォームとして利用できる。データウェアハウスの「Teradata」やLinux、Windows環境にも対応している。Sparkは、Hadoop＋MapReduceの構成よりも高速でニアリアルタイムに大規模データを分析できるとされているオープンソースのデータ処理エンジンである。

Microsoft R Serverの公式サイト

　今回提供するサービスでは、R ServerとSparkを組み合わせることによって、ユーザーは、R関数を数千のSparkノードに対して実行し、データによるモデルの訓練を従来の1000倍の規模で行えるようになるという。

　さらに、シングルサーバでしか動作しないCRAN（Comprehensive R Archive Network）アルゴリズムと、5ノードのSparkクラスタ上のR Serverを比較したところ、R Serverは、5倍の規模のハードウェアによって、GLM（Generalized Linear Model）を125倍高速に実行できたとしている。

　また、マイクロソフトは同時に、R Serverの統合や運用に使用されるコンポーネント「DeployR」のアーキテクチャを大幅に改良したことも発表した。これにより、使用感が向上するとともに、サポートされるリポジトリデータベースが増え、セキュリティ性も改善させている。

知らないと大損する、Apache Sparkの基礎知識と3つのメリット
社会一般から大きな注目を集めているIoT（Internet of Things）。だが、その具体像はまだ浸透しているとはいえない。今回は、IoTやビッグデータのキーテクノロジとして注目されている「Apache Spark」について、Sparkを製品に取り込んでいる日本IBMの土屋敦氏と、数多くの企業のデータ分析を担うブレインパッドの下田倫大氏に話をうかがった。
いまさら聞けないHadoopとテキストマイニング入門
Hadoopとは何かを解説し、実際にHadoopを使って大規模データを対象にしたテキストマイニングを行います。テキストマイニングを行うサンプルプログラムの作成を通じて、Hadoopの使い方や、どのように活用できるのかを解説します
マイクロソフトが「Microsoft R Server」を公開
マイクロソフトが「Microsoft R Server」の提供を開始。LinuxやTeradata、Hadoopディストリビューション版も。