マイクロソフト、Hadoop上の「R Server」で「Spark」をサポート:Sparkの速度メリットをオンプレミスRユーザーに提供
マイクロソフトは、Hadoop環境上の「Microsoft R Server」で「Apache Spark」をサポートしたと発表した。
米マイクロソフトは2016年6月28日(米国時間)、Hadoop上の「Microsoft R Server(以下、R Server)」で「Apache Spark(以下、Spark)」をサポートしたと発表した。この対応によって、Sparkの速度面のメリットをオンプレミス環境のRユーザーも享受できるようになったとしている。
R Serverは、同社が2015年1月に買収したRevolution Analyticsが開発した統計用オープンソースソフトウェア「R」のエンタープライズ版で、ビッグデータ解析プラットフォームとして利用できる。データウェアハウスの「Teradata」やLinux、Windows環境にも対応している。Sparkは、Hadoop+MapReduceの構成よりも高速でニアリアルタイムに大規模データを分析できるとされているオープンソースのデータ処理エンジンである。
今回提供するサービスでは、R ServerとSparkを組み合わせることによって、ユーザーは、R関数を数千のSparkノードに対して実行し、データによるモデルの訓練を従来の1000倍の規模で行えるようになるという。
さらに、シングルサーバでしか動作しないCRAN(Comprehensive R Archive Network)アルゴリズムと、5ノードのSparkクラスタ上のR Serverを比較したところ、R Serverは、5倍の規模のハードウェアによって、GLM(Generalized Linear Model)を125倍高速に実行できたとしている。
また、マイクロソフトは同時に、R Serverの統合や運用に使用されるコンポーネント「DeployR」のアーキテクチャを大幅に改良したことも発表した。これにより、使用感が向上するとともに、サポートされるリポジトリデータベースが増え、セキュリティ性も改善させている。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
- 知らないと大損する、Apache Sparkの基礎知識と3つのメリット
社会一般から大きな注目を集めているIoT(Internet of Things)。だが、その具体像はまだ浸透しているとはいえない。今回は、IoTやビッグデータのキーテクノロジとして注目されている「Apache Spark」について、Sparkを製品に取り込んでいる日本IBMの土屋敦氏と、数多くの企業のデータ分析を担うブレインパッドの下田倫大氏に話をうかがった。 - いまさら聞けないHadoopとテキストマイニング入門
Hadoopとは何かを解説し、実際にHadoopを使って大規模データを対象にしたテキストマイニングを行います。テキストマイニングを行うサンプルプログラムの作成を通じて、Hadoopの使い方や、どのように活用できるのかを解説します - マイクロソフトが「Microsoft R Server」を公開
マイクロソフトが「Microsoft R Server」の提供を開始。LinuxやTeradata、Hadoopディストリビューション版も。