検索
ニュース

マイクロソフト、「Linuxデータサイエンス仮想マシン」の最新コンポーネントを公開高度な機械学習アプリや分析アプリの構築、デプロイを支援

マイクロソフトは、Azureクラウド上のカスタムVMイメージのLinux版「データサイエンス仮想マシン(DSVM)」の最新リリースを公開。新たなコンポーネントを幾つか追加した。

Share
Tweet
LINE
Hatena

 米マイクロソフトは2017年3月9日(米国時間)、Linux版「データサイエンス仮想マシン(DSVM)」の最新リリースを公開。新たなコンポーネントを追加した。

 DSVMは、データサイエンスやディープラーニング、データ分析用に構築されたMicrosoft Azure向けカスタムVMイメージで、Windows版、Linux版を用意。高度な機械学習アプリや分析アプリの構築、デプロイを支援する。

 Linux版DSVMの最新リリースの主な意図は、「機械学習アプリを開発、テストして、「Spark」「Hadoop」「Microsoft R Server」などのスケーラブルな分散プラットフォームにデプロイし、非常に大規模なデータを操作できるようにすること」だと、マイクロソフトは述べている。また、Linux版、Windows版ともに同リリースから、Julia ComputingのJuliaディストリビューション「JuliaPro」も提供するという。

photo 「データサイエンス仮想マシン」の概要

 DSVMの以下の新しいコンポーネントは、インテリジェントアプリを構築し、ビッグデータプラットフォームにデプロイするのに利用できる。

Microsoft R Server 9.0

 Microsoft R Server(MRS)のバージョン9.0は、並列計算や分散計算に対応したマイクロソフトのエンタープライズスケールRのメジャーアップデートとなり、Spark 2.0コンテキストでの分析をサポートする。また、新しいライブラリ「mrsdeploy」でRモデルや関数をWebサービスとしてデプロイするための新しいアーキテクチャと、シンプルなインタフェースが用意される。こうしたデプロイにより、オープンな「Swagger」フレームワークを使って他のアプリのモデルを容易に利用できるようになった。

ローカルのスタンドアロンSparkインタフェース

 Sparkは、高度にスケーラブルなビッグデータ分析や機械学習のためのプラットフォームの1つ。2016年半ばにリリースされた「Spark 2.0」では、改良された機械学習ライブラリ(MLLib)、スケーリングとパフォーマンスの最適化、ANSI SQL準拠の向上、APIの統一といった機能強化が行われた。

 Linux版DSVMは、JupyterでスタンドアロンSparkインスタンスとPySparkカーネルが利用できるようになった。これにより、DSVMでアプリケーションを構築、テストし、「Azure HDInsight Spark」や独自のオンプレミスSparkクラスタのような大規模クラスタにデプロイできる。コード作成には、Jupyterノートブックの他、同梱のPycharm IDE(Python使用時)またはRStudio(R使用時)のコミュニティーエディションが利用できる。

シングルノードのローカルHadoop(HDFSとYARN)インスタンス

 Hadoopプログラムの開発や、開発やテストを目的としたHDFSストレージのローカル利用を容易にするために、Linux版DSVMにはシングルノードHadoopがインストール済みとなっている。また、HadoopやSparkのリモートコンテキストで実行されるプログラムをMicrosoft R Serverで開発している場合、まずLinux版DSVMでテストを行ってから、リモートのスケールアウト型HadoopまたはSparkクラスタや、Microsoft R Serverにコードをデプロイできる。DSVMのこれらの追加機能は、本番環境の大規模なビッグデータクラスタへのデプロイを行う前に、アプリの開発、テスト時に迅速に反復作業を行えるように支援することを目的としている。

 なお、DSVMは、ビッグデータ技術に関する自習やトレーニングクラスの実行にも利用できる。DSVMで提供されるさまざまなデータサイエンスツールや技術を素早く使い始められるように、サンプルコードやサンプルノートブックが用意されている。

Copyright © ITmedia, Inc. All Rights Reserved.

ページトップに戻る