インテルがデータサイエンティストのディープラーニング活用を支援する「Apache Spark」対応分散型ディープラーニングライブラリ「BigDL」をオープンソース化。GitHubで公開した。
米インテルは2017年2月8日(米国時間)、クラスタコンピューティングフレームワーク「Apache Spark(以下、Apark)」に対応する分散型ディープラーニングライブラリ「BigDL」をオープンソース化し、GitHubで公開したと発表した。
BigDLの提供は、業界最先端のAI(Artificial Intelligence:人工知能)の実現を支援する同社が進める戦略の一環という。インテルは2016年11月に発表したこの戦略に基づき、BigDL以外にも、Intel Nervana AI Academyを通じてAI関連のトレーニングやツールを開発者に広く提供している。
BigDLは、Sparkアーキテクチャ上に構築する分散型ディープラーニングライブラリ。高度なビッグデータ分析を行うデータサイエンティストなどに向け、ディープラーニングの活用を容易にするという。
BigDLは、データの保存、処理とマイニング、フィーチャーエンジニアリング(特徴量設計)、機械学習とディープラーニングワークロードのための統合型データ分析プラットフォームとしても機能する。BigDLにより、ユーザーは標準的なSparkプログラムとしてディープラーニングアプリケーションを作成し、既存のSparkまたはHadoopクラスタ上で実行可能。ディープラーニングワークロードで使用するデータを直接操作できるよう配置することが可能だ。BigDLは既に「Databricks Spark Platform」で稼働している。
インテルはBigDLの特徴として以下の3つを挙げている。
BigDLはディープラーニングライブラリである「Torch」をモデルにしており、Tensorによる数値計算や高次ニューラルネットワークを含むディープラーニングを包括的にサポートする。ユーザーはBigDLを使って、訓練済みのTorchか「Caffe」のモデルをSparkプログラムにロードできる。
高いパフォーマンスを実現するために、BigDLは「Intel MKL(Math Kernel Library)」とマルチスレッドプログラミングを各Sparkタスクで使用している。オープンソースのディープラーニングライブラリである「Caffe」「Torch」「TensorFlow」をシングルノードのXeon環境での一般的な設定で使用する場合と比べて高速に動作するという。
BigDLは、Spark上での同期SGD(Stochastic Gradient Descent:確率的勾配降下法)の効率的な実装と通信の大幅削減が可能。ビッグデータスケールのデータ分析ができるように効率的にスケールアウトできる。
具体的には、BigDLは以下のようなシーンで効果的だという。
Copyright © ITmedia, Inc. All Rights Reserved.