Dell EMCがTensorFlow、Caffe、MXNetのパフォーマンス比較をNVIDIAのGPU「Tesla P100」で行った理由：AI／Deep Learning分野で企業に届けたい価値とは

Dell EMCがAI／ディープラーニング分野での取り組みを活発化させている。オープンで標準的な技術を使って企業の課題をシンプル化してきた同社は、AI／ディープラーニング分野にどう取り組むのか。

» 2017年04月10日 10時00分公開

[PR／＠IT]

「NVIDIA Tesla P100」の比較検証レポートが話題に

　2017年1月、GPGPUやHPC業界で静かに話題になったレポートがある。NVIDIAのPascal世代のGPUを搭載した「NVIDIA Tesla P100」（以下、P100）が実稼働環境でどのような性能を発揮するかについて、実機を使ったパフォーマンス比較検証レポートが発表されたのだ。

　2016年4月に発表されたP100は、アーキテクチャ刷新やNVIDIA NVLinkなどの技術の採用によりMaxwell世代と比べて大幅なパフォーマンス向上が図られた。特に、近年企業ニーズが高まっているDeep Learning（ディープラーニング）への最適化が図られており、NVIDIAの公表値によれば、畳み込みニューラルネットワーク（CNN）アルゴリズム用のフレームワーク「Caffe」とニューラルネット「AlexNet」を使ったパフォーマンス比較では、Maxwell世代のTesla M40と比較して、じつに※7倍ほどの性能向上を果たしている。

※「Tesla P100 データセンターアクセラレータ」の図「NVINIDA Tesla P100 Performance」左下「Caffe/AlexNet」から

　ただ、こうした性能値が実環境でそのまま発揮されるとは限らない。利用するフレームワークやアプリケーションによって結果は大きく異なってくるのが常だ。ディープラーニングを生かそうとすれば、実稼働環境でどのような動き方をするのかについて検証を重ねる必要がある。そうした中発表されたのが、冒頭で紹介した検証レポートだ。

　検証を行ったのはDell EMCだ。レポートは2016年10月付けで作成され、Dell EMCの「テックセンター・コミュニティ」のサイトから誰でも自由にダウンロードできる形で公表された。2017年1月からは日本語版『NVIDIA Tesla P100 GPU によるディープラーニングのパフォーマンス』の提供も開始されている。

　Dell EMCとディープラーニングの組み合わせを意外に感じる方もいるかもしれない。しかし、Dell EMCはHPC（High-Performance Computing）ではよく知られた存在だ。企業向けには、HPC向けデータのプレポスト処理を行うワークステーションから、並列コンピューティングやGPUコンピューティング向けのサーバやネットワーク、ストレージ製品まで多数を展開。HPC向けでは検証済環境と推奨構成「Dell EMC Blueprint for HPC」を提供する他、東京三田にある「Dell EMC GPU ソリューションラボ」では、GPUを活用した3D CADや仮想デスクトップ環境などの実機検証も行う。これまでにも、HPCやGPU分野で実機を使ったパフォーマンス比較検証など、数々のホワイトペーパーを公表してきた。

　今回公表されたレポートへの関心は、Dell EMCが今後、ディープラーニング向けソリューションを積極的に展開していくことへの期待の表れともいえる。では、実際のところどうなのか。Dell EMC インフラストラクチャ・ソリューションズ事業統括ソリューション本部 HPCビジネス開発マネージャ山崎拓也氏に、レポートの詳細や今後の展開について話を聞いた。

オープンで標準的な技術がディープラーニングの取り組みを加速

Dell EMC インフラストラクチャ・ソリューションズ事業統括ソリューション本部 HPCビジネス開発マネージャ山崎拓也氏

　レポートの詳細に入る前に、そもそもDell EMCがディープラーニングに対してどんな姿勢で臨んでいるのかをあらためて整理しておこう。山崎氏がまず指摘するのは「ディープラーニングは限られた特定の組織による研究開発といった領域にとどまらなくなってきた」ということだ。

　「IoTやAIがブームになっていることからも分かるように、ディープラーニングの活用領域は大きな広がりを見せています。ざっと挙げるだけでも、自然言語処理、音声認識、画像認識、メディカルイメージング、自動運転、為替市場の時系列データ分析など非常に多岐分析モデルにわたっています」

　取り組みを進める企業としても、グーグルやIBM、マイクロソフトといったITベンダーだけではなく、自動車や小売業、医療などの一般企業にまで広がっている。専門研究機関がスパコンを使って行ってきたような演算処理の一部は、一般企業のデータセンター施設で行うことも可能になった。それを支えているのが、画像処理を高速に実行するGPUの機能を並列計算処理の高速化に利用するGPGPUだ。山崎氏は、GPGPUの活況について、こう話す。

　「GPGPUは、流体シミュレーションや分子シミュレーションなど複雑な計算を、パラメータを変えて繰り返し計算する場合に適しています。プログラミングはNVIDIAのCUDAやOpenCLなどによって行いますが、最近ではディープラーニングでの活用シーンが増え、ライブラリやオープンソースが充実しつつある状況です」

　例えば、GPUに対応したディープラーニングのフレームワークとしては、冒頭で触れたCaffeの他、グーグルが開発しオープンソースとして公開している「TensorFlow」、AWSでのサポートも始まった「MXNet」、Preferred Networksが開発する「Chainer」などがある。GPUとこれらフレームワークを使うことで、今まで膨大な時間を要していた機械学習／ディープラーニング用の教師データの処理を、より簡単に短時間で行えるようになった。

　「ディープラーニングの取り組みでは学習用の教師データとなるビッグデータをいかに蓄積するかもポイントになります。その際にはビッグデータを収集するIoTも不可欠です。このように、ディープラーニングの取り組みでは、ビッグデータ、フレームワークや分析モデル、強力なGPUアクセラレータの3つの要素技術がそろうことが重要です」

　こうしたディープラーニングの要素技術を、オープンで標準的な基盤技術と最先端技術でエンドトゥエンドに提供していこうとしているのがDell EMCだ。Dell EMCは、ディープラーニングをはじめとするHPCの環境をエッジからサーバまでの統合的なソリューションとして届けられる数少ないベンダーなのだ。

TensorFlow、MXNet、Caffeをベンチマーク

　もろちん、こうした要素技術をそろえても、ディープラーニングの取り組みが首尾よく進むわけではない。「どのフレームワークを選択すればいいか」「集まったビッグデータに対し、どんなモデルを構築すればいいか」「それを基にどんなアプリケーションを開発するか」など取り組みを進めごとに、さまざまな課題が立ちはだかる。そこで、Dell EMCが判断の助けとなるように提供しているのがさまざまな技術レポートだ。山崎氏は、今回のP100のレポートについて、こう解説する。

　「レポートはP100について、TensorFlow 0.11.0-rc2、MXNet 0.7.0、NVIDIAフォークのCaffe『NV-Caffe』（バージョン 0.15.13）の3つのフレームワークごとの、GoogLeNetおよびInception-BN、Inception-V3ニューラルネットワークのトレーニングスピードとタイムの違いをベンチマークしたものです。ポイントは大きく3つあります。1つ目は、GPUがどの程度パフォーマンス向上に貢献するか。2つ目は、複数のGPUを用いるマルチGPUやマルチGPUノードでどうパフォーマンスが変化するか。3つ目は、フレームワークごとに違いが見られるかです」

　ベンチマークテストでは、NVIDIAのP100-PCIe GPUとDell EMCのサーバ「PowerEdge C4130」を使ったクラスタ環境を構築した。クラスタは「PowerEdge R630」をヘッドノードし、C4130を4つの計算処理ノードとして構成され、各計算処理ノードは2つのCPUと4つのGPUを備える。全てのノードはInfiniBandで接続され、NFS経由でディスクストレージを共有している。処理は、ディープラーニングのコンテストでしばしば使われるデータセット「ImageNet LSVRC 2012（ILSVRC12）」を使った画像認識のトレーニングだ。

ベンチマークシステム構成

　1つ目のGPUがどの程度パフォーマンス向上に貢献するかについては、まず、GPUの数やGPUノード数を増やせば増やすほど、実際に性能が向上することが確認できた。NV-Caffe、MXNet、TensorFlowのいずれにおいても、GPUの数やGPUノードを増やすと、トレーニングスピードは高くなり、トレーニングタイムは短くなった。

P100 GPUを使用したNV-CaffeのGoogLeNetにおけるトレーニングスピードおよびタイム

P100 GPUを使用したMXNetのInception-BNにおけるトレーニングスピードおよびタイム

P100 GPUを使用したTensorFlowのInception-V3におけるトレーニングスピードおよびタイム

　2つ目の、マルチGPUやマルチGPUノードでどうパフォーマンスがどう変化するかについては、おおよそリニアに性能が向上することが確認できた。具体的には、NV-Caffeの場合、P100 1個の場合のトレーニングスピードが468イメージ/秒だったのに対し、2個では894イメージ/秒に、3個では1755イメージ/秒に向上した。また、TensorFlowの場合、P100 1個の場合のトレーニングスピードが75イメージ/秒だったのに対し、2個では132イメージ/秒に、3個では220イメージ/秒に向上した。

　3つ目のフレームワークごとの違いについては、次の図を示しながら、「この図の目的は、大規模データを処理する際に並列処理が求められることが普通のGPU演算で、より多くのGPUを使用する場合に、各フレームワークにおける高速化がリニアにスケールするかどうかを明示することです。この目的では入力パラメータが異なるため、異なるフレームワーク間の比較は含みません」と説明している。

異なるフレームワークおよびネットワーク上における複数のP100による高速化のイメージ/秒の比較

　素人考えでは「どの処理にどのフレームワークを使えばいいのか知りたい」と思うが、現段階では正しく比較するには難しい面もあるようだ。山崎氏はこう話す。

　「現段階では、フレームワークがマルチノードに対応できていなかったり、InfiniBandに対応していなかったりするので、同じ条件での比較が難しいのです。アプリケーションへの実装の仕方によっても性能は変わりますから、環境ごとに検証する必要があります。TensorFlowは複数のノード上でのトレーニングパフォーマンスが低下しますがその理由もはっきり分かりません。これらを調査し、さらに知見をためるための検証をこれからどんどん行っていくことが重要なのです」（山崎氏）

　1つ明らかなことは、P100を使ったクラスタ環境をスケールさせていくことで、ディープラーニングのパフォーマンスはほぼリニアに拡張していくことが期待できるという点だ。自社データセンターでのシステム設計に参考になるはずだ。

テクノロジーのシンプル化をAIの分野でも

　では、実際にDell EMCはどのようなディープラーニングのソリューションを提供しているのか。

　まず、GPUに対応したサーバ製品としては、ベンチマークテストでも使われたPowerEdge C4130がある。PowerEdge C4130は、1Uサイズのラックマウント型サーバで、GPUを4個搭載する。データ指向のワークロードに向けた設計が施されており、毎秒85兆回の計算を処理できるという。また、Bright Computing社の「Bright Cluster Manager」という管理ツールを用いることで、ディープラーニングクラスタの展開、テスト、プロビジョニング、監視、管理が可能だ。アプリケーション開発用にはNVIDIAのGPUアクセラレーションライブラリを提供する。

Dell EMC PowerEdge C4130

　標準的なシステムのニーズには、GPUを2個搭載可能な2Uサイズの「PowerEdge R730」が適している。GPUは、ディープラーニング向けは、P100の他、P40（2017年春出荷予定）、M40、M4に対応し、vGPU向けは、M60、M10に対応する。また、ディープラーニングで処理するデータの事前・事後加工には、同社のワークステーション「Precision」も最適だ。

Dell EMC PowerEdge R730

　この他、先に触れたHPC向けソリューションをディープラーニング向けに導入することも可能だ。具体的には、計算処理やデータ処理に向けた設計されたソリューション「Dell EMC Blueprint for HPC」がある。PowerEdge C4130、R730を使ってクラスタ構成を構築し、ストレージにLustreベースのストレージ、ネットワークにInfiniBandを採用したAI／ディープラーニングに最適なソリューションとなっている。

　複雑なテクノロジーをシンプルに提供するのがDell EMCの真骨頂だ。目まぐるしく進化を遂げるAIやディープラーニングの世界では、少し目を離すと、置いてけぼりになる。技術検証1つとっても、機材調達から環境構築までに多くの手間とコストがかかる。一般企業で活用できるようになったとはいえ、ハードウェア調達や検証の点では障壁が残っているのが現状だ。

　そんな中、数々の検証施設と実際の検証技術を持ち、ワークステーションからHPCクラスタまでの幅広いラインアップでディープラーニングのソリューションをシンプルな形で提供できるDell EMCは、ディープラーニングの取り組みを進める企業にとって力強い味方になる。

GPGPU対応サーバ

　「“テクノロジーのシンプル化”をAI／ディープラーニングの分野にも適用していきます。エンドトゥエンドのソリューションと、それを支えるための全国規模でのサポート体制もあります。企業にとってのAI／ディープラーニングがもっと身近になっていくはず。そのお手伝いを続けていきます」

Dell EMCがTensorFlow、Caffe、MXNetのパフォーマンス比較をNVIDIAのGPU「Tesla P100」で行った理由：AI／Deep Learning分野で企業に届けたい価値とは

「NVIDIA Tesla P100」の比較検証レポートが話題に

オープンで標準的な技術がディープラーニングの取り組みを加速

TensorFlow、MXNet、Caffeをベンチマーク

テクノロジーのシンプル化をAIの分野でも

関連リンク

関連リンク

デル

NVIDIA Tesla P100 GPU によるディープラーニングのパフォーマンス

Dell EMC HPC System for Manufacturing — システムアーキテクチャおよびアプリケーションのパフォーマンス