Googleは「Google Cloud Platform」において、大手クラウドベンダーとして初めて「NVIDIA Tesla T4 GPU」を用いたサービスの提供を開始した。まずは限定的なα版サービスとして扱う。機械学習(ML)推論とモデルの分散トレーニング、コンピュータグラフィックスに最適化されているという。
Googleは2018年11月13日(米国時間)、「Google Cloud Platform(GCP)」において、大手クラウドベンダーとして初めて「NVIDIA Tesla T4 GPU(T4)」を用いたサービスの提供を開始したと発表した。
機械学習(ML)推論とモデルの分散トレーニング、コンピュータグラフィックスに最適化されているという。現在はα版のサービスとして、限定的に受け付けている。料金は、β版サービス提供の発表時に公表予定だ。
GCPのIaaS「Google Compute Engine(GCE)」では、高パフォーマンス推論ワークロードの実行に必要な要素を全て事前に構成した「Cloud Deep Learning VM Image」を提供している。これによりT4を、素早く使い始めることができるという。
マネージドKubernetesサービスである「Google Kubernetes Engine(GKE)」など、他のGCPサービスでも、T4の提供を開始する予定だ。
ML推論は他の人工知能(AI)技術と比べて、特に高いパフォーマンスと低レイテンシの演算能力を必要とする。
T4は、NVIDIA Turing Tensorコアを搭載しており、FP32(単精度浮動小数点数)とFP16(半精度浮動小数点数)、INT8(8ビット符号付き整数配列)精度モードをサポートする。これによりResNet-50モデル、INT8精度、バッチサイズ=1という条件では、ML推論で最大130TFLOPS(テラフロップス)の演算性能と、レイテンシ1.1ミリ秒を実現するという。
さらに、T4が搭載する16GBの高速GPUメモリによって、大規模MLモデルの場合にも、複数MLモデルによる推論の同時実行の場合にも、全体的な推論効率が高まる。なお、T4は現時点で、高パフォーマンスを可能にするINT4とINT1精度をサポートする唯一のGPUでもある。
Googleによると、MLトレーニングで優れた価格性能比を実現するために、混合精度演算(FP32とFP16)に対応したGPUを求める声が多いという。
「ハイブリッドFP32/FP16 MLトレーニング」におけるT4の65TFLOPSという性能や、GPUメモリの量は、さまざまな分散トレーニングや強化学習、その他のMLトレーニングワークロードに対するニーズに応えるものだと、Googleは述べている。
Googleによれば、T4が備えるハードウェアアクセラレーテッドグラフィックス機能によって、リアルタイムレイトレーシングやオフラインレンダリング、NVIDIA RTX技術を利用するアプリケーションなど、要件の厳しいグラフィックスワークロードに向けた選択肢にもなるという。
T4のTuringアーキテクチャは、リアルタイムレイトレーシングやAI、シミュレーション、ラスタライゼーションを融合させ、コンピュータグラフィックスのハイブリッドレンダリングアプローチを改善できるという。また、「RTコア」と呼ばれる専用のレイトレーシングプロセッサは、3D環境の中で光と音がどのように伝わるかという計算を、これまでよりも高速に実行できる。
Copyright © ITmedia, Inc. All Rights Reserved.