NVIDIA、AI推論プラットフォーム「NVIDIA TensorRT Hyperscale Inference Platform」を発表：Tesla T4 GPU、TensorRT 5、TensorRT推論サーバなどでデータセンターを構成

NVIDIAは、音声や動画、画像、レコメンデーションサービス向けに高度な推論アクセラレーションを実現するAIデータセンタープラットフォーム「NVIDIA TensorRT Hyperscale Inference Platform」を発表した。

[＠IT] PC用表示関連情報

LINE

Hatena

　NVIDIAは2018年9月12日（米国時間）、音声や動画、画像、レコメンデーションサービス向けに極めて高度な推論アクセラレーションを実現するAIデータセンタープラットフォーム「NVIDIA TensorRT Hyperscale Inference Platform」を発表した。

　TensorRT Hyperscale Inference Platformは、NVIDIAが画期的だと主張する「NVIDIA Turing」アーキテクチャに基づく推論アクセラレータ「NVIDIA Tesla T4 GPU」と、新しい包括的な推論ソフトウェアセットを含む。

　Tesla T4 GPUは、CPUのみの場合と比べて最大40倍高速にクエリを処理し、推論ソフトウェアはリアルタイム推論に対応している。同GPUを採用することで、データセンターのスループットとサーバ使用率の最大化を目指した。

　この結果、エンドツーエンドのアプリケーションで高いパフォーマンスを低いレイテンシで提供できるという。このため、同プラットフォームを採用したハイパースケールデータセンターでは、高度な自然言語応答や、検索に対して答えを直接提供するといった新しいサービスを提供できると、NVIDIAは述べている。同社は、5年後にはAI推論市場が200億ドル規模に成長すると推計しており、同プラットフォームはこの成長に寄与できるという。

　TensorRT Hyperscale Inference Platformの主な3つの構成要素は次の通り。

NVIDIA Tesla T4 GPU

　NVIDIA Tesla T4 GPUは、320個の「Turing Tensor Core」と2560個の「CUDA」コアを備え、画期的なパフォーマンスとFP32、FP16、INT8、INT4での柔軟な多精度の推論機能を提供する。FP16でのピーク性能が65TFLOPS、INT8が130TFLOPS、INT4が260TFLOPS。

　消費電力は75ワットであり、省電力型をうたう。パッケージはほとんどのサーバに組み込み可能な小型PCIeフォームファクタとなっている。

NVIDIA Tesla T4 GPU（出典：NVIDIA）

NVIDIA TensorRT 5

　NVIDIA TensorRT 5は、推論の最適化を行うランタイムエンジン。Turing Tensor Coreに対応し、多精度ワークロードでニューラルネットワークの一連の最適化を拡張する。

NVIDIA TensorRT推論サーバ

　NVIDIA TensorRT推論サーバは、コンテナ化されたマイクロサービスソフトウェアであり、アプリケーションがデータセンターの本番環境でAIモデルを利用できるようにする。

　「NVIDIA GPU Cloud」のコンテナレジストリから無料で入手でき、データセンターのスループットとGPUの使用率を最大化し、広く普及したAIモデルおよびフレームワークを全てサポートする。「Kubernetes」や「Docker」とも連携可能だ。

NVIDIA、AI推論プラットフォーム「NVIDIA TensorRT Hyperscale Inference Platform」を発表：Tesla T4 GPU、TensorRT 5、TensorRT推論サーバなどでデータセンターを構成

NVIDIA Tesla T4 GPU

NVIDIA TensorRT 5

NVIDIA TensorRT推論サーバ

関連記事

関連リンク

Server & Storage 記事ランキング