検索
ニュース

AI基盤の負荷とコスト増どう抑える? 主要テクノロジー企業が採用、NVIDIAの推論OSS「Dynamo」「Blackwell GPU」の推論性能「最大7倍向上」をうたう

NVIDIAはAIファクトリー向け推論オープンソースソフトウェア「NVIDIA Dynamo 1.0」の一般提供を開始した。

Share
Tweet
LINE
Hatena

 NVIDIAは2026年3月16日(米国時間)、AIファクトリー(大規模なAI学習・推論基盤)向け推論OSS(オープンソースソフトウェア)である「NVIDIA Dynamo 1.0」の一般提供を開始した。

 複数の業界でエージェント型AIシステムの本番稼働が進むにつれて、サイズやモダリティ、そしてパフォーマンス要件の異なるリクエストが、予測不能な突発的トラフィックとして押し寄せるようになった。こうした背景の下、データセンターにおける推論のスケーリングが急務であり、AIワークロードを処理するためのリソースを統合管理(オーケストレーション)することが求められている。

Dynamoは「分散OS」として機能

 コンピュータのOSがハードウェアとアプリケーションを調整するように、Dynamo 1.0はAIファクトリーの分散OSのように機能し、クラスタ全体のGPUとメモリリソースを統合管理して、AIワークロードを処理するという。

 NVIDIAによると、最新の業界ベンチマークにおいて、Dynamo 1.0は同社の「Blackwell GPU」の推論性能を最大7倍向上させ、トークンコストの削減に寄与したという。

 NVIDIAの創業者兼CEO(最高経営責任者)のジェンスン・フアン氏は「推論は知能のエンジンであり、全てのクエリ、エージェント、アプリケーションを駆動している」とした上で、DynamoをAIファクトリー向けの基盤ソフトウェアと位置付けている。

 Dynamo 1.0は推論作業をGPU間で分散させ、データをGPUと低コストのストレージ間で移動させる。これにより無駄な処理を削減し、メモリの制限を緩和する。エージェント型AIや長いプロンプトに対しては、過去のターンから最も関連性の高い「短期メモリ」を既に持っているGPUにリクエストをルーティングし、不要になったメモリをオフロードする。

 Dynamoは現在、Amazon Web Services(AWS)、Microsoft Azure、Google Cloudなど主要なクラウド環境でサポートされている。

オープンソースエコシステムとの統合

 NVIDIAは、DynamoとLLM(大規模言語モデル)の推論を高速化するオープンソースの高性能ライブラリ「TensorRT-LLM」を、「LangChain」「llm-d」「LMCache」「SGLang」「vLLM」などの主要フレームワークに統合している。

 メモリ管理を改善する「Dynamo KV Block Manager」(KVBM)や、GPU間の高速データ転送を実現する「NVIDIA Inference Xfer Library」(NIXL)、スケーリングを簡素化する「NVIDIA Grove」などのコアモジュールは、単独で利用可能だ。

 また、オープンソースフレームワークにネイティブ統合できるよう、TensorRT-LLMのCUDAカーネルを「FlashInfer」プロジェクトに提供している。

採用企業・クラウド事業者

 NVIDIAの推論プラットフォームは、主要なクラウドサービスからAIネイティブ企業まで、AIエコシステム全体で幅広くサポートされている。AIワークロードを支える基盤として、以下の主要企業・サービスが同プラットフォームを採用している。

  • クラウドサービスプロバイダー
    • AWS、Microsoft Azure、Google Cloud、OCI(Oracle Cloud Infrastructure)
  • NVIDIAクラウドパートナー
    • Alibaba Cloud、CoreWeave、Together AI、Nebiusなど
  • AIネイティブ企業
    • Cursor(Anysphere)、Hebbia、Perplexity
  • 推論エンドポイントプロバイダー
    • Baseten、Deep Infra、Fireworks AI
  • グローバル企業
    • AstraZeneca、BlackRock、ByteDance、PayPal、Pinterest、SoftBankなど

Copyright © ITmedia, Inc. All Rights Reserved.

ページトップに戻る