NVIDIAはAIファクトリー向け推論オープンソースソフトウェア「NVIDIA Dynamo 1.0」の一般提供を開始した。
この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。
NVIDIAは2026年3月16日(米国時間)、AIファクトリー(大規模なAI学習・推論基盤)向け推論OSS(オープンソースソフトウェア)である「NVIDIA Dynamo 1.0」の一般提供を開始した。
複数の業界でエージェント型AIシステムの本番稼働が進むにつれて、サイズやモダリティ、そしてパフォーマンス要件の異なるリクエストが、予測不能な突発的トラフィックとして押し寄せるようになった。こうした背景の下、データセンターにおける推論のスケーリングが急務であり、AIワークロードを処理するためのリソースを統合管理(オーケストレーション)することが求められている。
コンピュータのOSがハードウェアとアプリケーションを調整するように、Dynamo 1.0はAIファクトリーの分散OSのように機能し、クラスタ全体のGPUとメモリリソースを統合管理して、AIワークロードを処理するという。
NVIDIAによると、最新の業界ベンチマークにおいて、Dynamo 1.0は同社の「Blackwell GPU」の推論性能を最大7倍向上させ、トークンコストの削減に寄与したという。
NVIDIAの創業者兼CEO(最高経営責任者)のジェンスン・フアン氏は「推論は知能のエンジンであり、全てのクエリ、エージェント、アプリケーションを駆動している」とした上で、DynamoをAIファクトリー向けの基盤ソフトウェアと位置付けている。
Dynamo 1.0は推論作業をGPU間で分散させ、データをGPUと低コストのストレージ間で移動させる。これにより無駄な処理を削減し、メモリの制限を緩和する。エージェント型AIや長いプロンプトに対しては、過去のターンから最も関連性の高い「短期メモリ」を既に持っているGPUにリクエストをルーティングし、不要になったメモリをオフロードする。
Dynamoは現在、Amazon Web Services(AWS)、Microsoft Azure、Google Cloudなど主要なクラウド環境でサポートされている。
NVIDIAは、DynamoとLLM(大規模言語モデル)の推論を高速化するオープンソースの高性能ライブラリ「TensorRT-LLM」を、「LangChain」「llm-d」「LMCache」「SGLang」「vLLM」などの主要フレームワークに統合している。
メモリ管理を改善する「Dynamo KV Block Manager」(KVBM)や、GPU間の高速データ転送を実現する「NVIDIA Inference Xfer Library」(NIXL)、スケーリングを簡素化する「NVIDIA Grove」などのコアモジュールは、単独で利用可能だ。
また、オープンソースフレームワークにネイティブ統合できるよう、TensorRT-LLMのCUDAカーネルを「FlashInfer」プロジェクトに提供している。
NVIDIAの推論プラットフォームは、主要なクラウドサービスからAIネイティブ企業まで、AIエコシステム全体で幅広くサポートされている。AIワークロードを支える基盤として、以下の主要企業・サービスが同プラットフォームを採用している。
生成AIは幻滅期、AIエージェントは「過度な期待」のピーク ガートナー「未来志向型インフラテクノロジーのハイプ・サイクル」
A2AとMCPで異なる企業のAIエージェントを連携させるサービス アクセンチュアが提供開始
「実は知らない」とは言いづらい「AIエージェント」の基礎を把握する
普通の企業で「コーディングエージェント」を定着させるための3ステップ OpenAI Japan瀬良氏が説明
AIコーディングツールに約7割が不満 「意図通りに出ない」「精度も低い」Copyright © ITmedia, Inc. All Rights Reserved.