推論用「LPU」も搭載 NVIDIAの「Vera Rubin」、エージェント型AI向けの“7種チップ”で構成:大規模AIモデルの学習から推論処理までを高速化
NVIDIAの次世代AIプラットフォーム「NVIDIA Vera Rubin」は、7種類の新チップを搭載。大規模な事前学習からリアルタイムの推論までを支えるAIファクトリー向けのインフラを提供する。
低レイテンシかつ大規模コンテキスト処理を前提とするエージェント型AIの活用が広がってくることが想定される中で、NVIDIAは2026年3月16日(米国時間)、次世代AIプラットフォーム「NVIDIA Vera Rubin」(以下、Vera Rubin)に搭載する7種類の新チップが、本格生産に入ったことを発表した。Vera Rubinは5種類のラック構成を用意し、大規模な事前学習からエージェント型AIのリアルタイム推論まで、AI活用のさまざまなフェーズを支える。
7種類のチップで構成 Vera Rubinとは?
Vera Rubinプラットフォームは、計算処理を担うプロセッサ群(コンピュート)、ノード間を接続する通信基盤(ネットワーク)、データ保存基盤(ストレージ)を統合的に設計。この構成により、個別のサーバ群ではなく、あたかも1台の巨大なスーパーコンピュータのように動作する「PODスケール」(複数ラック単位で1つのシステムとして扱う設計)のシステムを実現する。
これにより、AIファクトリー(AIモデルの学習、推論、運用、継続的な改善を一体的に実行するインフラ)のリソース利用効率を高めつつ、大規模なAIモデルの学習や推論処理を高速かつスケーラブルに実行できるとしている。
Vera Rubinは、以下の7種類のチップで構成されている。
- Vera CPU(エージェント型AI向けプロセッサ)
- Rubin GPU(「Blackwell」の後継となる次世代GPUアーキテクチャ)
- NVLink 6スイッチ(高速インターコネクト)
- ConnectX-9 SuperNIC(ネットワークカード)
- BlueField-4 DPU(データ処理ユニット)
- Spectrum-6 Ethernetスイッチ(次世代イーサネットスイッチ)
- Groq 3 LPU(言語処理ユニット)
5種類の専用ラック:用途別に最適化されたシステム構成
Vera Rubinでは、以下の5種類の専用ラックシステムが展開される。
「Vera Rubin NVL72ラック」:推論スループットが最大10倍向上
72台のRubin GPUと36台のVera CPU、ConnectX-9 SuperNIC、BlueField-4 DPUをNVLink 6で接続した「Vera Rubin NVL72ラック」は、Blackwellと比較して4分の1のGPU数でMoEモデル(Mixture of Experts:複数の専門家モデルを組み合わせた大規模AIモデル)のトレーニングが可能だ。トークン当たりのコストは10分の1で、ワット当たりの推論スループットは最大10倍向上するとしている。
「Vera CPUラック」:従来比2倍の効率と50%の高速化
256台のVera CPUを搭載した液冷式の高密度ラックシステム。AI向けのスイッチおよびDPUを組み合わせたネットワーク基盤「Spectrum-X Ethernet」と統合し、AIファクトリー全体でCPUリソースを効率的に活用できるようにする。
従来のCPUと比較して2倍の効率と50%の高速化を実現するとしており、大規模なエージェント型AIや強化学習のCPU基盤を担う。
「Groq 3 LPXラック」:1兆パラメーターモデルで推論スループットを最大35倍向上
低レイテンシと大規模コンテキスト処理を必要とするエージェント型システム向けに設計されており、256台の「LPU」(Language Processing Unit)を搭載し、128GBのオンチップSRAM(Static Random Access Memory)と毎秒640TBのスケールアップ帯域幅(同一システム内でCPUやGPU間のデータをやりとりする速度)を持つ。1兆パラメーターモデルに対してメガワット当たりの推論スループットを最大35倍向上させ、Vera Rubin NVL72と組み合わせることで、AIサービスの収益機会を最大10倍拡大するとしている。2026年後半に提供予定だ。
LPUは、高速で決定論的な推論処理に特化したプロセッサ。大規模なLPUの集合体は1つの巨大なプロセッサとして機能し、Rubin GPUと連携してモデルの各レイヤーを共同演算することで出力トークンごとのデコード処理を加速する。
「BlueField-4 STXストレージラック」:推論スループットを最大5倍向上
AI向けに設計されたラックスケールのストレージ基盤であり、GPUメモリをPOD全体に拡張することで、分散環境においても一体化されたメモリ空間を提供する。
高帯域の共有レイヤーを通じて、大規模言語モデル(LLM)やエージェント型AIワークフローが生成する大量のキーバリュー(KV)キャッシュを効率的に保存・取得できるよう最適化されている。
「NVIDIA DOCA Memos」(DPU上で動作するAI向けメモリ処理フレームワーク)により、KVキャッシュ専用の処理をオフロードすることで、推論スループットを最大5倍向上させると同時に、電力効率も改善する。
その結果、POD全体でコンテキストを共有可能となり、AIエージェントのマルチターン対話の高速化、スケーラビリティの向上、インフラ利用効率の最適化を実現するとしている。
「Spectrum-6 SPX Ethernetラック」:光学電力効率を最大5倍向上
AIファクトリー内のラック間通信(東西トラフィック)を高速化するネットワークラック。光学部品を一体化したパッケージを採用した「Spectrum-X Ethernet Photonics」は、従来のプラグイン式トランシーバーと比較して光学電力効率を最大5倍向上させ、耐障害性を10倍高めるとしている。
電力効率の向上とエコシステム
NVIDIAは200以上のデータセンターインフラパートナーとともに「NVIDIA Vera Rubin DSX」プラットフォームを発表した。「DSX Max-Q」ソフトウェアにより固定電力データセンター内で30%多くのAIインフラをデプロイでき、新たな「DSX Flex」ソフトウェアによって100ギガワットのストランデッドグリッド電力を解放できるとしている。
Vera Rubinは、「Amazon Web Services」(AWS)、「Google Cloud」「Microsoft Azure」「Oracle Cloud Infrastructure」(OCI)などの主要クラウドサービスにおいて2026年後半に提供開始予定だ。
Cisco Systems、Dell Technologies、Hewlett Packard Enterprise(HPE)、Lenovo、Super Micro Computerなどのサーバベンダーも対応製品を提供する予定。
Anthropic、Meta Platforms、Mistral AI、OpenAIなどのAIモデル開発企業は、Vera Rubinを採用し、より大規模で高性能なモデルをトレーニングし、従来のGPU世代よりも低遅延かつ低コストにすることを目指しているという。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
Microsoft、新AIチップ「Maia 200」発表 推論性能3倍でNVIDIA依存から脱却へ
Microsoftは、新型AIアクセラレータ「Maia 200」を発表した。FP4で10ペタFLOPSを上回り、Amazon Trainiumの約3倍の性能を実現するという。既にOpenAIのGPT-5.2など主要サービスに採用され、推論コスト削減とNVIDIA依存脱却を進める戦略的チップとして注目されている。
推論コストを10分の1に? NVIDIAが次世代AIプラットフォーム「Rubin」発表
NVIDIAは、次世代AIコンピューティングプラットフォーム「Rubin」を発表した。前世代のBlackwellと比較して推論トークンの生成コストを最大10分の1に削減し、大規模モデルのトレーニングに必要なGPU数を4分の1に抑えるという。
NVIDIA、「フィジカルAI」を支援するオープンモデルやフレームワークを発表
NVIDIAはフィジカルAI向けの新たなオープンモデルとフレームワークを発表した。併せて、Boston Dynamicsをはじめとするパートナー企業がこれらを活用した次世代ロボットやロボット運用を効率化している事例も発表された。
