Google、生成AI、大規模言語モデル（LLM）の構築に特化したスパコン「A3」を発表：スループットが従来の3倍に向上

Googleは「Google I/O」で、AIのトレーニングに特化したスーパーコンピュータ「A3」を発表した。A3のスループットは従来の3倍に進歩し、A3が活用できるネットワーク帯域幅はA2の10倍に向上しているという。

[＠IT] PC用表示関連情報

LINE

Hatena

　Googleは2023年5月11日（米国時間）、開発者を対象としたイベント「Google I/O」で、AI（人工知能）のトレーニングに特化したスーパーコンピュータ「A3」を発表した。最新CPUや改良されたホストメモリ、次世代NVIDIA GPU、主要なネットワークのアップグレードを完備し、MLワークロードのための最高性能のトレーニングを提供することを目的に構築されている。

A3の特徴

スループットが従来の3倍に向上

　NVIDIAのHopperアーキテクチャを採用したH100 GPUを8基搭載しており、A3 GPU VM（仮想マシン）のスループットは従来の3倍に向上している。A3のコアにはIntelの第4世代Xeonスケーラブルプロセッサと2TBのDDR5-4800メモリを採用しており、8基の各GPUはNVIDIAのNVSwitchとNVLink 4.0による毎秒3.6TBのバイセクショナルバンド幅で接続されている。

　機械学習に特化した設計により、A3は最大で26エクサFLOPSのパフォーマンスを発揮できる。これにより、大規模なモデルのトレーニングにかかる時間とコストの大幅な削減が期待できる。

A3 VMのネットワーク帯域幅はA2の10倍に向上

　IPU（Infrastructure Processing Unit）により、A2と比べてA3のVMネットワーク帯域幅は10倍に向上する。

　A3は、200GpsのIPUにより、CPUホストを経由せずに、他のVMネットワークやデータトラフィックとは切り離された形でGPU間のデータ転送ができる初のGPUインスタンスだ。

　NVIDIAのハイパースケールおよびハイパフォーマンスコンピューティング担当でバイスプレジデントでもあるイアン・バック氏は、「次世代のNVIDIA H100 GPUを搭載したGoogle CloudのA3 VMは、ジェネレーティブAIアプリケーションのトレーニングと展開を加速させる。当社が、Google Cloudが最近開始したG2インスタンスに引き続きGoogle Cloudと協力し、目的に応じたAIインフラを活用して世界中の企業に変革をもたらすことを支援できて誇りに思う」と話した。

パフォーマンスとコストを最適化したストラクチャ

　複雑なML（機械学習）モデルをメンテナンス不要で開発したい場合、Vertex AI上にA3 VMを導入できる。独自のカスタムソフトウェアスタックを構築したい場合、A3 VMをGoogle Kubernetes Engine（GKE）とGoogle Compute Engineに導入することで、オートスケールやワークロードオーケストレーション、自動アップグレードのサポートを享受しながら、最新の基盤モデルをトレーニングして提供できる。

　Character.AIでCEOのノーム・シャイザー氏は次のように述べている。

　「Google CloudのA3 VMインスタンスは、私たちの最も要求の高いトレーニングや推論の作業に必要な計算能力とスケールを提供してくれる。AI分野における彼らの専門知識と大規模インフラにおけるリーダーシップを活用し、当社のMLワークロードのための強力なプラットフォームを提供することを楽しみにしている」

Google、生成AI、大規模言語モデル（LLM）の構築に特化したスパコン「A3」を発表：スループットが従来の3倍に向上

A3の特徴

スループットが従来の3倍に向上

A3 VMのネットワーク帯域幅はA2の10倍に向上

パフォーマンスとコストを最適化したストラクチャ

関連記事

関連リンク

Smart & Social 記事ランキング