Googleは「Google I/O」で、AIのトレーニングに特化したスーパーコンピュータ「A3」を発表した。A3のスループットは従来の3倍に進歩し、A3が活用できるネットワーク帯域幅はA2の10倍に向上しているという。
この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。
Googleは2023年5月11日(米国時間)、開発者を対象としたイベント「Google I/O」で、AI(人工知能)のトレーニングに特化したスーパーコンピュータ「A3」を発表した。最新CPUや改良されたホストメモリ、次世代NVIDIA GPU、主要なネットワークのアップグレードを完備し、MLワークロードのための最高性能のトレーニングを提供することを目的に構築されている。
NVIDIAのHopperアーキテクチャを採用したH100 GPUを8基搭載しており、A3 GPU VM(仮想マシン)のスループットは従来の3倍に向上している。A3のコアにはIntelの第4世代Xeonスケーラブルプロセッサと2TBのDDR5-4800メモリを採用しており、8基の各GPUはNVIDIAのNVSwitchとNVLink 4.0による毎秒3.6TBのバイセクショナルバンド幅で接続されている。
機械学習に特化した設計により、A3は最大で26エクサFLOPSのパフォーマンスを発揮できる。これにより、大規模なモデルのトレーニングにかかる時間とコストの大幅な削減が期待できる。
IPU(Infrastructure Processing Unit)により、A2と比べてA3のVMネットワーク帯域幅は10倍に向上する。
A3は、200GpsのIPUにより、CPUホストを経由せずに、他のVMネットワークやデータトラフィックとは切り離された形でGPU間のデータ転送ができる初のGPUインスタンスだ。
NVIDIAのハイパースケールおよびハイパフォーマンスコンピューティング担当でバイスプレジデントでもあるイアン・バック氏は、「次世代のNVIDIA H100 GPUを搭載したGoogle CloudのA3 VMは、ジェネレーティブAIアプリケーションのトレーニングと展開を加速させる。当社が、Google Cloudが最近開始したG2インスタンスに引き続きGoogle Cloudと協力し、目的に応じたAIインフラを活用して世界中の企業に変革をもたらすことを支援できて誇りに思う」と話した。
複雑なML(機械学習)モデルをメンテナンス不要で開発したい場合、Vertex AI上にA3 VMを導入できる。独自のカスタムソフトウェアスタックを構築したい場合、A3 VMをGoogle Kubernetes Engine(GKE)とGoogle Compute Engineに導入することで、オートスケールやワークロードオーケストレーション、自動アップグレードのサポートを享受しながら、最新の基盤モデルをトレーニングして提供できる。
Character.AIでCEOのノーム・シャイザー氏は次のように述べている。
「Google CloudのA3 VMインスタンスは、私たちの最も要求の高いトレーニングや推論の作業に必要な計算能力とスケールを提供してくれる。AI分野における彼らの専門知識と大規模インフラにおけるリーダーシップを活用し、当社のMLワークロードのための強力なプラットフォームを提供することを楽しみにしている」
Copyright © ITmedia, Inc. All Rights Reserved.