Google、生成AI、大規模言語モデル(LLM)の構築に特化したスパコン「A3」を発表:スループットが従来の3倍に向上
Googleは「Google I/O」で、AIのトレーニングに特化したスーパーコンピュータ「A3」を発表した。A3のスループットは従来の3倍に進歩し、A3が活用できるネットワーク帯域幅はA2の10倍に向上しているという。
Googleは2023年5月11日(米国時間)、開発者を対象としたイベント「Google I/O」で、AI(人工知能)のトレーニングに特化したスーパーコンピュータ「A3」を発表した。最新CPUや改良されたホストメモリ、次世代NVIDIA GPU、主要なネットワークのアップグレードを完備し、MLワークロードのための最高性能のトレーニングを提供することを目的に構築されている。
A3の特徴
スループットが従来の3倍に向上
NVIDIAのHopperアーキテクチャを採用したH100 GPUを8基搭載しており、A3 GPU VM(仮想マシン)のスループットは従来の3倍に向上している。A3のコアにはIntelの第4世代Xeonスケーラブルプロセッサと2TBのDDR5-4800メモリを採用しており、8基の各GPUはNVIDIAのNVSwitchとNVLink 4.0による毎秒3.6TBのバイセクショナルバンド幅で接続されている。
機械学習に特化した設計により、A3は最大で26エクサFLOPSのパフォーマンスを発揮できる。これにより、大規模なモデルのトレーニングにかかる時間とコストの大幅な削減が期待できる。
A3 VMのネットワーク帯域幅はA2の10倍に向上
IPU(Infrastructure Processing Unit)により、A2と比べてA3のVMネットワーク帯域幅は10倍に向上する。
A3は、200GpsのIPUにより、CPUホストを経由せずに、他のVMネットワークやデータトラフィックとは切り離された形でGPU間のデータ転送ができる初のGPUインスタンスだ。
NVIDIAのハイパースケールおよびハイパフォーマンスコンピューティング担当でバイスプレジデントでもあるイアン・バック氏は、「次世代のNVIDIA H100 GPUを搭載したGoogle CloudのA3 VMは、ジェネレーティブAIアプリケーションのトレーニングと展開を加速させる。当社が、Google Cloudが最近開始したG2インスタンスに引き続きGoogle Cloudと協力し、目的に応じたAIインフラを活用して世界中の企業に変革をもたらすことを支援できて誇りに思う」と話した。
パフォーマンスとコストを最適化したストラクチャ
複雑なML(機械学習)モデルをメンテナンス不要で開発したい場合、Vertex AI上にA3 VMを導入できる。独自のカスタムソフトウェアスタックを構築したい場合、A3 VMをGoogle Kubernetes Engine(GKE)とGoogle Compute Engineに導入することで、オートスケールやワークロードオーケストレーション、自動アップグレードのサポートを享受しながら、最新の基盤モデルをトレーニングして提供できる。
Character.AIでCEOのノーム・シャイザー氏は次のように述べている。
「Google CloudのA3 VMインスタンスは、私たちの最も要求の高いトレーニングや推論の作業に必要な計算能力とスケールを提供してくれる。AI分野における彼らの専門知識と大規模インフラにおけるリーダーシップを活用し、当社のMLワークロードのための強力なプラットフォームを提供することを楽しみにしている」
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
- Googleの生成系AI「Bard」がプログラミングやソフトウェア開発に対応 何を、どこまでできるのか
Googleは、生成系AIの「Bard」にプログラミングやソフトウェア開発のタスクを支援する機能を追加した。「コーディングはユーザーから寄せられた最も多いリクエストの一つだ」という。 - AIで生まれ変わった新Microsoft Edgeで何ができるのか
Microsoft Edgeで対話AI(人工知能)「新しいBing」と画像生成AI「DALL-E」がサポートされた。対話AIによって、簡単に調べごとの回答が得られるようになった。「新しいBing」では、回答に参照元のURLが提示されるため、これをクリックすることで、さらに詳しい情報を得ることもできる。ただし、使い方にはコツや注意すべき点もある。Microsoft EdgeがサポートしたAI機能の使い方と注意点をまとめてみた。 - AWSとNVIDIA、生成系AI分野で協業 NVIDIA H100 GPUを搭載した「EC2 P5インスタンス」を発表
AWSとNVIDIAは、AIインフラ分野での協業を発表した。NVIDIA H100 GPUを搭載した「EC2 P5インスタンス」の提供を始めとするさまざまな取り組みを通じて、大規模言語モデルの学習や生成系AIアプリケーションの開発に最適化した、拡張性の高いAIインフラの提供を目指すとしている。