Google CloudがArmベースの独自CPU「Axion」を発表、「Cloud TPU v5p」は正式リリースNVIDIA GPUの利用も強化

Google Cloudが年次イベントで、Armをベースとした独自開発のCPU「Axion」や、TPUの「Cloud TPU v5p」、NVIDIA GPUの活用強化など、さまざまな発表を行った。

» 2024年04月10日 08時30分 公開
[三木泉@IT]

この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。

 Google Cloudは2024年4月9日(米国時間)、年次イベント「Google Cloud Next '24」で、生成AIの利用拡大に対応するGPU、TPU、CPU、そしてデータセンターの進化についてさまざまな発表を行った。発表には、新たな独自CPUの「Axion」やTPUの「Cloud TPU v5p」が含まれる。

「AI Hypercomputer」を推進

 Anthropic、Bending Spoonsなど、生成AI分野におけるユニコーン企業の90%がGoogle Cloudを使っているという。

新CPU「Axion」を手に持つGoogle Cloud CEOのトマス・キュリアン氏

 AIスタートアップをはじめとするさまざまな企業の生成AI活用ニーズに向けて、Google Cloudは「AI Hypercomputer」というコンセプトを打ち出している。CPU、TPU、GPUなどを活用した演算処理やストレージ、独自開発の光スイッチを使ったネットワークをベースに、多様なAI活用形態への対応を進めていると同社は説明する。

 「Google Cloudが(AI関連で)顧客に選ばれている理由は、さまざまなCPUやGPUを活用した包括的なAIインフラを提供していて、顧客が各自のニーズに合わせて最適な選択ができることにある。また、インフラがエンドツーエンドで統合されているため、全スタックにまたがった最適化が可能だ」と、Google Cloudのコンピュート/MLインフラストラクチャ担当バイスプレジデント兼ゼネラルマネジャーのマーク・ローマイヤー氏は強調した。

TPU v5pが一般提供開始、NVIDIAの「Blackwell」も導入へ

 Google Cloud Next '24ではまず、機械学習/AIに特化したプロセッサ(TPU)の最新版、「Cloud TPU v5p」の一般提供開始(GA)を発表した。v5pは、コンテナ基盤サービスの「Google Kubernetes Engine(GKE)」でもGAとなった。

 TPU v5pは同社が2023年12月に発表したTPU。前世代の「Cloud TPU v4」に比べ、大規模言語モデル(具体的にはGPT3-175B)を2.8倍の速度でトレーニングできるというもの。

 TPU v5pでは、8960個のチップで単一のPodを構成する。チップ間は4.8Tbpsで相互接続され、高速な処理を実現する。前世代のTPU v4では1Pod当たり4096個、チップ間の接続帯域幅は2.4Tbpsだった。

 NVIDIA GPUの利用も拡大・強化している。

 Google Cloudは今回、「A3」VM(仮想マシン)を強化した「A3 Mega」を発表した。

 A3はNVIDIAの現行フラッグシップGPUである「NVIDIA H100」を8基搭載したVM。2023年5月に発表されていた。

 Google CloudはA3について、「GPU間のデータ転送はホスト CPUをバイパスし、他の VMネットワークやデータ トラフィックから独立したインタフェースを流れる。これにより、テール遅延が下がり、ネットワーク接続の安定性が高まる」と説明している。

 今回の発表では、同じGPUを用いながら、GPU間のネットワーク帯域幅を2倍に拡張した「A3 Mega」を2024年5月に提供開始するという。「非常に大規模なLLMの学習・推論を加速するためには、これが必須だ」とGoogle Cloudのマーク・ローマイヤー氏はいう。

 NVIDIA関連では、もう一つニュースがある。NVIDIAは2024年3月に新GPUアーキテクチャ「Blackwell」と「NVIDIA B200」を発表した。Google Cloudはこれを使ったシステムを導入する。

 AI関連では、ストレージについての発表もあった。

 Google Cloudは高速ブロックストレージとして「Hyperdisk」を提供してきたが、今回はAIに最適化した「Hyperdisk ML」プレビュー版の提供を明らかにした。

 「数百、数千のインスタンスにまたがる推論処理のために設計したものだ。データを自動的に、複数サーバへ複製・キャッシングすることで、モデルのロード時間を一般的な選択肢に比べて12倍高速化できる」(ローマイヤー氏)

独自設計のArmベースCPU「Google Axion」を今年中に提供

 一方Google Cloudは、独自設計のArmをベースとしたCPU、「Google Axion」も発表した。CPUによるトレーニングと推論の他、データベースや分析エンジン、メディア処理など、幅広い用途で使える。

 「Arm Neoverse V2」に基づく同CPUは、競合となるx86プロセッサよりも50%高速で、エネルギー効率は60%高いVMを提供できるという(どのCPUと比較しているのかは明言していない)。現在クラウドで最速のArmをベースとしたVMと比較しても、30%高速だとしている。

 Google Cloudは、CPUから一部の処理をオフロードする同社の「Titanium」というマイクロコントローラ/ソフトウェアが、Axionの高速性に貢献していると説明する。ネットワーク、ストレージI/O、暗号化といった処理から、CPUが解放されるとする。

 同社は既に、「Google BigQuery」「Google BigTable」「Google Cloud Spanner」などにAxionを使い始めているという。

 Axionは2024年中に提供開始の予定となっている。

Copyright © ITmedia, Inc. All Rights Reserved.

スポンサーからのお知らせPR

注目のテーマ

Microsoft & Windows最前線2025
AI for エンジニアリング
ローコード/ノーコード セントラル by @IT - ITエンジニアがビジネスの中心で活躍する組織へ
Cloud Native Central by @IT - スケーラブルな能力を組織に
システム開発ノウハウ 【発注ナビ】PR
あなたにおすすめの記事PR

RSSについて

アイティメディアIDについて

メールマガジン登録

@ITのメールマガジンは、 もちろん、すべて無料です。ぜひメールマガジンをご購読ください。