第307回 打倒NVIDIAを狙う「Google TPU」の衝撃:AIの進化を支えるのは「いにしえの技術」だった頭脳放談

AI(人工知能)の電力消費は爆発的に増大している。打倒NVIDIAを掲げるGoogleの切り札「TPU」は、実はシストリックアレイやデータフローといった「古代技術」の復活によって支えられていた。最先端のAI競争でなぜレガシー技術がよみがえるのか。GoogleのTPUが採用するこれらの技術について見ていく。

» 2025年12月19日 05時00分 公開
打倒NVIDIAの最右翼Google TPUが「古代技術」で図る省電力と高速化 打倒NVIDIAの最右翼Google TPUが「古代技術」で図る省電力と高速化
打倒NVIDIAを掲げるGoogleの切り札「TPU」は、実はシストリックアレイやデータフローといった「古代技術」の復活によって支えられていた。最先端のAI(人工知能)競争でなぜレガシー技術がよみがえるのか。GoogleのTPUが採用するこれらの技術について見ていこう。写真は、「初の推論に特化した Google TPU『Ironwood』を発表」より。

 かねがね不思議に思っていることがある。地球温暖化問題に関連して、二酸化炭素排出に「寄与」していると思われる業界や組織、法律を激しく攻撃している人々がいる。国連気候変動枠組条約締約国会議(COP)の期間中、環境NGO団体のネットワーク「気候変動アクションネットワーク(CAN)」が「化石賞(Fossil of the Day)」を発表しているのをニュースで見た人も多いだろう。ちなみに日本は、COP25から連続して4回の受賞(?)という不名誉な記録を持っている。

 ただ、こうした環境NGO団体が、拡大し続けるデータセンター、そしてその最大負荷であるAI(人工知能)処理に対して、露骨な反対や攻撃を仕掛けているという話はほとんど聞かない(単に報道されていないだけかもしれないが)。

 データセンターの設置者側が、運用に再生可能エネルギーを使っているとか無害アピールしているためだろうか。あるいは、今どき「唯一」ともいえる成長産業であるAI分野の足を引っ張りたくないという、産業界、政府、マスコミを通じた暗黙のコンセンサスの成せる業なのか。もしくは、クラウドの奥深くで巨大なエネルギーが消費されていても目立たないから、という可能性もある。現代版の「神の見えざる手」といったところか。

 しかし、直接の運用に再生可能エネルギーを主として使っているとしても、データセンターに投入される膨大な量の半導体製造に巨大な電力が使われていることは明らかだ。半導体以外にも、システムから建屋の建設に至るまで膨大なエネルギーが必要である。こっちで再生可能エネルギーを使えば、その分、どこかで化石燃料が使われることにもなる。

 消費エネルギーの総量の中に占めるデータセンター、つまりはAIの寄与というのはどれほどかは定かではない。各種産業ある中で伸び率から言えばトップクラスなのではないかと思う。何せ今や「惑星規模の推論」を掲げている向きもあるくらいだ。

打倒NVIDIAの鍵は「電力効率」

 さてそんな中、盤石にも見えたOpenAIのChatGPTとNVIDIAのGPUという組み合わせに取って代わろうという動きが、そこかしこに現れている。このところのOpenAI+NVIDIAによる巨額投資の連鎖を聞いていると、まるで錬金術かと思うような手段で巨額の富が転び出てくるような錯覚を覚える。彼らに取って代わろうとする人々が群がり立つのも当然だろう。

 その時、先行するOpenAIとそれを支えるNVIDIA製GPUに対する攻撃の一つの切り口が「電力効率」であることは間違いない。もちろん、AI処理そのものの効率は最重要だが、ここではそれを実現するハードウェア的な側面にフォーカスしたい。

Google TPUと「テンソル」の復権

 そこでの一番手がGoogleのTPU(Tensor Processing Unit)である。今やChatGPT打倒の一番手と目されているGoogleの生成AI「Gemini」だが、それを支えているハードウェアこそGoogle自社開発のTPUなのだ。過去10年ほど自社内で完結していたTPUだが、新世代バージョン(推論用)「Ironwood」からはAnthropicなどに外販を開始している(Google Cloud blog「TPU『Ironwood』 の一般提供開始と推論時代を支える新しいAxion VMを発表」参照のこと)。ついに来るべきものが来たという感じかもしれない。

 理工系出身者であれば、「Tensor(テンソル)」はおなじみでほろ苦い概念かもしれない。2階のテンソルならば、見た目は行列にそっくりだ。しかし、座標系に関わらず物理的な実体を示すオブジェクトである。「学校で習った」けれども「その抽象度に目が回って」よく分からなかったという人も多いのではないだろうか。一般相対論を駆使する物理学科などは、お茶の子さいさいだろうが、かくいう筆者も落ちこぼれの一人である。

 しかし、今や「テンソル」はAI処理の中心でも活躍することになった。行列にベクトルを掛け合わせるという処理は物理的なオブジェクトであるテンソルにおいても基本であったが、AIでも同様な処理が多用される。

 そのテンソル計算(主として内積をとるような掛け算処理)において、NVIDIAのGPUは1つの命令で複数のデータを同時に処理できるSIMD(Single Instruction, Multiple Data)型で大成功を収めた。数百個、数千個の処理ユニット(PE)を1つの命令ストリームで制御することで、CPUの処理速度を圧倒したわけだ。ちょうどGPUの勃興した時期、CPUはスーパースカラー化という今から見ると袋小路にはまり込んでいたから、データ処理の速度で圧倒するのは意外と簡単だった。

 おごれる者は久しからず。SIMD型の処理は今や一般化し、至るところで使われている。立ち止まって考えるとGPUのSIMD型処理も「無駄が多い」と感じられるはずだ。NVIDIAのGPUで、CUDA(Compute Unified Device Architecture)のカーネルなどを書いてみれば分かる。

 意外と言っては何だが、プログラマーによる工夫の余地がある。DNN(Deep Neural Network)分野での応用などでは、NVIDIAの中の人が最適化を重ねた専用ライブラリを作ってくれており、それを呼び出せば無駄を削ぎ落したコードが使われるはずだが、GPUはあくまで「汎用」計算機だ。いろいろできる分、オーバーヘッドが目立つのだ。

よみがえる「古代技術」、シストリックアレイの衝撃

 そんな中、TPUは全く新しい概念で設計されたのか、と言えば違う。TPUの中で最も負荷の重い、まさに「テンソル計算」の中心を担う部分は「Matrix Multiply Unit(MXU)」と呼ばれているが、これは計算機アーキテクチャ的には「シストリックアレイ」と呼ばれているものである。1980年代の計算機アーキテクチャの教科書にも掲載されている「古代」の技術だ(SIMDも同様だが)。

 規則的に多数のPEを並べ(2次元とは限らない)、データは隣接演算器間でのみ受け渡し、パイプライン的な処理を実行する。入出力はパイプラインの端部分のみで、途中での出入りは基本的にない。PEの接続方法を再構成することである程度のアルゴリズムの変更にも対応できる。

 1980年代当時から莫大な計算スループットが得られることが知られており、大学などでFFT(高速フーリエ変換)や信号処理など向けの特殊目的プロセッサが試作されていたようだ。また、規則的に多数のPEを並べる構造はVLSI化(当時VLSIとVを付けて呼ぶのが流行した)にも向いていた。

 しかし、20世紀の間に日の目を見たとは聞かない。何といっても当時は「スカラー」CPUのクロックスピードが年々歳々速くなっていたからだ。ある時点で汎用CPUより10倍高速処理可能なシストリックアレイ機ができたとしても、数年もすれば追い付かれてしまう。大量に売れる汎用CPUの進歩は速かったし、開発費用も潤沢だった。それに対して特定の狭い問題にしか効果が及ばないシストリックアレイ機が対抗し続けるのは無理だったのだと思う。

 だが時代は変わった。AIのテンソル計算(行列掛け算)というキラーアプリケーションが巨大なデータセンターの計算負荷を食い尽くす状況だ。こうした膨大な計算をさばくための膨大なチップ数の需要がある。開発費用の増大を考えても十分なお釣りが来る状況となった。

 膨大な計算を効率良くこなせるということは、計算速度の向上のみならず、電力効率の改善につながることになる。

ベクトル、データフロー……年寄りには懐かしい技術が

 TPU上で復活した古代技術は、シストリックアレイだけではない。ヘテロジニアス(異なるアーキテクチャの処理ユニットを組み合わせる)、ベクトル、データフローにスパース処理など、コンピューティング分野で汗を流してきた年寄りが涙を流すような技術が満載なのだ。

 密に詰まった行列の計算ではシストリックアレイが向く。しかし、AIアルゴリズムが必要とする計算はそれだけではない。スパースな行列(空虚な空間のところどころに処理するべきデータが点在しているような世界を想像してほしい)を処理することも必要であるようだ。そんなとき、それはできないとは言えない。GPUは「汎用」なだけにそういう処理も工夫次第だ。TPUの場合はそういう部分を切り抜けるためにヘテロジニアス化を果たしている。

 これまた昔懐かしい、データフローにベクトル処理だ。データフローマシンは一時もてはやされたが、いつの頃からか聞かなくなった。ベクトルマシンはそれこそ初期のCray Researchのスーパーコンピュータ「Cray-1」が有名な超古代の技術だ。

 しかし、それぞれ生かせる場をAI処理内で与えられてTPUの中で不死鳥のようによみがえっている。もちろん、それらの技術は古代そのままではなく洗練され、高度化されていることは言うまでもない。

 Google Cloud Blog「初の推論に特化した Google TPU『Ironwood』を発表」によれば、直接NVIDIAのGPUとの比較はないものの、「Ironwood は 2018 年の初代の TPU と比べて電力効率が約 30 倍優れています」としており、上記の「古代技術」を含むさまざまな技術を投入することで電力効率を高めているようだ。

日本勢不在の「惑星規模」の戦い

 最後にそれらの計算資源を支えている重要な技術を指摘しておきたい。まずは光接続も使ったチップ間相互接続(ICI)ネットワーク機構である。非常に多数のチップを3次元以上的なトポロジーに接続するとともに、必要に応じた組み換えが可能だ。

 次に膨大な計算を支える電力を供給する電源チップ(GaNなどのデバイスが登場する)と生じる熱を排熱するための液冷システムである。今やデータセンター内の1基のマシンで、小型の発電所並の消費電力なのである。高度な排熱システムが必須となる(効率のためにもデータセンターは冷涼な気候の場所に設置されることになる)。

 目がくらむNVIDIAの時価総額がちらついて、打倒NVIDIAに走る人々は多数存在する。その多くは米国、そして中国勢である。でもその競争はお金だけでなく、地球環境にも資することになってくれないか、と勝手に期待している。今のままのハードウェアでAIをスケーリングしていくと「惑星規模の推論」が「惑星の利用可能なエネルギー資源」を食い尽くしかねないからだ。程度問題で結局壁にぶつかるのかもしれないが……。

 一方、この競争に日本勢で名前の挙がる組織はほぼない。端的に言えば、掛け金が大き過ぎるのだ。日本が得意なのは「小さく生んで大きく育てる」式のコツコツ方式である。これは日本企業の身に染みついている。しかし今のAI投資は、最初から「地球規模」の大風呂敷を広げるスタイルだ。これは多くの日本人にはツライ。でもまぁ、やるならその博打(ばくち)に乗らないとダメなようだ。分をわきまえて身を慎んでいる方が身のためか。どうなのだろうか。

筆者紹介

Massa POP Izumida

日本では数少ないx86プロセッサのアーキテクト。某米国半導体メーカーで8bitと16bitの、日本のベンチャー企業でx86互換プロセッサの設計に従事する。その後、出版社の半導体事業部などを経て、現在は某半導体メーカーでヘテロジニアス マルチコアプロセッサを中心とした開発を行っている。


Copyright© Digital Advantage Corp. All Rights Reserved.

アイティメディアからのお知らせ

スポンサーからのお知らせPR

注目のテーマ

人に頼れない今こそ、本音で語るセキュリティ「モダナイズ」
4AI by @IT - AIを作り、動かし、守り、生かす
Microsoft & Windows最前線2025
AI for エンジニアリング
ローコード/ノーコード セントラル by @IT - ITエンジニアがビジネスの中心で活躍する組織へ
Cloud Native Central by @IT - スケーラブルな能力を組織に
システム開発ノウハウ 【発注ナビ】PR
あなたにおすすめの記事PR

RSSについて

アイティメディアIDについて

メールマガジン登録

@ITのメールマガジンは、 もちろん、すべて無料です。ぜひメールマガジンをご購読ください。