“GPUだけ”が優秀でもAIパフォーマンスは引き出せない? 空冷の限界と水冷時代の基本:現場で役立つ「AIインフラ」の基礎と運用:【第1章】(2)
GPUの利用でサーバの消費電力と発熱が急激に増大し、冷却がAIインフラの重要な要素として浮上しています。AIサーバの発熱と冷却の基本を整理した上で、水冷や液浸といった新しい冷却技術の動向や、冷却方式を選択する際のポイントなどを解説します。
AI(人工知能)関連のプロジェクトに着手する際に必要になる基礎情報から、プロジェクトを成功に導くために必要となるノウハウまでを解説していく本連載。第1回となる前回『従来サーバと何が違う? GPU増設では越えられない「AIインフラの壁」の正体』では、AIサーバが消費する電力量が従来の業務システムとは比較にならないほど大きいこと、そして電力供給や配電設計そのものがAIインフラの競争力を左右することを見てきました。
熱がAIのパフォーマンスを決める時代に
電力を大量に使うということは、それだけの熱を生み出すということでもあります。GPUサーバの高密度化が進む中、発熱による性能低下やシステムの不安定化は、AIを止める最大のリスクになりつつあり、この熱をいかに効率よく逃がせるかが、AIサーバの安定稼働と性能維持を左右する最大の要因になっています。
いまや冷却は、単なる設備管理ではなく、AIの性能と持続可能性を左右する中核設計です。第2回となる本稿では、AIサーバの発熱構造と冷却方式の基本から、水冷・液浸といった新しい冷却技術のトレンド、さらに環境負荷とコストを両立する冷却設計の考え方までを解説します。
GPUサーバの発熱と冷却限界
AIサーバは、一般的なCPUサーバの数倍の電力を消費します。最新のハイエンドGPUでは、1基当たりの消費電力が1キロワット級に及ぶことも珍しくなく、1ラック全体で20〜30キロワットとなる構成も登場しています。この発熱量は、従来の空冷(ファンと空調による冷却)方式では限界に近いレベルです。
一般に、データセンター向けGPUのコア温度で推奨される動作温度は、70~85℃の範囲で、この温度は、性能を安定的に維持しつつ、ハードウェアの寿命を延ばすために重要です。しかしながら、データセンターの空気を強制的に循環させるだけでは、ラック内の温度を一定以下に保つことが難しく、GPUが高温状態になれば、クロックを自動的に落とす「サーマルスロットリング」が発生します。これにより、処理速度や並列演算のスループットが減少し、AIモデルの学習時間が伸びる、推論精度が不安定になるといった影響が生じます。
つまり、冷却効率が悪ければ、どれだけ高性能なGPUを積んでも実効性能は発揮されないのです。特に、AIやHPC(高性能計算)処理においては、温度上昇がそのまま計算効率の低下に直結するため、パフォーマンス全体に影響します。
空冷の限界と液冷方式の拡大
空冷方式は構造がシンプルでメンテナンスしやすく、既存のデータセンター設備を流用できるのが利点です。しかし、GPU密度が高まるにつれて、冷却用の風量を増やしても十分に温度を下げられなくなり、結果的に消費電力も増加する「悪循環」に陥るケースが増えています。空調機の増設や気流制御板の最適化などで延命はできますが、根本的な解決には至りません。
日本の多くのデータセンターでは、空冷のままGPUサーバを増設した結果、局所的な熱だまりが発生し、夏季には冷却能力を超えるケースが報告されています。特に高温多湿な日本の気候では、外気冷却を利用しにくく、従来の空冷設計を維持すること自体が難しくなりつつあります。こうした背景から、液体を用いた冷却方式が広がりつつあります。
液冷方式は、GPUやCPUの近くに冷却液を流して直接熱を奪う仕組みで、空冷よりも冷却効率が高く、電力消費も抑えられます。こうした液体を用いる冷却方式には大きく2つの方式があります。
- コールドプレート方式(Direct to Chip Cooling)
- GPUやCPUに密着させた金属プレート内に冷却液を流し、熱を効率的に回収する方式
- 冷却水はCDU(Coolant Distribution Unit:冷却液分配ユニット)で温度や流量を制御し、外部のクーリングタワーで再冷却される
- 液浸方式(Immersion Cooling)
- サーバボード全体を絶縁性の冷却液に浸す方式で、より均一な冷却が可能
- 水冷よりも高い熱交換効率を実現できる半面、メンテナンス性や設置コストに課題がある
どちらの方式が最適であるかは、求める性能と運用体制によって異なります。
コールドプレート方式は、既存ラックを改修して導入できるため、既存データセンターでの段階的移行に向いています。一方、液浸方式は高密度環境に最適ですが、ラック全体を再設計する必要があり、構築時点でのレイアウトや重量計算まで含めた計画が欠かせません。
いずれも冷却効率の高さだけでなく、保守性・初期投資・長期運用コストを含めた総合設計が求められます。
冷却トレンドと新技術
液冷技術は急速に進化しています。特に、液浸冷却では、冷却液の種類や装置設計が多様化し、環境負荷を抑えた再利用型の冷媒も登場しています。データセンター全体の冷却効率を高めるために、冷却装置を集中管理する仕組みも進んでいます。その中心となるのがCDUです。
CDUはサーバラックや冷却配管の中継点として、冷却水の流量・温度・圧力を自動的に制御し、熱負荷に応じて冷媒循環を最適化します。これにより、冷却効率を維持しながら消費電力を最小限に抑えることができます。
さらに、AIデータセンターでは、クーリングタワーの排熱を再利用する動きもあります。温排水を地域暖房や発電補助に回す「熱のリサイクル」や、再生可能エネルギーと連動した冷却システムなど、冷却を「環境インフラ」として位置付ける潮流が生まれています。
冷却は単なる設備管理ではなく、エネルギー効率とサステナビリティー(持続可能性)を両立させる戦略的要素になりつつあるのです。
冷却方式選択のポイント
冷却方式を選ぶ際には、技術面だけでなく立地条件と運用性を総合的に判断する必要があります。
- 気候条件と立地
- 湿度が高い地域では、空冷では結露リスクが高く、水冷を採用する方が安定稼働しやすい
- 一方、寒冷地では外気冷却(Free Cooling)と水冷を組み合わせることで、効率を最大化できる
- 電力コストと総コスト(TCO)
- 設備投資は水冷の方が高くつくが、長期的には消費電力削減効果でTCOは低く抑えられる
- データセンターの運用期間が長いほど、水冷化の投資回収は早まる傾向がある
- 保守リスクと運用性
- 水漏れや冷媒の劣化、配管の腐食など、水冷特有のメンテナンスリスクがある
- これらを最小化するには、定期的な水質管理やセンサーによる漏れ検知など、設計段階からメンテナンスを織り込んだ構成が必要
冷却システムは「導入して終わり」ではなく、運用設計まで含めて初めて最適化される仕組みです。
最近では、Google DeepMindが機械学習を活用して冷却システムを自動制御する「スマートクーリング」も登場しています。温度や湿度、GPU負荷をリアルタイムで学習し、空調や水流を自律的に調整する仕組みです。デジタルツイン技術を用いてデータセンター全体の熱流をシミュレーションし、気流や配管配置を事前に最適化する試みも進んでいます。冷却そのものにAIを取り込むことで、“AIがAIを支える”という新しい循環が生まれつつあります。
PUE改善と持続可能性
冷却の効率は、データセンター全体のエネルギー効率を表すPUE(Power Usage Effectiveness)に直結します。PUEは、データセンターの総消費電力をIT機器の消費電力で割った値で、理想は「1.0」。値が小さいほど、電力が有効に使われていることを意味します。
従来の空冷データセンターではPUEが1.5前後とされています。仮にPUE1.1〜1.2を実現した場合、この差は、年間で数千万〜数億円規模の電力コスト削減に相当します。さらに、PUEの改善は単なるコスト削減ではなく、環境負荷の低減にも直結します。エネルギー効率の高いデータセンターは、再生可能エネルギーとの親和性も高く、脱炭素化を進める企業戦略の一部として注目されています。
欧米ではすでに、再生可能エネルギー比率やPUE値を基準とした投資判断が一般化していますが、日本でも同様の流れが加速しています。冷却効率の向上は、単に企業のコスト対策ではなく、サプライチェーン全体の環境価値を高める取り組みへと発展しつつあります。AIインフラの冷却技術は、もはや社会的インフラの一部として進化しているのです。
「冷却設計=AI性能設計」への転換
GPUは、温度が上昇するだけで性能が低下する極めて繊細なデバイスです。そのため、冷却の効率こそがAIの処理速度と安定性を決定付けます。言い換えれば、冷却設計そのものがAI性能を設計すると言えます。AI時代のデータセンターでは、ハードウェアやファシリティー、エネルギーの各専門領域が交わり、「どのように冷やすか」が「どのように動かすか」と同義になりつつあります。冷却はもはや裏方ではなく、AIの競争力を生む中核技術なのです。
次回は、こうした冷却システムを支える「最適化」の視点から、GPUリソースとストレージを止めずに動かし続けるための仕組みを解説します。
筆者紹介
松浦 淳(まつうら じゅん) トゥモロー・ネット
富士通、シトリックス・システムズ・ジャパンで開発、サポート、ソリューションエンジニア業務に従事し、デル株式会社(現:デル・テクノロジーズ株式会社)の事業部長を経て現職に至る。米国シリコンバレーを中心とした海外スタートアップ企業の日本法人立ち上げも複数経験しており、日本市場への製品展開に豊富な経験を持つ。トゥモロー・ネットでは、ITエンジニアとしての経験を生かして企業経営全般に関与している。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
サーバラック電力は従来の10倍超え、大阪で着工した次世代データセンターとは?
SCゼウスは、大阪市内で日本第1号となるデータセンター「Zeus OSA1」を建設する。100MWの電力供給を確保し、最新の液冷方式の採用により1ラック当たり最大130kWの電力密度に対応する。
米Microsoftの超巨大な“AI工場”構築進む 第2の巨大AI専用DCを開設
Microsoftは米国に2番目のAI専用データセンターを開設した。これにより、世界最初の「AIスーパーファクトリー」を実現したという。DC同士は専用WANで高速・低遅延に接続され、あたかも単一のスーパーコンピューターであるかのように機能する。DCはどのような設計になっているのか。
サステナビリティの要 AIの環境影響をどう管理すればいいか
Gartnerは、AI由来の温室効果ガス排出が2028年にIT全体の50%へ拡大すると予測している。AIの学習や実行には大量の電力、専用インフラ、冷却設備が必要で、コスト増とサステナビリティ目標の阻害要因となる。持続可能なAI活用には、エネルギー使用量だけでなくライフサイクル全体を測定し、透明性を確保した包括的な管理枠組みの導入が不可欠だ。