従来サーバと何が違う? GPU増設では越えられない「AIインフラの壁」の正体:現場で役立つ「AIインフラ」の基礎と運用:【第1章】(1)
生成AIを自社環境で本格運用する際、最初に直面する可能性があるのが「インフラの壁」です。AIシステムの安定稼働や、性能確保のために押さえておくべきAIインフラの基本的な知識について、GPUサーバや冷却・電力設備、ストレージなどの観点から解説します。
生成AI(人工知能)の活用が本格化し、企業がAIを業務やサービスに取り込む動きが加速しています。AI活用においては、モデルの性能だけでなく、それを支える計算資源や設備を含めた“実行環境”の設計が重要になることもあります。
特に企業自らがAIモデルの学習・推論のための基盤を構築、運用する場合、AIの稼働を裏側で支える「AIインフラ」の整備には、従来のITシステムとは全く異なる発想が求められます。AIインフラにはGPU(グラフィックス処理装置)サーバ、膨大な電力を供給するための電力や冷却設備、大量のデータを高速にやりとりするためのストレージやネットワークなどが含まれます。
AIインフラの基礎からAIサービスの出口戦略まで
本連載では、「AIを止めない仕組み」をテーマに、AI関連のプロジェクトに着手する際に必要になる基礎情報から、プロジェクトを成功に導くために必要となるノウハウまで、以下のようなテーマで広範にわたり解説していきます。まずはハードウェアからミドルウェアといったインフラの基礎を押さえ、それからAIサービスの運用や、その運用を支える組織やエコシステムまで考察していきます。
- AIを動かすためのハードウェアとインフラ設計
- データとミドルウェアがつなぐ「AIを止めない仕組み」
- 日本のITインフラが抱える構造的な課題
- サービスとしてのAIをどう作るか(AIサービスの出口戦略)
- AIの取り組みを発展させるためのエコシステム
第1章ではまず、電力や冷却設備、ストレージ、GPU設計といったハードウェアに焦点を当て、インフラがAIの性能をどう左右するかを明らかにします。第2章以降では、AIを止めないためのミドルウェア設計(データフローとジョブ管理)、AIサービスの実装・再学習・監視運用の仕組み、そして日本企業が抱える構造的課題や、今後求められる協働型エコシステムへとテーマを広げます。
AIはもはや単に「動けばよい」時代から、「止めずに進化させる」時代へと移りつつあります。これからのAI活用において必要になる設計思想を、現場の技術と実例を交えて整理していきます。
AI処理を支えるインフラの新たな常識
企業が自社環境で生成AIを本格的に導入する際、最初に直面する問題の一つが「インフラの壁」です。GPUの調達難や電力コストの高騰、冷却設計の非効率など、AIを動かす環境そのものが事業の制約になりつつあります。実際、モデル開発よりもインフラ構築や運用の最適化に多くの時間とコストを割かざるを得ない企業も増えています。こうした背景から、AI活用のためのITインフラそのものの考え方が大きく変わり始めています。
AIを動かすために必要な計算量は、従来のWebサービスや業務システムの比ではありません。大規模モデルの学習では、学習工程で数千〜数万枚のGPUを同時稼働させるケースもあり、従来のCPU中心のシステムが必要とする計算リソースをはるかに上回ります。
従来のCPU中心のサーバ設計では、業務システムやWebアプリケーションのように、リクエスト単位の処理を効率よくこなしていく汎用(はんよう)的な使い方を前提にしています。トランザクション処理やI/O(Input/Output)制御には適していますが、膨大なデータを並列的に計算するAIのワークロードに使うには、限界があります。AI時代のインフラでは、CPUが処理の全体制御を担いながら、GPUが大規模な並列処理を実行するという役割分担が求められるようになりました。
こうしたGPU中心のインフラ構成では、電力や冷却、データ転送などの負荷が一気に増大します。それは単にGPUを増設するだけでは解決できません。このような背景から、電力、冷却、ネットワーク、ストレージを含めて、インフラ全体の設計を見直す必要があります。
一般的なサーバラックとは違う消費電力
GPUサーバの特徴の一つは、消費電力の大きさです。最新のGPUサーバは、1ノード当たりの消費電力が数キロワットとなり、サーバラック全体では20〜30キロワットに達します。これは、従来の業務システムに使われる一般的なサーバラックの約3倍の消費電力に相当します。AI専用データセンターでは、電源設備・変電機構・配電ラインの全てを再設計しなければ、安定稼働は望めません。
特に日本では、電力単価の高さと供給余力の制約が課題です。欧米ではデータセンターの近くに再生可能エネルギー拠点を設け、余剰電力をAI処理に回すケースも増えていますが、日本では地域電力網の設計上、同様の取り組みを実施しにくい側面があります。
そのため、AIインフラの設計では「電力効率」(Power Usage Effectiveness:PUE)をどこまで下げられるかが競争力を左右します。PUEは、データセンター全体の電力消費量をIT機器の消費量で割った値で、理論上の理想値は「1.0」です。AI専用センターではPUE1.1〜1.2を目標に設計されます。PUEには、空調方式やラック配置の工夫だけでなく、冷却技術の選択が大きく影響します。
冷却技術の詳細は次回以降で詳しく扱いますが、AIインフラにおいて、電力と熱の設計は避けて通れない重要な問題であり、安定稼働に直結していると言っても過言ではありません。
通常のサーバとGPUサーバの違い
GPUサーバは、見た目こそ通常のラックマウント型サーバと大差ありませんが、その中身は別物です。GPUサーバは大規模な並列処理を実行するために多数のコア(演算ユニット)を搭載しています。1台当たりの演算能力は桁違いに高い半面、熱と電力負荷が集中しやすい構造です。またGPUサーバでは大量のデータをやりとりするため、汎用インタフェース規格である「PCIe」(Peripheral Component Interconnect Express)や、GPU同士を接続する「NVLink」などの高速インターコネクトが多数搭載され、1ノード当たり重量は100キロを超えることもあります。ラック強度・床耐荷重・振動抑制など、物理設計面でも考慮が必要です。
GPUサーバは冷却のための空気流路設計や液冷配管が組み込まれるケースがあり、そうなるとラックや冷却設備と一体で設計する必要があり、「サーバ単体で完結しない機械設計」になってきています。結果として、サーバ構築はハードウェアベンダーだけでなく、データセンター設計事業者や空調エンジニアとの協働が不可欠になっています。
GPU稼働率が上がらない理由
AI向けGPUサーバを導入しても、常に高負荷で動いているわけではありません。実際の運用現場では、GPU稼働率が50%以下にとどまるケースも少なくありません。その要因は大きく3つあります。
- 1.I/Oやストレージの遅延
- GPUの演算処理よりもデータ読み込みの方が遅く、GPUが待機状態になる
- 2.ジョブスケジューリングの非効率
- 学習ジョブの割り当てが静的(固定的)で、使用率に応じた配分ができず、GPUリソースを使い切れない
- 3.電力・温度の制約
- 発熱によるサーマルスロットリング(自動的な性能抑制)が発生する
これら3つの要因は互いに独立した問題ではなく、ハードウェア、ソフトウェア、運用体制が絡み合って発生する複合的なボトルネックです。
例えば、I/O遅延は単なるストレージ性能だけでなく、データ転送経路の設計や学習ジョブの投入タイミングにも左右されます。また、ジョブスケジューリングの非効率は、AI開発チームとインフラ運用チームの分業体制によっても生じやすく、GPUリソースが空いているのに使われない「待機時間」を生み出します。さらに、GPUの高温状態によるクロック抑制や電力不足は、冷却設計やラック内の気流制御、電源の安定性といった物理設計に起因することもあります。
こうした課題が複雑なのは、1つの層での最適化が別の層の制約を招くためです。
例えば、電力効率を優先してクロックを下げればGPUの発熱は抑えられますが、計算時間が延びてストレージのI/Oが増え、全体のスループットは低下します。逆に、学習ジョブを詰め込み過ぎれば稼働率は上がるものの、冷却負荷が限界に達してスロットリングが起きる。ハードウェアとソフトウェア、設備と人、全てが連動しているため、部分的な調整では根本的な改善が難しいのです。
そのため、AIインフラの運用においては、これらを個別に対処するのではなく、「電力×冷却×スケジューリング×ストレージ」を一体で最適化する総合設計が必要になります。GPUを増やすよりも、既存リソースを最大限生かす方が、コスト効率は高いのです。
AI処理を支える「設備設計」という視点
AIインフラはもはや、サーバだけでは完結しません。データセンター全体が1つの「計算装置」として設計される時代に入っています。特にラックの配置設計は、AIインフラのパフォーマンスを大きく左右します。
例えば、GPUサーバを高密度に並べ過ぎると熱がこもり、冷却効率が低下します。逆にラック間を広く取り過ぎると、空調効率が悪化して消費電力が増加します。また、AI用ラックは重量が増すため、床下のケーブルダクトや配線経路も補強が必要になります。
このように、GPUサーバの導入は単なる「機器の追加」ではなく、データセンターの構造そのものを変える取り組みです。今後は、サーバエンジニアとファシリティエンジニアが一体で設計する「総合インフラエンジニアリング」が求められていくでしょう。
今後の方向性――AI性能を決めるのは設計力
AIの演算性能は、ハードウェアの進化だけでなく、電力と冷却のマネジメント能力によっても大きく変わります。ハードを動かす「裏側」を設計できるかどうかが、今後のAI競争力を左右します。
次回は、AIインフラの中でも特に重要な要素である「冷却」に焦点を当て、空冷・水冷・液浸といった手法の違いや、冷却設計がどのようにAIの性能・コスト・持続性に影響するのかを掘り下げていきます。
AI時代のインフラは、もはや静的な設備ではありません。環境・電力・データを一体で制御し、状況に応じて最適化される「動的な基盤」こそが、次の時代を支える鍵になると感じています。
筆者紹介
松浦 淳(まつうら じゅん) 株式会社トゥモロー・ネット 取締役副社長 COO AIプラットフォーム事業本部長
富士通、シトリックス・システムズ・ジャパンで開発、サポート、ソリューションエンジニア業務に従事し、デル株式会社(現:デル・テクノロジーズ株式会社)の事業部長を経て現職に至る。米国シリコンバレーを中心とした海外スタートアップ企業の日本法人立ち上げも複数経験しており、日本市場への製品展開に豊富な経験を持つ。トゥモロー・ネットでは、ITエンジニアとしての経験を生かして企業経営全般に関与している。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
生成AIは、ITインフラ構築・運用に具体的にどう役立つのか
生成AIの活用はアプリケーション開発の分野で急速に進んでいますが、アプリケーションを動かすためのITインフラ構築・運用業務にも生成AIを活用することで、業務の効率化が期待できます。そこで本連載は、ITインフラの構築・運用フェーズで生成AIがどう役立つのかを解説します。第1回は、まずITインフラ業務の現状を整理し、生成AI活用の全体像を紹介します。
AWSの支配が揺らぎ、“新興勢”が躍進――クラウドは「専門性で選ぶ」時代?
クラウドインフラサービス市場で、「ネオクラウド」と呼ばれる新興事業者の存在感が高まっています。その一方で、AWSのシェアが下落傾向にあり、ハイパースケーラーが圧倒的な影響力を持ってきた構図に変化の兆しが見えています。
第308回 NVIDIAの一強は続くのか? 新プラットフォーム「Rubin」が描くエコシステムとDRAM危機の正体
NVIDIAが新プラットフォーム「Rubin」を発表。AI需要の爆発によりDRAM不足が深刻化し、PCやスマホの供給にも影響が出始めている。単なるチップから「エコシステム」へと進化し、ネットワークやストレージまでをも飲み込もうとするNVIDIAの戦略と、AIへの過度な投資が招く世界規模のリスクを考察する。