データセンターネットワークをAIワークロードに最適化するにはGartner Insights Pickup(411)

AI導入を進める企業にとって、GPUやAIサーバを支えるネットワークの最適化は不可欠だ。CIOの期待に応えるには、AIワークロードに対応したインフラ戦略と相互接続技術の選定が重要となる。

» 2025年08月22日 05時00分 公開
[Naresh Singh, Gartner]

この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。

ガートナーの米国本社発のオフィシャルサイト「Insights」などのグローバルコンテンツから、@IT編集部が独自の視点で“読むべき記事”をピックアップして翻訳。グローバルのITトレンドを先取りし「今、何が起きているのか、起きようとしているのか」を展望する。

 CIO(最高情報責任者)は、AI投資で生産性向上、顧客体験(CX)改善、デジタルトランスフォーメーション(DX)を実現することで、大きな価値が生まれると考えている。そのため、GPUやAIサーバなどを含むAIインフラの導入への関心が急速に高まっている。

 一部の企業はGPUやコンピュート、ストレージ、ネットワーキングをあらかじめ統合した“フルスタック”のAIソリューションを選ぶ。一方、これらのコンポーネントを個別に選択し、統合することを好む企業もある。どちらのアプローチを取るかにかかわらず、データセンターネットワーキングを担うインフラとオペレーション(I&O)のリーダーは、幾つかの重要な変更を通じてネットワークをAIワークロードに最適化する必要がある。

AIワークロードに適した相互接続技術を選択

 適切な相互接続技術を選択することは、データセンターにおけるGPU接続を最適化する上で極めて重要だ。企業は、GPUクラスタへの接続にイーサネット、InfiniBand、NVLinkのどれを選ぶかで頭を悩ませることが多い。これらの技術はそれぞれ固有の利点を持ち、特定のシナリオに応じて導入できる。重要なことは、これらの技術は相互に排他的ではなく、組み合わせて使用できることだ。例えば、InfiniBandやイーサネットをNVLinkと組み合わせ、単一ラックを超えたスケーリングを実現できる。

 相互接続技術に関しては、「InfiniBandやベンダー固有の技術(NVLinkのような)だけが最適なパフォーマンスと信頼性を保証できる」という誤解が広まっている。だが、最大数千基のGPUで構成されるGPUクラスタを企業が導入する場合に推奨されるのは、イーサネットだ。イーサネットベースのインフラを導入すれば、要求されるパフォーマンスと信頼性の基準を満たせるだけでなく、使い慣れている企業の多さや、堅牢(けんろう)なサプライヤーエコシステムからも恩恵を受ける。

 Gartnerは、2028年まで既存のデータセンタースイッチを使用してAIおよび生成AIワークロードをサポートする企業は、少なくとも処理能力の30%を無駄にするだろうと予測している。

ネットワーク展開をAIワークロードに最適化

 従来のリーフ/スパイン型ネットワークトポロジーは、CPUベースの汎用(はんよう)コンピューティングで広く使用されてきた。だが、AIワークロードには最適ではない可能性がある。AIワークロードを既存のデータセンターネットワークに混在させると、「ノイジーネイバー」(騒々しい隣人)問題(ある処理がITリソースを大量に消費し、他の処理の性能に悪影響を与えること)が生じ、AIワークロードと既存ワークロードの両方のパフォーマンスを低下させる場合がある。この非効率性は、AIの処理とジョブの完了を遅延させることがある。

 通常、AIインフラの構築では、ネットワークスイッチが総コストに占める割合は15%以下にとどまる。既存のスイッチを使用してコストを節約しようとすると、AIワークロードへの投資のコストパフォーマンスが最適にならないことが多い。この問題に対処するため、I&Oリーダーは以下の推奨事項を考慮する必要がある。

  • GPU接続には専用の物理スイッチを使用する
  • GPUは最小限のスイッチ(理想的には1〜2台)に接続する
  • スイッチのバックプレーンでオーバーサブスクリプションが発生しないようにする
  • より高帯域のインタフェース(400Gbps以上)を使用する

 GPUに固有のトラフィック要件と関連コストから、GPU接続用に専用の物理スイッチを設置または構築することが推奨される。これまで一般的だったリーフ/スパイントポロジーを踏襲するのではなく、物理ホップ数を減らすために、最小限の物理スイッチを使用することを検討すべきだ。このアプローチは、さまざまなトポロジー(シングルスイッチ、ツースイッチ、フルメッシュ、キューブメッシュ、ドラゴンフライなど)の採用につながる可能性がある。ただし、GPU接続用のスイッチを一般的なデータセンターコンピューティングネットワークにも使用することは、避ける必要がある。

 500基未満のGPUで構成されるGPUクラスタの場合、1〜2台の物理スイッチに接続するのが理想的だ。500基以上のGPUを使用する企業には、レールベース設計のようなAIに最適化されたアーキテクチャを持つ、専用のAIイーサネットファブリックを構築することが推奨される。

ベンダーが共同で認定した実装でリスクを低減

 AIワークロードはパフォーマンス要件が厳しいため、ハードウェアとソフトウェアの両面から、GPUとネットワークスイッチ間において、エラーのない最適化された接続を確保することが不可欠だ。だが、この課題は、GPU技術とAI処理の急速な進化による複雑さから、ますます困難になっている。潜在的な実装上の問題を軽減するため、ネットワーキングベンダーとGPUベンダーが検証を経て共同で認定した実装ガイドに従うことが推奨される。

 共同で認定された設計に従うメリットは、両ベンダーが仕様に沿った導入をサポートすることで、問題が発生しにくくなり、問題発生時の平均修復時間(MTTR)も短縮されることだ。

出典:Optimizing Data Center Networks to Support AI Workloads(Gartner)

※この記事は、2025年6月に執筆されたものです。

筆者 Naresh Singh

Sr Director Analyst


Copyright © ITmedia, Inc. All Rights Reserved.

アイティメディアからのお知らせ

スポンサーからのお知らせPR

注目のテーマ

4AI by @IT - AIを作り、動かし、守り、生かす
Microsoft & Windows最前線2025
AI for エンジニアリング
ローコード/ノーコード セントラル by @IT - ITエンジニアがビジネスの中心で活躍する組織へ
Cloud Native Central by @IT - スケーラブルな能力を組織に
システム開発ノウハウ 【発注ナビ】PR
あなたにおすすめの記事PR

RSSについて

アイティメディアIDについて

メールマガジン登録

@ITのメールマガジンは、 もちろん、すべて無料です。ぜひメールマガジンをご購読ください。