AI導入を進める企業にとって、GPUやAIサーバを支えるネットワークの最適化は不可欠だ。CIOの期待に応えるには、AIワークロードに対応したインフラ戦略と相互接続技術の選定が重要となる。
この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。
CIO(最高情報責任者)は、AI投資で生産性向上、顧客体験(CX)改善、デジタルトランスフォーメーション(DX)を実現することで、大きな価値が生まれると考えている。そのため、GPUやAIサーバなどを含むAIインフラの導入への関心が急速に高まっている。
一部の企業はGPUやコンピュート、ストレージ、ネットワーキングをあらかじめ統合した“フルスタック”のAIソリューションを選ぶ。一方、これらのコンポーネントを個別に選択し、統合することを好む企業もある。どちらのアプローチを取るかにかかわらず、データセンターネットワーキングを担うインフラとオペレーション(I&O)のリーダーは、幾つかの重要な変更を通じてネットワークをAIワークロードに最適化する必要がある。
適切な相互接続技術を選択することは、データセンターにおけるGPU接続を最適化する上で極めて重要だ。企業は、GPUクラスタへの接続にイーサネット、InfiniBand、NVLinkのどれを選ぶかで頭を悩ませることが多い。これらの技術はそれぞれ固有の利点を持ち、特定のシナリオに応じて導入できる。重要なことは、これらの技術は相互に排他的ではなく、組み合わせて使用できることだ。例えば、InfiniBandやイーサネットをNVLinkと組み合わせ、単一ラックを超えたスケーリングを実現できる。
相互接続技術に関しては、「InfiniBandやベンダー固有の技術(NVLinkのような)だけが最適なパフォーマンスと信頼性を保証できる」という誤解が広まっている。だが、最大数千基のGPUで構成されるGPUクラスタを企業が導入する場合に推奨されるのは、イーサネットだ。イーサネットベースのインフラを導入すれば、要求されるパフォーマンスと信頼性の基準を満たせるだけでなく、使い慣れている企業の多さや、堅牢(けんろう)なサプライヤーエコシステムからも恩恵を受ける。
Gartnerは、2028年まで既存のデータセンタースイッチを使用してAIおよび生成AIワークロードをサポートする企業は、少なくとも処理能力の30%を無駄にするだろうと予測している。
従来のリーフ/スパイン型ネットワークトポロジーは、CPUベースの汎用(はんよう)コンピューティングで広く使用されてきた。だが、AIワークロードには最適ではない可能性がある。AIワークロードを既存のデータセンターネットワークに混在させると、「ノイジーネイバー」(騒々しい隣人)問題(ある処理がITリソースを大量に消費し、他の処理の性能に悪影響を与えること)が生じ、AIワークロードと既存ワークロードの両方のパフォーマンスを低下させる場合がある。この非効率性は、AIの処理とジョブの完了を遅延させることがある。
通常、AIインフラの構築では、ネットワークスイッチが総コストに占める割合は15%以下にとどまる。既存のスイッチを使用してコストを節約しようとすると、AIワークロードへの投資のコストパフォーマンスが最適にならないことが多い。この問題に対処するため、I&Oリーダーは以下の推奨事項を考慮する必要がある。
GPUに固有のトラフィック要件と関連コストから、GPU接続用に専用の物理スイッチを設置または構築することが推奨される。これまで一般的だったリーフ/スパイントポロジーを踏襲するのではなく、物理ホップ数を減らすために、最小限の物理スイッチを使用することを検討すべきだ。このアプローチは、さまざまなトポロジー(シングルスイッチ、ツースイッチ、フルメッシュ、キューブメッシュ、ドラゴンフライなど)の採用につながる可能性がある。ただし、GPU接続用のスイッチを一般的なデータセンターコンピューティングネットワークにも使用することは、避ける必要がある。
500基未満のGPUで構成されるGPUクラスタの場合、1〜2台の物理スイッチに接続するのが理想的だ。500基以上のGPUを使用する企業には、レールベース設計のようなAIに最適化されたアーキテクチャを持つ、専用のAIイーサネットファブリックを構築することが推奨される。
AIワークロードはパフォーマンス要件が厳しいため、ハードウェアとソフトウェアの両面から、GPUとネットワークスイッチ間において、エラーのない最適化された接続を確保することが不可欠だ。だが、この課題は、GPU技術とAI処理の急速な進化による複雑さから、ますます困難になっている。潜在的な実装上の問題を軽減するため、ネットワーキングベンダーとGPUベンダーが検証を経て共同で認定した実装ガイドに従うことが推奨される。
共同で認定された設計に従うメリットは、両ベンダーが仕様に沿った導入をサポートすることで、問題が発生しにくくなり、問題発生時の平均修復時間(MTTR)も短縮されることだ。
出典:Optimizing Data Center Networks to Support AI Workloads(Gartner)
※この記事は、2025年6月に執筆されたものです。
Copyright © ITmedia, Inc. All Rights Reserved.