「GPUを遊ばせない」「ストレージで失速させない」――AI処理を高速化するインフラ設計の基本とは：現場で役立つ「AIインフラ」の基礎と運用：【第1章】（3）

AIシステムを安定的に稼働させる上で考慮すべきポイントの一つになるのが、GPUリソースとストレージをいかに最適化するかです。そのために必要になる仕組みや、運用上の工夫を解説します。

» 2026年05月13日 05時00分公開

この記事は会員限定です。会員登録（無料）すると全てご覧いただけます。

　企業がこれからAI（人工知能）をますます活用していく上で考慮すべき要素の一つになるのが、モデルの性能だけでなく、それを支える計算資源や設備を含めて実行環境をいかに設計し、用意するかです。

　「AIを止めない仕組み」をテーマに、AIを動かすために必要になるインフラの基礎知識から、プロジェクトを成功に導くための運用ノウハウまでを解説していく本連載。第1回、第2回では、電力や冷却など設備面で考慮すべきポイントを見てきました。

　AIシステムが「止まらない」状態を維持するには、電力と冷却の設計の見直しに加えて、もう一つ重要な視点があります。それが、「GPU」（Graphics Processing Unit：グラフィックス処理装置）リソースと「ストレージ」の最適化です。

GPUリソースを無駄にしない

　AIモデルの高度化が進む一方で、「GPUを増やせば速くなる」という単純なアプローチは通用しなくなっています。GPUの性能が上がっても、GPUが常に100％稼働しているわけではありません。データの転送やI/O（データの入出力）処理、ジョブ管理が追い付かず、全体のスループットが頭打ちになるケースもあります。データ読み込みの遅延やジョブ管理の非効率があると、GPUは演算を待つ「アイドル状態」に陥り、結果的に電力も時間も無駄になります。

　AIの演算速度を本当に引き上げるには、ハードウェアを増設するだけでなく、既存リソースを最大限に使いこなす最適化の仕組みが必要です。

　本稿では、その鍵を握るGPUとストレージの運用設計に焦点を当て、GPUの共有化・スケジューリング、ストレージの最適化設計、そして両者を連動させる仕組みについて解説します。

GPUの共有化と稼働効率の最大化

　GPUは、AI学習における心臓部です。しかし、GPUリソースを1つのジョブが専有すると、他のジョブが待機する時間が発生し、全体のスループットが低下します。そのため、近年のGPU運用では「共有化（シェアリング）」の仕組みが重視されています。代表的な手法として、次の2つが挙げられます。

GPU仮想化（MIG：Multi-Instance GPU）
- 1枚のGPUを複数の仮想インスタンスに分割し、小規模ジョブを並列に実行する仕組み
GPUプール化とリソーススケジューリング
- 複数のGPUノードを仮想的にまとめ、スケジューラが動的にリソースを割り当てる仕組み

　GPU仮想化では、ジョブごとにメモリ容量や処理コアを柔軟に割り当てることが可能になるため、GPUをフルに使い切れずに余らせてしまう問題を防げます。特に、推論タスクや検証タスクなど短時間処理を多く抱える環境では、リソースの過剰配分を避け、電力効率を高める効果が大きいです。

　一方のGPUプール化は、より大規模な環境で有効です。スケジューラが複数ノードを一括管理し、ワークロードや優先度に応じてGPUを自動的にアサインするため、リソースの「取り合い」を防げます。さらに、利用状況を可視化して課金や負荷分析に生かせるなど、クラウド的な運用にも適しています。

　実際、クラウドではコンテナオーケストレーター「Kubernetes」や、ジョブスケジューラ「Slurm」がこの管理を担い、オンプレミスでも同様の考え方が広がっています。

　AIインフラの最適化は、単にGPUを増やすことではなく、どのように使い分け、どう使い回すのかが重要です。

GPUシェアリングの課題と運用の工夫

　GPUを共有化すると、運用面で幾つかの課題が生じます。

リソース競合

　第一に、リソース競合です。複数のジョブが同時にGPUを要求すると、スケジューラの割り当てが追い付かず、ジョブの実行順序が乱れることがあります。また、GPUの分割設定やI/O帯域がタスクごとに異なるため、処理時間のばらつきが大きくなることもあります。特に、複数のユーザーが同一GPUノードを利用するマルチテナント環境では、1つの重いジョブが他のジョブのI/Oを圧迫し、全体の処理効率を低下させることがあります。

　この問題を軽減するには、GPU間の帯域やバス転送量を監視し、動的に負荷を分散する仕組みを整えることが求められます。「PCIe」（Peripheral Component Interconnect Express）や「NVLink」などの転送経路は共有リソースであり、特定ノードに負荷が集中すると通信遅延が発生します。転送状況をリアルタイムに把握し、スケジューラが自動的に空いているGPUへジョブを再配置することで、全体の処理効率と応答時間を安定させることができます。

ジョブの優先制御

　第二に、ジョブの優先制御です。AIの学習ジョブは長時間かかるものが多く、推論や検証など短時間タスクと同居すると、リソースをどう配分するかが問題になります。優先度付きキューやジョブスケジューラのポリシー設定を最適化し、用途ごとにGPU割り当てを分離する工夫が必要です。

　実際の運用では、ユーザー単位で優先度ポリシーを定義し、学習と推論のジョブを別キューで管理するケースが一般的です。一方で、リソース効率を重視する場合はあえて共存させ、ワークロードの傾向を学習してスケジューラが自動的に配分比率を調整する仕組みも採用されています。

スループットの安定性

　第三に、スループットの安定性です。複数ジョブを混在させると、GPUメモリの断片化やデータ転送の待機が発生しやすく、総合性能が不安定になります。これを防ぐには、GPU仮想化とスケジューラの連携を密にし、ワークロードの傾向を学習して自動調整する「運用の最適化」が欠かせません。

　特に長時間ジョブが多いAI学習では、ジョブの切り替え時に発生するコンテキスト切り替えのオーバーヘッドも問題になります。このため、GPU仮想化とスケジューリングを統合した一体型運用（Kubernetes＋MIGなど）が注目されており、稼働率と安定性の両立を図る取り組みが広がっています。

　GPU共有の理想は、「1台のGPUを複数人が同時に使う」という単純な仕組みではなく、ジョブの特性に合わせて柔軟に分配・統合できるリソース管理を実現することにあります。

ストレージの最適化設計――データを止めない仕組み

　GPUがいくら高速でも、データの読み込みが追い付かなければ意味がありません。AI学習では、数T（テラ）B～数十TB規模のデータを扱うため、ストレージ設計はGPUと同等に重要です。

　AIシステムのストレージは、大きく「ローカル型」と「分散型」に分かれます。

AIシステムのストレージ：ローカル型と分散型

　ローカルストレージ型は、GPUノードの近くにデータを配置するため、アクセス速度が速く、I/O遅延を最小化できます。一方、分散ストレージ型は、複数ノードから同時アクセスできる柔軟性と可用性に優れます。代表的な技術としては、「Lustre」や「BeeGFS」などの並列ファイルシステム、または分散ストレージソフトウェア「Ceph」などのオブジェクトストレージがあります。

並列ファイルシステム

　並列ファイルシステムは、大規模なデータを複数のサーバやディスクに分散して配置し、複数のGPUノードが同時にアクセスできるようにする仕組みです。LustreやBeeGFSでは、メタデータ管理サーバとストレージサーバを分離し、読み書きを並列化することで高いI/Oスループットを実現します。

　AI学習のように多数のノードが同一データセットを頻繁に読み込む処理に適しており、スケールアウト性能と高速性を両立できる点が特徴です。

オブジェクトストレージ

　オブジェクトストレージは、データを「オブジェクト」として格納し、メタデータとともに一意のIDで管理する非階層型ストレージです。ファイルシステムのようなディレクトリ構造を持たず、HTTPベースでアクセスできるため、クラウド環境との親和性が高いのが利点です。Cephなどではデータの自動レプリケーションや耐障害性が強化されており、AIの長期データ保管や学習ログ、モデルアーカイブなどの用途に向いています。

　近年では、ストレージの通信規格「NVMe」（Non-Volatile Memory Express）やそれをネットワーク経由のストレージアクセスに拡張した「NVMe-over-Fabrics」（NVMe-oF）の採用が進み、ストレージ間の通信を最適化してI/O性能を数倍に高める事例が増えています。GPUサーバとストレージ間の転送をボトルネックにしないためには、データのローカリティー（局所性）を意識し、学習データをGPUの近くに配置する設計が欠かせません。

　さらに、データを「止めない」ためには階層化が重要です。GPUが利用する直近のデータは高速キャッシュ層（NVMeやRAM＜Random Access Memory＞ディスク）に置き、過去データや検証用データは大容量の分散ストレージに保管――この階層構造（Tiered Storage）を設計することで、GPUが常に必要なデータにアクセスでき、学習・推論が途切れずに進みます。

電力効率とコスト最適化――リソース管理の連動

　AIインフラの運用コストは、GPUやストレージそのものよりも、運用中の電力消費と稼働率に左右されます。GPUがアイドル状態で電力を消費し続けることは、無駄です。理想は、GPUリソース管理とストレージI/Oを連動させ、電力使用を平準化することです。

　例えば、データ転送が集中する時間帯にGPU処理を一時的に分散したり、ジョブスケジューラがGPU温度や電力状態を監視して稼働ノードを切り替えたりする仕組みを組み込むなど、AIインフラを「動かす」だけでなく、「効率よく動かす」ことが今後の最適化の鍵になります。

　また、GPU利用状況やI/O統計を可視化し、ワークロード単位で電力効率を分析するAIOps（AI for IT Operations）の取り組みも増えています。AIOpsは、GPUやストレージのメトリクス、ログ、センサー情報などをAIが継続的に分析し、異常の兆候を検知したり、最適なリソース配分を自動判断したりする仕組みです。

　例えば、電力消費がしきい値を超える前に負荷を分散したり、GPU温度上昇を検知して自律的にクロック制御を行ったりといった、予防型の運用を可能にします。

　AIがAIインフラを管理する構造が進化すれば、人的な監視負荷を減らしつつ、運用効率と信頼性を両立できるようになります。

GPUとストレージを連携させる設計思想

　AIを止めないためには、GPUとストレージを単体で最適化するのではなく、「データフロー全体を最適化する」という視点が不可欠です。GPUがデータを処理し、結果を保存し、再学習のために再びデータを呼び出すという循環をいかにスムーズに回すか――。この点で重要になるのは、GPUとストレージ、そしてスケジューラが「同じ時間軸で動く」ことです。

　ハードウェアとソフトウェア、電力と冷却、そしてデータ管理が一体化してこそ、真の意味でAIを「止めない」インフラが完成します。AI時代の最適化とは、性能を上げるための調整ではなく、システム全体を協調させる設計思想なのです。

　次回は、こうして構築されたAI基盤の上で、どのように「サービスとしてのAI」を実装・運用していくかを解説します。

筆者紹介

松浦淳（まつうらじゅん）　トゥモロー・ネット

富士通、シトリックス・システムズ・ジャパンで開発、サポート、ソリューションエンジニア業務に従事し、デル株式会社（現：デル・テクノロジーズ株式会社）の事業部長を経て現職に至る。米国シリコンバレーを中心とした海外スタートアップ企業の日本法人立ち上げも複数経験しており、日本市場への製品展開に豊富な経験を持つ。トゥモロー・ネットでは、ITエンジニアとしての経験を生かして企業経営全般に関与している。

新型DPU「NVIDIA BlueField-4」搭載、エージェント型AIの推論を高速化するストレージ
NVIDIAは、DPUの新型モデル「NVIDIA BlueField-4」を搭載した次世代AI向けのストレージインフラ「NVIDIA Inference Context Memory Storage Platform」を発表した。
生成AI時代のAI基盤を構築　Kubernetesの最新技術「DRA」と「GPU Operator」で実現するGPUクラスタとモニタリング環境構築方法総まとめ
気軽に試せるラップトップ環境で、チャットbotを提供するオールインワンの生成AI環境構築から始め、Kubernetesを活用した本格的なGPUクラスタの構築やモデルのファインチューニングまで解説する本連載。今回はNVIDIA製GPUを用いたKubernetesクラスタの構築方法をモニタリング環境の構築手順を交えて解説します。
「CPUでは理論止まり、GPUなら現実になる」――CNNとGPUの出会いが“AIブーム”を呼んだ
GPUはもともとグラフィックス処理専用で開発されたわけだが、AI処理のためのプロセッサへと進化する転記は2010年代初頭に訪れた。機械学習の急速な進展がGPUの可能性を引き出し、その役割を拡大させたその転換点と背景を振り返る。