主要産業でAI活用が広まる中、PoCで終わらず事業で継続的にAIを活用できるインフラの在り方とはサーバの電力と発熱が大きな課題

昨今注目が高まるAI技術。AIモデルの開発、学習では膨大な計算処理能力、つまりGPUコンピューティングが必須だ。継続した大規模な計算処理を実現する鍵となるのがGPUサーバの活用だが、どういった点に気を付ければよいのだろうか。

» 2023年12月13日 10時00分 公開
[PR/@IT]
PR

AIの学習で利用するGPUサーバを継続的に活用する際の大きな課題

 7、8年前に登場したディープラーニングなどのAI(人工知能)技術は、企業の業務や社会生活の中で利用されるようになった。製造業では画像データを学習し人間の目では見つけにくい傷や製品の不良をAIで検知している。また鉄道事業では、さまざまなセンサーデータなどを学習し、機器の故障発生を予測、トラブルの発生前に対処できるようになった。さらに医薬品業界では創薬のモデリングなどにAIを適用し、新薬開発時間を大幅に短縮しており、忙しい医師が患者に最適な最新治療方法を膨大な論文の中から探し出すのにもAIが利用されている。

 また新たに「ChatGPT」に代表される生成AIの技術が登場し、自然言語による問い合わせにも極めてスムーズに回答できるようになった。今後AIは、社会や人々の生活を効率化し、より良いものにするのに欠かせない技術となるだろう。

 ディープラーニングは当初、研究開発や実験的な試みから利用が始まった。そこから実用性が見いだされ、本番業務などに適宜組み込まれるようになる。膨大な量のデータを学習することで、高い精度で予測や検知などが可能なモデルを構築できる。データを学習する際には膨大な計算処理能力、つまりはGPUコンピューティングが必要だ。

 研究開発やPoC(概念実証)の目的で、GPUコンピューティングのリソースをクラウドなどで借りてスモールスタートする。そこから「ビジネスに活用できる知見が得られる」と分かり、いざ本番業務で適用するとなると、継続した大規模な計算処理が必要になる。その際には「自社の手元に高性能なGPUサーバを用意すべきという判断になることがよくあります」と指摘するのは、AI向けのデジタルインフラを提供するIDCフロンティアの菅野晋輔氏(データセンター統括本部 データセンターサービス本部 サービス企画部)だ。本番業務に適用し、継続してディープラーニングの効果を得ようとすると、GPUコンピューティングを所有、専有した方がコスト効率や使い勝手、さらにはデータのガバナンス確保などの面でメリットがあるという。

IDCフロンティアの菅野晋輔氏

 一方で、高性能なGPUサーバを所有、専有するとなると、問題になるのがその設置場所だ。既にデータセンターを契約して利用していれば、そこにGPUサーバを追加したいだろう。ところがその要求は、データセンター事業者から断られるケースもある。必要となる膨大な電力と発生する熱への対策が難しいからだ。

 一般にデータセンターで運用する1台のラックには、20〜30台のサーバ機器などを搭載する。通常のIAサーバは1台当たりの消費電力が0.2キロワット程度のため、ラックに必要な電力は3〜4キロワット程度だ。対してGPUサーバは「1台で6キロワット程度の電力が必要となります。つまり1台のサーバで1ラック分の電力が必要となるのです」と菅野氏は話す。

 仮にGPUサーバを3台使いたければ、18キロワットの電力がいる。契約しているデータセンターでは、1ラックでそれだけの電力が確保できないかもしれない。そうなれば、GPUサーバの設置を断られるのだ。ディープラーニングでは大量のデータを扱うのに苦労すると思われがちだが、実はデータ量はそれほど問題ではなく、計算リソースを確保するための高性能なGPUサーバの電力の方が問題なのだ。そしてこれだけ多くの電力を使うと、発熱量も極めて大きくなる。熱対策も、GPUサーバを利用する上での大きな問題だ。

 また、ディープラーニング用のインフラ環境では、帯域幅の広いネットワークの確保にも注意しなければならない。

 「学習結果を使って推論する際には多くのデータのやりとりが発生し、ネットワークの高いレスポンス性能が求められます。通常のデータセンター内のネットワークは1Gか10Gですが、ディープラーニングの推論では100Gでも帯域が足りないことすらあります」(菅野氏)

 一般的なクラウドサービスやデータセンターでは、100Gを超える広い帯域幅のネットワークを確保するのは難しいか、そもそも対応していないことも多い。また帯域幅が広くなれば、対応するネットワークケーブルを用意するだけでもコストがかなり高くなる。

小規模な学習や推論にはクラウドのGPUサービスを利用するという使い分け

 現状、クラウドベンダーなどが各種のGPUコンピューティングサービスを提供しているので、「データセンターにGPUサーバを置けないなら、それらを利用すればよい」と考えるかもしれない。確かにクラウドサービスなら、すぐに調達できる俊敏性や柔軟な拡張性などのメリットがある。しかし、本格的にモデルを構築するための学習をクラウドで行うと、従量課金制のサービスではコストが飛躍的に増大しかねない。

 「小規模な学習なら、クラウドサービスでカバーできるケースもあります。とはいえ、いざディープラーニングを本格的に業務で利用するとなると、かなりの計算処理が長期間継続して必要になるでしょう。そうなるとクラウドの従量課金のサービスでは、コストが跳ね上がることになります」と指摘するのは、IDCフロンティアの藤城拓哉氏(営業事業推進統括本部 事業推進本部 事業推進部)だ。

IDCフロンティアの藤城拓哉氏

 「特にハイパースケーラーのクラウドサービスでは、昨今の円安の影響などで価格が上昇することもあり、為替の影響を受けない国産クラウドサービスに移行するケースもあるようです」と藤城氏。その上で、業界の規制やルールで学習に利用するセンシティブなデータをパブリッククラウドに持っていけないこともあるという。

 また、多くの計算処理が必要な精度の高いモデル構築には手元の高性能なGPUサーバを使い、完成したモデルを使って推論する処理にはクラウドを用いてコストを最適化する。そのように「所有するサーバリソースとクラウドの上手な使い分けも考えるべきです」と藤城氏は提案する。

高消費電力のサーバを複数設置できる高負荷ハウジングサービス

 ディープラーニングの学習などで利用する高消費電力のサーバを複数設置できる環境が、IDCフロンティアの「高負荷ハウジングサービス」だ。東京都府中市に開業した「東京府中データセンター」で2022年3月から提供している。GPUサーバが必要とする電力を十分に供給できるのはもちろん、「GPUサーバを安定して稼働させるのに欠かせない、サーバの冷却を重視したサービスとなっています」と菅野氏は自信をのぞかせる。

「東京府中データセンター」の内部(提供:IDCフロンティア)

 通常、サーバは搭載されているファンで筐体内の空気を排気して冷却する。IAサーバを使う程度の発熱量なら、冗長化で複数搭載しているファンの一部が壊れても、冷却には大きな問題はないだろう。一方GPUサーバの場合は、発熱量が大きいので一部でもファンが壊れるとサーバの安定運用に問題が発生する。IAサーバよりかなり高額なGPUサーバは、ファンの不具合が本体の故障などに発展しないように運用したい。

 IDCフロンティアの高負荷ハウジングサービスでは、リアドア型空調機を搭載した専用ラックにより、サーバ内の空気を強制的に吸い出すようになっている。そのため「仮にファンが一部壊れたとしても、サーバ本体を冷却し続けられます」と菅野氏。高額なGPUサーバを安心して継続運用するには、このような空調の仕組みが必要なのだ。

 IAサーバなどは、通常の運用では最大消費電力の40%程度を使うのが普通だ。ラックで供給できる電力が搭載サーバのトータルの最高消費電力量を上回っても運用でき、その分発熱量も少なくなる。一方GPUサーバの場合は、高負荷の計算処理を最大限に行うのでほぼ100%の電力を使う。

 「例えば最新のNVIDIA H100 Tensor Core GPUを8枚組み込んだNVIDIA DGX H100は、定格消費電力が最大10.2キロワットですが、学習などを行えばほぼ10.2キロワットの電力を使い続けます。この状態のサーバを冷やし続けることができるのかどうか。それが、極めて重要です」(菅野氏)

 国内で積極的にAIモデルを構築してビジネスに活用している企業は、GPUサーバの能力を100%引き出すために、既存のデータセンターでは冷却性能が足りず、IDCフロンティアの高負荷ハウジングサービスに移行している。この企業の場合は、電力の確保や冷却性能の高さはもちろん、国内のデータセンターで運用しているので、いざというときにアクセスの良い立地にあることも評価しての採用となっている。

半年間無料の「GPUクラウドAI推進プログラム」と「GPU/AI データセンター見学ツアー」

 IDCフロンティアでは、2016年からGPUクラウドのサービスも展開している。これも国産サービスなので、価格が為替の影響を受けることなく利用できる。その上で国内の窓口によるきめ細かいサポートもあり、「ディープラーニングのPoCなどを手軽に始めたい企業にも、よく採用されています」と藤城氏。

 クラウドサービスと高負荷ハウジングサービスは、同じIDCフロンティアのデータセンター内にあり、広帯域のネットワークで接続できる。そのため「クラウドとハウジングサービスのハイブリッド構成も、効率的に実現できます」と藤城氏は力を込める。さらにハイブリッド構成でも、サポート窓口を1本化でき、それも企業が安心して利用しやすいことにつながっているという。

 このようにGPUサーバを使い倒してAIの本番業務での活用にチャレンジしたい企業にとって、IDCフロンティアのインフラサービスは有力な選択肢となるだろう。一方でPoCといえども、スタートアップ企業などでは、ディープラーニングに取り組むにはまだまだハードルが高いかもしれない。そこでIDCフロンティアでは、「AIに取り組みたいけれどなかなか手が出ない企業がチャレンジしやすくする『AI開発推進プログラム』の一環として、NVIDIAのGPUを搭載したクラウドを半年間無料で利用できる『GPUクラウドAI推進プログラム』も展開しています」と藤城氏。これを使い、AIビジネス開発の最初のステップを踏み出してほしいという。

 他にもAI開発推進プログラムでは、AI推進ウェビナーや、GPUサーバの設置や冷却の様子を現地で確認できる「GPU/AI データセンター見学ツアー」も開催する。「データセンター見学ツアーは2024年2月に実施予定です。ぜひ参加して、サーバを冷却する仕組みなどを体感してください」(菅野氏)

Copyright © ITmedia, Inc. All Rights Reserved.


提供:株式会社IDCフロンティア
アイティメディア営業企画/制作:@IT 編集部/掲載内容有効期限:2023年12月25日

RSSについて

アイティメディアIDについて

メールマガジン登録

@ITのメールマガジンは、 もちろん、すべて無料です。ぜひメールマガジンをご購読ください。