「GPUだけ用意できればよい」という勘違い AI投資で失敗しないためのインフラ選定のポイントAIモデル開発を成功させるカギ

AIモデル開発が注目を集める中で抜け落ちがちな視点が、インフラの重要性だ。適切なインフラ投資ができないとAI開発は成功しない。具体的にどのようなインフラを構築すればいいのか。SB C&S、NetApp、NVIDIAの講演からヒントを探る。

PR/@IT
» 2025年03月17日 10時00分 公開
PR

 AI(人工知能)が注目される中、AIモデルの開発を検討、実行する企業が増えている。しかし抜け落ちがちな視点がある。AIモデル開発に適したインフラへの投資だ。これができないと、余計なコストや手間がかかったり、投資効果が出ないまま予算が尽きてしまったりする可能性がある。

 では、どのようなAIインフラを選定、構築すればよいのか。この疑問の答えを提示するセミナーをSB C&S、NetApp、NVIDIAの3社が合同で開催した。本記事では「『AIモデル開発成功の鍵』データマネジメントと最新トレンドを徹底解説」(2025年2月14日開催)から、AIモデル開発を成功に導くインフラ投資のヒントを探る。

AIインフラの重要性

 SB C&Sでストレージ関連のプリセールスを担当するエンジニアの河村龍氏は講演の冒頭、2025年のビジネスに影響を与えるAIのトレンドについて紹介。特定のタスクを自律的に実行する「AIエージェント」や、データソースに近い端末でリアルタイムに推論処理をする「エッジAI」が注目を集めるという。

 AIエージェントを使えば、最新の市場動向や取引情報を分析してリスクを考慮しながら利益創出を目指す金融取引が自動でできる。AIエージェントを搭載したスマートグラスの開発も進んでおり、人間がレンズ越しに風景を見るだけで現在地をマッピングして店を提案したり予約したりすることが可能になる未来も近い。エッジAIは自動運転や工場の品質管理などで活用が進む見込みだ。

 「しかし、こうした魅力的な技術は上物、アプリケーション側の話です。システムを作るときには当然インフラが必要です。AIを導入して何がしたいかも重要ですが、それに見合うだけのインフラの選定がきちんとできているかという視点は見落とされがちです」と河村氏は警鐘を鳴らす。

ALT SB C&Sの河村龍氏

 AI開発のライフサイクルは一般的に「データ収集」「学習」「推論」「評価・運用」のフェーズがある。企業や組織の中に散在するデータを大量に収集し、それを基にAIモデルが最適化されるまで学習と精度向上を繰り返す。モデルができたら推論処理して結果を出力し、ユーザーからのフィードバックを基に再学習する評価・運用のサイクルを回す。

 データの選定や加工を伴うデータ収集のフェーズでは、大量のデータを効率的かつ安全に収集・管理できる拡張性や柔軟性が高いストレージが求められる。学習フェーズには当然ハイパフォーマンスのGPU(Graphics Processing Unit)やサーバが必要だ。推論や評価・運用フェーズは機密情報データの入出力に関わるためデータ保護やセキュリティ対策も重要なテーマになる。

ALT AI開発のライフサイクルと求められるインフラ要件の例(出典:SB C&S資料)

 ネットワークも重要だ。いくら高性能なサーバやストレージを使っていても、それらをつなぐネットワークがボトルネックになるとシステムとして破綻してしまう。大容量のデータを高速に送受信できる高速かつ広帯域のネットワークが求められる。

 「従来のシステム開発と比べ、AIシステムの開発ではモデル学習による高いパフォーマンスとデータの取り扱いが重要です。しかし、推論や運用などAI開発のライフサイクル全体で見ると、従来と同様にデータの保護やセキュリティなど、一般的な要素も求められることを忘れてはいけません」と河村氏は強調する。そしてAIモデル開発に適した多様なインフラ構築を実現できるのが、NetAppとNVIDIAの製品やサービスだという。

データマネジメントの“器”はどうあるべきか?

 AIモデル開発の成否を左右する要素の一つであるデータを、柔軟かつ安全に扱える“器”はどうあるべきか。米国シリコンバレーで創業し、約30年にわたってストレージやデータ管理ツールを手掛けてきたNetAppはその答えを導き出している。「データとインテリジェンスの時代におけるデータインフラストラクチャ」と題したセッションでNetAppの神原豊彦氏(チーフ テクノロジー エヴァンジェリスト)が語った。

 まず神原氏は「AIファクトリー」というキーワードを紹介。「AIモデルを作っていくためには当然ながらデータが必要です。データから優れたアルゴリズムを作る。アルゴリズムが優れているとより良いサービスが提供できる。より良いサービスを提供できれば多くのユーザーが使うのでもっと多くのデータが集まり、さらにアルゴリズムが良くなる。このサイクルを回すことが大事で、AI時代にはあらゆる企業がAIモデルを創造する工場のようになるということです」

ALT NetAppの神原豊彦氏

 AIファクトリーにチャレンジしている先進的な企業の共通点の一つに「データを適切に保管して扱える、近代的なデータアーキテクチャを準備していること」があると神原氏は言う。

 このデータアーキテクチャを作るには、まず特定の業務システムでAI開発プロジェクトをスモールスタートする。次に組織を横断する統合的なデータハブを作ってデータのサイロ化を解消。最終的には日々の業務でデータが更新されたと同時にAIモデルも更新してさまざまなシステムが高度化する。「これを実現するのが、NetAppが提唱する『インテリジェント データ インフラストラクチャ』。AIとデータが融合したインフラです」

プライベートな生成AI環境をいかに実現するか

 NetAppはAI開発プロジェクトについて、すでに開発済みの生成AIモデルを利用する「GENERATIVE AI」と、企業独自のノウハウやナレッジを利用してAIモデルを自ら開発する「PREDICTIVE AI」に大別する。

 GENERATIVE AIで既成のAIモデルを最適化する方法は幾つかあるが、現在特に注目されているのがRAG(検索拡張生成)だ。企業独自の情報を既成のAIモデルに参照させることで、回答精度を向上させる仕組みだが、オンプレミスや複数のクラウドに散在するプラベートなデータをいかに安全かつリアルタイムに同期するかが課題になる。NetAppはこの課題に対し、データコピーによるセキュリティリスクの増大や管理の複雑化を回避して同期するアーキテクチャを開発。クラウドベンダー各社と連携して、企業のプライベートデータをクラウドの生成AI環境に接続するリファレンス アーキテクチャを提供している。

AIモデル開発を効率化するリファレンス アーキテクチャ

 PREDICTIVE AIは、簡単に言えばAIモデル自体を開発するプロジェクトだ。AIモデルの開発はデータエンジニア、データサイエンティスト、AIエンジニア、運用担当といったスペシャリストのチームワークで進められる。30~50のソフトウェアスタックが必要とされる。一般的には、これら全てをオープンソースで取りそろえ、それらをシームレスに動かすための設定値や構成の整合性を得るためには、膨大な労力を必要とする。NetAppはこの課題に対し、NVIDIAを含めた各社と戦略的に提携し、データの流れ全体をカバーし安定稼働と高性能を実現するリファレンス アーキテクチャを提供している。

 「この独自のリファレンス アーキテクチャは、どれだけ大容量のデータでも即座にコピーできます。また、複数のAIモデルを同時に開発する場合でも、それぞれの開発環境を20分以内に自動的にデプロイすることも可能です」

ALT NetAppがAIモデル開発のために提供するリファレンス アーキテクチャの概要(出典:NetApp資料)

 アルゴリズムの層を追加して精度を上げていく際には、GPUの増強やストレージのスケールアウトが必要になってくるが、スケールアウト/スケールアップの両方に対応するNetAppのデータストレージならこの点も安心だという。

AI時代の開発基盤とは

 GPU需要が高まったことで注目を集めているNVIDIA。AI専用のインフラであるDGXプラットフォームを展開するが、2022年の「GPT-3.5」(AIベンダーOpenAIが開発したAIモデル)公開を機に「NVIDIA Hopper」アーキテクチャGPUを搭載したAIインフラ「DGX H100」の販売が急速に伸び、その後次世代「NVIDIA Blackwell」アーキテクチャGPUを搭載した「DGX B200」やその大規模構成となる「DGX SuperPOD」が国内でも数多く出荷されている。

 「AIファクトリーの実現に必要なGPUサーバやネットワークといったハードウェアから各種分野の知見を取り込んだソフトウェアSDK『NVIDIA AI Enterprise』までを提供しています。これらは各種ライブラリ、プラットフォーム、アプリケーションフレームワークを上から下まで含みますが、この実現にはNVIDIAの30年という歴史が必要でした」と語るのは、NVIDIAの鈴木元哉氏(エンタープライズ事業本部 シニアマネージャー)だ。

ALT NVIDIAの鈴木元哉氏

投資対効果を考えたGPUインフラ管理が重要

 AIモデルの開発時はもちろん、AI活用が軌道に乗ってユーザーが増えると処理が重くなる。そのため、推論や運用においてもハイパフォーマンスGPUの適切な活用が重要であることは変わらない。一からモデル開発をする企業は少なく、既存のAIモデルを最適化してSaaS型でビジネスを展開した結果でも、投資規模が数億円、開発期間が数カ月程度かかるケースもある。

 鈴木氏はRAGなどで最適化を進める際の課題の一つにPoC(概念実証)以降の将来的な運用までを含む「投資対効果を考えたGPU管理」を挙げる。

 「GPUを必要な人に割り当てて性能を最大限に引き出すには、これまでとは全く違うノウハウが必要です。検討時間を含む管理工数も重要なポイントで、データサイエンティストがソフトウェアの設定やオープンソフトウェアの最新版に追従するためのトラブルシューティングなどに忙殺され、本来の業務であるデータ分析の時間がとれない……といった事態は回避しなければなりません」

GPU管理の課題を解決するDGXプラットフォーム

 このGPU管理の課題は、インフラにDGXサーバを採用することでシンプルに解決できる。GPUの処理能力やネットワーク帯域、システムの規模など選択肢が充実。無駄をなくして自社に適したAIインフラを整えることができる。特に、最新世代GPUアーキテクチャを採用した「DGX B200」は、前世代の「DGX H100」と比較して推論性能が15倍、トレーニング性能が3倍に向上。電力の最適化やGPUの動的割り当てといったソフトウェアも強化され、必要な処理能力や規模をより少ない消費電力や物理スペースで実現する。

 さらに、DGXプラットフォームに統合された実証済みのOS「NVIDIA Base Command」や、AIモデルの推論環境を本番環境にデプロイする「NVIDIA NIM」を含むソフトウェアスイートであるNVIDIA AI Enterpriseによって、AI環境の開発とデプロイを効率化かつ高速化。各種コンポーネントとの整合性を取るといった時間のかかる検討フェーズなどの短縮によってコストを圧縮できる。

ALT DGXプラットフォームの概要(出典:NVIDIA資料)

 推論フェーズでは、AIエージェントと生成AIのユースケース向けワークフロー「NVIDIA Blueprint」を提供する。カスタマーサービス向けのデジタルヒューマンを構築したり、RAG構築のために膨大なPDF内のテキストやグラフ、画像などマルチモーダルな情報を抽出したりできる。サンプルデータやアプリケーション、リファレンスコード、カスタマイズツールも用意している。「NVIDIA Blueprintを使えば、アプリケーション開発などを含むデータサイエンス以外に費やす時間や予算が圧縮できて、短時間でビジネス成果が出せます」と鈴木氏は言う。

SB C&SがAI導入を強力にサポート

 NetAppやNVIDIAなどのAI開発ソリューションを一手に取り扱うディストリビューターがSB C&Sだ。「NetAppやNVIDIAのプロダクトを含め、現時点で考えられる強力なソリューションを提供するだけではなく、AIに精通したSB C&Sのエンジニア集団がセミナーやハンズオン、テクニカルブログなどを通じて積極的に情報を提供しています」と河村氏は説明する。

 SB C&SはAIインフラに関する勉強会やPoC支援に加え、2025年4月以降にはAI検証センターの開設も予定している。「NVIDIA DGXをご用意する他、NetAppの高性能ストレージをはじめとした先端ソリューションの導入も視野に入れています。AIモデルを開発してみたいがインフラを用意するのが大変という方は、AI検証センターを使って試していただけます。ハンズオンやセミナー、対面レクチャーなども開催しているので、ぜひAIに関してご相談ごとがある場合は、当社にお話しいただければと思います」(河村氏)

Copyright © ITmedia, Inc. All Rights Reserved.


提供:ネットアップ合同会社 、エヌビディア合同会社、SB C&S株式会社
アイティメディア営業企画/制作:@IT 編集部/掲載内容有効期限:2025年4月16日