企業における生成AIの利用は、PoCから本番運用のフェーズへと移りつつある。マルチモデル化やAIエージェント活用によって複雑化する運用に、企業はどう向き合うべきか。Datadogの調査レポートを基に、新たな運用管理の視点を考える。
この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。
企業における生成AIの活用は、試験的な利用から本番運用への本格的な移行フェーズに来ている。試験運用では、モデル選定やユースケース特定、機能検証などが主な論点となるが、本番運用ではマルチモデル化やコスト管理、AIエージェントの設計などが必要になり、問われる問題の質が変わる。そこでは「どのように継続的な運用プロセスに組み込んでいくか」が一つの観点になり、既存のITシステムと同様に、可視化や監視、ガバナンスを含めた運用管理の重要性が高まってくる。
そうした生成AIの利用状況や今後の運用の在り方について、オブザーバビリティ―(可観測性)ツールベンダーのDatadogは「2026年版AI Engineering調査レポート」を公開している。本稿では同レポートと、同社が先ごろ開催した記者説明会での解説を基に、企業が生成AIやAIエージェントの活用を広げていく上で、今後何に向き合う必要があるのかを考える。
まず総務省の2025年の調査(国内外における最新の情報通信技術の研究開発及びデジタル活用の動向に関する調査研究)によると、日本企業の生成AI利用率は55.2%だった。これから全面的に導入が進んでいくフェーズにあるとみられ、企業には本格運用をするのであればそのための準備が求められる。Datadog Japanの守屋賢一氏(Director of Solutions Engineer)は、「今後は導入したAIの効果を測定しながら、いかに安全に拡張していくかが課題になる」と語る。
AI利用の本格展開に当たっては、単一モデルの利用にとどまる試験フェーズとは異なり、マルチモデル、さらにはAIエージェントの連携といったレイヤーまで段階的に広がっていくことを念頭に置かなければならない。「マルチモデルや他ツールとの連携が増えれば管理対象となる入出力データやログも多様になる。AIエージェントのフローやステップが増えれば、システム内部の動きが見えにくくなる。結果としてパフォーマンスの問題やリスクを特定しにくくなる」(守屋氏)
生成AIの活用状況は、先行する企業とそうでない企業とでは開きが生じているものとみられるが、実際、企業における生成AIやAIエージェントの利用はどのように変化しているのか。Datadogのレポートでは幾つか急速に変わりつつあるポイントが示唆されている。Datadog Japanの萩野たいじ氏(Senior Developer Advocate)は、特に顕著な変化として3つのポイントを挙げる。
まず企業の利用においては、単一モデルからマルチモデルへと移行する傾向が顕著だ。OpenAIのモデルは引き続き主要なシェアを持っている一方で、企業利用においては「Gemini」や「Claude」のシェアが急速に拡大している。
企業は複数のモデルを用途ごとに使い分けて運用をし始めている状況で、70%以上の組織が3つ以上のモデルを利用しており、6つのモデルを利用する企業も増加傾向にある。萩野氏は、「企業はコスト、レイテンシ、精度、安全性などの要素を比較しながら、用途に最適なモデルを選択するようになってきている」と語る。
もう一つの大きな変化として挙げられるのが、AIエージェントを構築するためのフレームワークの普及だ。レポートによると、「LangChain」や「LangGraph」といったLLM(大規模言語モデル)フレームワークの採用は、過去1年間でほぼ倍増している。こうしたフレームワークは、ツール呼び出しや分岐処理、リトライ、ワークフロー制御といった機能を提供し、AIエージェントや複雑なAIワークフローを構築しやすくするものだ。企業では単純なモデル呼び出しから、複数ステップの処理や外部ツールとの連携を伴う、より高度なワークフローへと移行していることを示している。
一方で、処理の一部をフレームワークが内部的に担うため、実行時に何が起きているのか把握しにくくなるという課題もある。萩野氏は「モデルの呼び出しやAPI連携、条件分岐などを自前で実装していれば処理の流れを追いやすいが、フレームワークがそれらを自動化することで、内部で何が実行されているのかが見えにくくなる」と説明する。
その結果としてコスト増加の原因が分からない、レイテンシがどこで発生しているのか追跡できないといった問題が起きやすくなる。もともと生成AIには、出力の再現性がないという特徴があるが、エージェント化によってその傾向はさらに強まる可能性がある。
さらにレポートでは、AIモデルに送信されるデータ量、いわゆるコンテキスト量の急増も報告されている。背景にあるのはコンテキストウィンドウの大幅な拡大だ。「過去2年間で主要な生成AIモデルのコンテキストサイズは大幅に拡大している」と萩野氏は言い、実際、Geminiでは最大200万トークン、Claudeでは100万トークン級のコンテキストウィンドウが提供されるなど、一度に処理できる情報量は飛躍的に増加している。
これによって企業は、会話履歴や検索結果、社内文書、ツールの出力結果など、より多くの情報をAIに渡せるようになった。Datadogの調査によると、顧客リクエストで使用されるトークン量は平均的な利用者で前年比2倍以上、上位利用者では4倍まで増加しているという。
コンテキスト量の増加は、AIがより高度な処理を実行できることを意味するが、一方ではレイテンシの上昇、推論コストの増大といった課題ももたらす。さらには情報量が増え過ぎることで、本来重要な情報がノイズに埋もれてしまう可能性もあることは注意点だ。焦点はどれだけ多くの情報をモデルに渡せるかだけではなく、どの情報をどのように渡すかへと移っている。「先行する企業では、検索品質の向上や要約、重複排除、情報の構造化といった『コンテキストエンジニアリング』への投資が重要になりつつある」と萩野氏は語る。
なお、こうした調査結果は、Datadogの「Agent Observability」製品を通じて収集した、顧客環境におけるLLM利用のメトリクスやメタデータを分析した結果に基づいている。
こうしてマルチモデル化やAIエージェント構築が急速に進んでいる実態が見て取れる。AIエージェントの活用で外部ツールとの連携や複数ステップの処理が増えるほど、内部で何が起きているのかを把握することは難しくなる。その取り組みが特定部門だけでなく全社へと広がれば、影響範囲も大きくなる。品質低下やコスト増加、データ管理上の問題が発生した場合の影響は、PoC(概念実証)段階とは比較にならないものになる可能性がある。
守屋氏は運用状況が把握できなくなることに伴うリスクとして「コスト増加」「品質低下」「セキュリティリスク」「ガバナンス不全」の4つを挙げる。部門ごとにAI活用が広がれば、重複処理や過剰スペックのモデル利用によるコスト増加を招きやすく、また実際の業務では入力データなど条件の違いによって期待した結果が得られないなど、品質が不安定になる可能性もある。どのデータがどこへ送られているのか把握できなければ情報漏えいのリスクが高まり、統一的なルールの適用が難しくなる。そもそもルールが整備が利用状況に追い付いていないという問題もある。
「実証実験や部分的な導入から、全社的に安全にスケールできる運用へと移行するために、コストや品質、そしてセキュリティやガバナンスを継続的に可視化して制御できる体制を整えることが、これからのフェーズでは重要になってくる」(守屋氏)
企業はこれからAIの本格運用へと移っていくに当たり、リスクにどう向き合えばいいのか。萩野氏によると、AI活用でつまずく企業に共通するのは、PoCや小規模な検証で一定の成果を得た後、運用設計を後回しにしたまま利用範囲を急速に拡大してしまうことだ。利用部門やモデル、データ量、ワークフローが増えるにつれて運用の複雑性は急激に高まるが、それに対する可視化や管理の仕組みが追い付かなくなる。
その結果、コスト増加の原因が分からない、問題を再現できない、セキュリティ上の懸念から利用拡大が止まるといった問題が発生する。「多くの企業では、AIそのものよりも、AIを使った運用の複雑さがボトルネックになり始めている」(萩野氏)
一方で成功している企業は、AIを実証実験のためのツールではなく、継続的に運用するシステムとして早期から位置付けている。エンドツーエンドの可視化や継続的な改善プロセス、標準化されたモデル管理、明確な責任分界点の設定などに早い段階から取り組み、本番運用を前提とした仕組みづくりを進めているという。
こうしてAIの活用度合いが進み、外側からでは見えない要素が多くなるほど、運用の備えが十分かどうかがが問われるというのは、従来のIT運用とも共通する。システムが複雑化する一方、そのシステムの稼働がビジネスの収益を直接的に左右するようになり、運用側には機会損失をなくすとともに、収益拡大の機会を創出できるかが求められるようになってきた。
AIも同じで、業務プロセスに組み込まれるほど、その安定稼働や品質は生産性に直結するようになる。特にミッションクリティカルな業務や、全社的に利用されるAIシステムともなれば、その影響は大きい。軽微なエラーやレイテンシ、コストや利用状況の変化を把握できない状態では、問題が徐々に蓄積し、生産性の低下や投資対効果の悪化につながる可能性がある。SRE(サイト信頼性エンジニアリング)やオブザーバビリティ―の領域で蓄積されてきた手法を今後はAIにも拡張し、運用改善を継続していくことが重要になってくるだろう。
AIが書いたコードの「未知のリスク」にどう向き合う?――鍵は「エンジニアの能力を拡張できるか」
障害は復旧しても信用は戻らない――ダウンタイムの残酷な現実
東京ガスが障害対応を3時間から30分に短縮 どう実現したのか?
まだ信用されていない「AIエージェントによる意思決定」 “人の目”による主な検証方法とは
Claudeも選んだ分析データベース「ClickHouse」とは何者か? マツダも採用、創業5年で150億ドル企業Copyright © ITmedia, Inc. All Rights Reserved.