AIの推論コストは90％下落も、企業の予算を圧迫か　Gartnerが警告：2030年に登場するLLMの推論コスト　2つのシナリオで予測

Gartnerは、2030年までに1兆パラメーターの大規模言語モデルによる推論コストが生成AIプロバイダーにとって2025年比で90％超低下すると予測した。一方、エージェント型AIの普及でトークン需要が増大するため、企業が支出する推論の総コストは増加する見通しだという。

[＠IT] PC用表示関連情報

LINE

Hatena

　調査会社Gartnerは2026年3月25日（米国時間）、2030年までに1兆パラメーターの大規模言語モデル（LLM）による推論の実行コストが、生成AIプロバイダーにとって2025年比で90％超低下するという予測を発表した。

　Gartnerのシニアディレクターアナリストであるウィル・ソマー氏によると、コスト改善は半導体とインフラの効率改善、モデル設計の革新、チップ利用率の向上、推論特化シリコンの活用増加、特定ユースケースへのエッジデバイスの活用拡大によってもたらされるという。

2030年のLLMは最大100倍のコスト効率を実現？　2つのシナリオで予測

　こうした傾向を受けて、Gartnerは、2030年のLLMは2022年に開発された同規模の最初期モデルと比較して最大100倍のコスト効率を実現すると予測している。

　この予測について、Gartnerは最先端チップによる「最先端シナリオ」（下図左）と、市場で入手可能な半導体の代表的な組み合わせに基づく「従来型ブレンドシナリオ」（下図右）の2つのシナリオに基づいて予測した。

最先端シナリオと従来型ブレンドシナリオにおける1兆パラメーターLLMの推論コスト予測（2025～2030年）（提供：Gartner）

　「計算能力が低いことを考慮すると、従来型ブレンドシナリオにおけるコストは、最先端シナリオよりもかなり高くなる」（Gartner）

推論コストの低下は「最先端AIの民主化」と同義ではない

　Gartnerは、生成AIプロバイダーのトークン単価の低下がそのまま企業顧客に還元されるわけではないと指摘している。トークンとは、生成AIモデルが処理するデータの単位で、3.5バイトのデータ、英語で約4文字に相当する。

　エージェント型AIは標準的な生成AIチャットbotと比較して1タスク当たり5～30倍のトークンを必要とし、人間が生成AIを使用する場合よりもはるかに多くのタスクを実行できる。

　トークン単価の低下が高度な生成AIの利用を可能にする一方で、トークン需要を不均衡に押し上げる。トークン消費量の増加がトークン単価の低下を上回るため、推論の総コストは増加する見通しだ。

　ソマー氏は次のように述べている。

　「CPO（最高製品責任者）はコモディティ型AIのトークン価格の下落を、『最先端推論の民主化』と混同してはならない。コモディティ化したAI能力のコストがほぼゼロに近づく一方、高度な推論を支えるコンピューティングリソースは依然として希少なままだ。そのため、安価なトークンでアーキテクチャの非効率さを覆い隠しているCPOは、エージェント型AIの大規模展開が困難になるだろう」

　Gartnerは、多様なモデルポートフォリオにわたってワークロードをオーケストレーションできるプラットフォームに価値が集中すると分析している。日常的な高頻度タスクはわずかなコストで高いパフォーマンスを発揮する「小規模かつドメイン特化型の言語モデル」に振り向け、最先端モデルの高コスト推論は高利益率が見込まれる複雑な推論タスクに限定することがより重要になるとの見解を示している。

AIの推論コストは90％下落も、企業の予算を圧迫か　Gartnerが警告：2030年に登場するLLMの推論コスト　2つのシナリオで予測

2030年のLLMは最大100倍のコスト効率を実現？　2つのシナリオで予測

推論コストの低下は「最先端AIの民主化」と同義ではない

関連記事

関連リンク

Server & Storage 記事ランキング

AIの推論コストは90％下落も、企業の予算を圧迫か Gartnerが警告：2030年に登場するLLMの推論コスト 2つのシナリオで予測

2030年のLLMは最大100倍のコスト効率を実現？ 2つのシナリオで予測

推論コストの低下は「最先端AIの民主化」と同義ではない

関連記事

関連リンク

Server & Storage 記事ランキング

AIの推論コストは90％下落も、企業の予算を圧迫か　Gartnerが警告：2030年に登場するLLMの推論コスト　2つのシナリオで予測

2030年のLLMは最大100倍のコスト効率を実現？　2つのシナリオで予測