Googleは「Gemini」のAPI向けに、新たなサービスティア「Flex」と「Priority」を追加した。Flexは標準サービスティアの半額で利用できるという。両者はどう違い、どう使い分けるべきなのか。
この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。
Googleは2026年4月2日(米国時間)、生成AIモデル「Gemini」のAPI(アプリケーションプログラミングインタフェース)向けに、推論処理用の新たなサービスティア(サービス区分)として「Flex」「Priority」を追加した。開発者は用途や制約に応じて、これらを使い分けることができる。
AI活用の中心が、単純なチャットbotから自律的に動作するAIエージェントに移行する中、開発者は2種類の処理を使い分ける必要が出てきたとGoogleは説明する。1つ目はデータ分析や推論など、即時の応答を必要としない「バックグラウンド処理」。2つ目は応答の安定性や即時性が必要になる「インタラクティブ処理」だ。
これまでGeminiでは、バックグラウンド処理とインタラクティブ処理の両方を効率良く運用するために、用途ごとに異なる処理の仕組みを使い分ける必要があったという。FlexとPriorityは、こうした課題を解消するとGoogleは説明する。それぞれの特徴と違いを整理しよう。
1つ目のFlexは、応答の遅れを許容できる処理向けの推論サービスティアだ。リクエスト(処理要求)の優先度を下げることで、標準サービスティア(「Standard」)の半額で利用できるようにした。ただし応答の安定性が低下したり、レイテンシが増大したりといった一定の制約がある。
大量処理向けの非同期API(処理完了後に結果を受け取るAPI)である「Batch API」とは異なり、Flexは通常の同期API(リクエスト送信後、直ちに結果を受け取るAPI)として利用できる。Batch APIに必要な、入出力ファイルの管理やポーリング(処理完了を繰り返し確認する処理)は、Flexでは不要だ。GoogleはFlexの主な用途として、CRM(顧客関係管理)のバックグラウンド更新や大規模な調査シミュレーション、AIエージェントによるバックグラウンドでの情報収集などを挙げる。
2つ目の「Priority」は、応答の安定性と即時性が必要な用途向けの推論サービスティアだ。通常よりも料金が高くなる代わりに、重要なリクエストを最優先で処理できるようにすることで、ピーク時でも安定性や即時性を確保しやすくする。
Priorityの利用枠には上限があるものの、上限を超えた場合でもリクエスト自体が失敗するわけではない。超過分を標準サービスティアで自動的に処理することで、アプリケーション停止のリスクを抑える。Googleは主な用途として、リアルタイムのカスタマーサポートbotやライブ配信コンテンツのモデレーション処理などを挙げる。
Googleは、用途に応じてFlexとPriorityを使い分けることを想定する。Flexはコストを抑えられる一方、安定性や即時性に一定の制約がある。Priorityはコストがかかるものの、安定性や即時性を確保しやすい。例えば完了を急がないバックグラウンド処理にはFlexを、即時の応答が必要なインタラクティブ処理にはPriorityを使うといった形が考えられる。
FlexとPriorityの詳細な料金体系や本番環境での最適なサービスティア構成について、GoogleはGemini APIの公式ドキュメントを参照するよう案内する。実際の利用方法を確認できるサンプルソースコードも公開した。
Gemini 3.1 Pro登場 思考モデルから実務エージェントへ、複雑タスクを完遂するAIに進化
Google、AIブラウザ「Disco」発表 「Gemini 3」がタブ上でユーザーのためのオリジナルWebアプリを自動生成
【Google推奨】Geminiから満足のいく回答を引き出すための「構造化プロンプト」実践ガイドCopyright © ITmedia, Inc. All Rights Reserved.