Gemini 3.1 Pro登場 思考モデルから実務エージェントへ、複雑タスクを完遂するAIに進化:Deep Insider Brief ― 技術の“今”にひと言コメント
思考力の強化に加え、エージェント実行能力を大きく押し上げたGemini 3.1 Pro。本稿では主要ベンチマークや機能改善を整理しつつ、「考えるAI」から「働くAI」へと進むモデル進化の方向性を、開発者視点のコメントとともに読み解く。
AIモデルの進化は、もはや「どれが一番賢いのか」という競争だけでは語れなくなってきた。最近の開発現場では、「どれだけ考えられるか」よりも「どれだけ仕事を終わらせられるか」が重視される傾向が目立ち始めている。AIが回答を返す存在から、実際の開発作業を引き受ける存在へと変わりつつあるからだ。
そうした流れの中で、2026年2月19日(米国時間)に姿を見せたのが、Googleの最新AIモデルGemini 3.1 Proである。公式ブログでは、複雑な課題への対応やエージェント型ワークフロー(AIがツールを使いながら複数ステップの作業を進める仕組み)がこれまでの流れを踏まえつつ、より前面に押し出されている。
Gemini 3.1 Proの主要ベンチマーク比較(Google Cloud公式Xポストより引用)
左側は未知の問題に対する抽象的な思考力を測る「ARC-AGI-2」のスコアで、Gemini 3.1 Proは77.1%を記録し、前世代モデル(31.1%)から大幅に向上している。右側はツール利用や長期タスクの自律的な遂行能力を評価する「APEX-Agents」の結果で、33.5%と前世代モデル(18.4%)を上回る数値となっている。いずれも棒グラフの高さがスコアを示しており、モデルごとの性能差を視覚的に比較できる。
今回のGemini 3.1 Proで注目したいのは、図に示したように「思考力」と「実務能力」の両面が強化されている点である。未知の問題に対する思考力(リーズニング能力)を測るARC-AGI-2と、ツール利用や長期タスクの遂行能力を評価するAPEX Agentsという2つのベンチマークの双方で大幅な性能向上が確認されている。
これは単なる知識量や会話品質だけでなく、「調べる」「判断する」「ツールを使う」「最後まで終わらせる」といった実務寄りの能力が重視されていることを示している。Googleも公式ブログの中で、複雑な分析やソフトウェア開発、長文ドキュメント理解といった用途を想定した設計であることを強調している。
――ここからは『Deep Insider Brief』恒例の“ひと言コメント”として、Gemini 3.1 Proが示した技術の“今”を、現場開発者の視点から見ていきたい。
Deep Insider編集長の一色です。こんにちは。
ちょうど同じ時期にClaude Sonnet 4.6が登場したこともあり、リリース直後はGemini 3.1 ProとSonnet 4.6を比較するレビューや検証が数多く見られました。ここでは開発用途という視点から、両者を比べながら向き/不向きを簡単にコメントしてみます。
正直なところ、私自身はまだ十分に使い込めてはいません。ただ、検証動画や開発者のコメントを見る限り、Gemini 3.1 Proはバックエンド寄りの開発で評価が高い印象です。「まず確実に動くものを作る」傾向が強く、ゲームやシミュレーションの検証例でも操作性やロジックの安定性を重視した生成結果が目立ちます。バグ修正や既存コードの解析にも強いという評価を見掛けました。
一方で、UI(ユーザーインタフェース)の見た目は比較的シンプルにまとまりやすく、デザインや細かな画面作り込みを重視するWebアプリケーション開発ではSonnet 4.6の方が向いているという声も多いようです。
また、Gemini 3.1 ProはSonnet 4.6よりレスポンスが速いという評価も目立ちます。Sonnetが思考している間に実装が終わる、といった極端な比較を見掛けることもあり、ラピッドプロトタイピング(短いサイクルで試作と検証を繰り返す開発)では試行錯誤の回転数を上げやすそうですね。
後述するAPI価格を見る限り、Sonnet 4.6の約3分の2程度の価格になっています。大量コード処理や日常的な修正作業ではGemini 3.1 Proを選択するという判断も現実的だと思います。
ただし導入のしやすさという点では注意も必要です。私が使用している会社契約のGoogle WorkspaceのBusiness Standardプランでは、そのまま開発用途に利用できないことが分かりました(参考情報)。企業で本格的に開発に活用する場合はVertex AI(Google Cloud上のAI開発サービス)など別サービスの検討が必要になるケースもあり、Claude CodeやOpenAI Codexのように気軽に試せない点は少し悩ましいところですね。
Gemini 3.1 Proは、以下のような環境で利用可能となっている。
- 開発者向け: Google AI Studio、Gemini CLI(2026年2月26日時点では有料プランのみで無料プランは近日中、参考情報)、Google Antigravity(GoogleのAIコードエディタ)、Android StudioのGemini APIプレビュー
- 企業向け: Vertex AIおよびGemini Enterprise
- 一般ユーザー向け: GeminiアプリおよびNotebookLM
また、GitHub CopilotやCursorといったAI開発ツールや、マルチモデルAPIサービスのOpenRouterでも利用可能となり、既に開発用途から知識労働まで幅広い環境で試せるモデルとなっている。
その他の主な更新内容は以下の通りだ。
Gemini 3.1 Proにおける、その他の更新内容
新機能と機能改善
- ソフトウェア修正(SWE)能力の強化: ソフトウェア修正ベンチマーク「SWE-bench Verified」で80.6%の成功率を記録。複雑なコードベースや実務的なエンジニアリングタスクへの対応力が向上した
- エージェント実行能力の改善: 財務分析やスプレッドシート処理などの分野を含め、検索やコード実行などのツール利用を組み合わせたエージェント型ワークフローを強化。長期タスクを段階的に完遂する能力が改善
- 思考効率(トークン効率)の改善: 思考過程(リーズニング)におけるトークン消費や処理効率が改善され、複雑な分析や長文処理といったユースケースでも安定した応答を目指した設計となっている
- 思考レベル制御(thinking_level)の拡張: 思考の深さを調整できるthinking_levelパラメーターに「MEDIUM」が追加され、コスト・処理速度・回答品質のバランスを用途に応じて選択可能となった
- クリエイティブコーディング能力: 抽象的なテーマを解釈したWeb制作や、動的SVGアニメーション生成など、高度な思考と実装を組み合わせた創造的なコード生成にも対応
- マルチモーダル理解: テキストだけでなく画像、音声、動画、PDF、コードベースなど複数形式の情報を横断的に扱うことが可能(従来モデルから継続して強化)
Gemini 3.1 Pro(プレビュー版) APIの価格表
基本単価はGemini 3 Pro(プレビュー版)と同水準となっている。なお、Gemini 3 Flash(プレビュー版)と比較すると、入力・出力ともに約4倍高い価格設定となっている。
- 100万トークン当たり:
- 入力トークン(20万以下): 2.00ドル
- 入力トークン(20万超): 4.00ドル
- 出力トークン(20万以下): 12.00ドル
- 出力トークン(20万超): 18.00ドル
- コンテキストキャッシュ利用時(100万トークン当たり):
- 読み出し(20万以下): 0.20ドル
- 読み出し(20万超): 0.40ドル
- 保存:4.50ドル(100万トークンまでを1時間保存した場合の料金)
- ※コンテキストキャッシュとは、一度処理した入力内容(コンテキスト)を保存し、再利用するための仕組み。キャッシュからの読み出し時は再計算が不要になるため、低コストで利用できる。
※価格は今後変更される可能性もあるので、厳密にはGoogle公式ドキュメント「Gemini Developer APIの料金」を参照してほしい。
情報元
Copyright© Digital Advantage Corp. All Rights Reserved.