Googleは、Gemini 3 Flashの新機能として「Agentic Vision」を発表した。画像理解に視覚的推論とコード実行を組み合わせる仕組みだという。
この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。
Googleは2026年1月27日(米国時間)、生成AI(人工知能)モデル「Gemini 3 Flash」の新機能「Agentic Vision」を発表した。
従来のAIモデルは、世界を単一かつ静的な画像として処理するため、マイクロチップのシリアル番号や遠くの道路標識といった微細な詳細を見落とした場合、“推測”に頼らざるを得ないという課題があった。
Gemini 3 FlashのAgentic Visionは、視覚的推論とコード実行を組み合わせることで、視覚的な証拠に基づいて回答を導き出す。Googleによると、コード実行を有効にしたGemini 3 Flashは、ほとんどのビジョンベンチマークで一貫して精度が5〜10%向上したという。
Agentic Visionは、画像理解のタスクにおいて「Think(思考)」「Act(実行)」「Observe(観察)」という視覚的推論のループを導入している。プロセスの詳細は以下の通り。
APIでコード実行を有効にすることで、さまざまな新しい動作が可能になる。大企業からスタートアップまで、多くの開発者がこの機能への統合を開始しており、以下のようなユースケースで実践している。
Gemini 3 Flashは、詳細部分を検出する際に自動的にズームするようにトレーニングされている。
AIを活用した建築設計図検証プラットフォーム「PlanCheckSolver.com」は、Gemini 3 FlashのPythonコード実行を有効にして高解像度の図面を反復的にズームし、精度を5%向上させた。
Agentic Visionにより、モデルは画像に注釈を付けることで環境と相互作用できる。Gemini 3 Flashは単に見たものを説明するだけでなく、キャンバスに直接描画するPythonコードを実行して推論を裏付ける。
例えば、Geminiアプリケーションで手の指の数を数える際、カウントミスを避けるためにPythonコードを使用して特定した各指にバウンディングボックスと数字のラベルを描画する。この「ビジュアルスクラッチパッド(視覚的な下書き)」により、ピクセル単位の正確な理解に基づいた最終回答が可能になるという。
Agentic Visionは、高密度の表を解析し、Pythonコードを実行して結果をグラフなどに視覚化できる。標準的な大規模言語モデル(LLM)は、数ステップの視覚的演算中にハルシネーション(幻覚)を起こすことがある。Gemini 3 Flashは、計算を決定論的(同じ入力を与えれば、必ず同じ結果が返ってくるという性質)なPython環境にオフロードすることでハルシネーションを回避するという。
Googleは、今後、Agentic Visionを以下の方向で進化させることを計画している。
Agentic Visionは、AIアプリケーション開発環境「Google AI Studio」「Vertex AI」のGemini APIを通じて利用可能だ。
Geminiアプリケーションでも順次展開が開始されており、モデルドロップダウンから「思考モード」を選択することでアクセスできる。開発者はGoogle AI Studioでデモを試用できる他、同「Playground」で「Tools」の「Code execution」をオンにすることで機能をテストできる。
Gemini 3 Flash登場 Proに迫る性能で価格は最大1/8、軽量モデルがAI開発の常識を変えるか
「軽量12Bが27B超えのパフォーマンス」その要因は? Google、Gemma 3ベースの翻訳モデル公開
Google検索の新機能「AIモード」 的確な回答を支える秘密は「クエリファンアウト技術」Copyright © ITmedia, Inc. All Rights Reserved.