Google、「最もインテリジェントなAIモデル」をうたう「Gemini 2.5」を発表 試験運用版モデルを提供開始「Gemini 2.0 Flash Thinking」から大幅に進化したリーズニングモデル

Googleは、複雑な問題に取り組むためのリーズニングモデル「Gemini 2.5」を発表した。最初のリリースとなる「Gemini 2.5 Pro Experimental」は、一般的なさまざまなベンチマークで最先端の性能を示しており、特にリーズニング能力とコーディング能力に優れているという。

» 2025年03月28日 08時00分 公開
[@IT]

この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。

 Googleは2025年3月25日(米国時間)、「最もインテリジェントなAI(人工知能)モデル」をうたう「Gemini 2.5」を発表した。同日、Gemini 2.5モデルシリーズの最初のリリースとなる「Gemini 2.5 Pro」の試験運用版「Gemini 2.5 Pro Experimental」の提供を開始した。

 同社は「リーズニング」について「AIの分野では単なる『分類』や『予測』以上の能力を指す。情報を分析して論理的な結論を導き出し、文脈やニュアンスを取り入れた、知識のある意思決定能力だ」と表現している。

 Googleは長年、強化学習や思考連鎖プロンプトのような技術により、AIをより賢くし、リーズニング能力を高める方法を模索してきた。その取り組みに基づき最近では、リーズニングプロセスを生成する最初のモデル「Gemini 2.0 Flash Thinking」を発表している。

 Gemini 2.5は、ネイティブのマルチモーダリティと長いコンテキストウィンドウという、Geminiモデルの長所をベースに開発されている。大幅な強化と事後トレーニングの改良により、新たなレベルのパフォーマンスを達成しているという。

Gemini 2.5 Proの特徴 試験運用版モデルはどのプラットフォームで利用できるのか

 Gemini 2.5 Proは、100万トークンのコンテキストウィンドウを備え、前世代よりも強力なパフォーマンスを発揮する。膨大なデータセットを理解し、テキスト、音声、画像、動画、さらにはコードリポジトリ全体など、さまざまな情報源からの情報に基づいて複雑な問題を処理できる。

 Gemini 2.5 Pro Experimentalは、複雑なタスクのための先端モデルであり、人間の選好で評価されるLMArenaリーダーボードでは、かなりの差をつけて首位に立っている。下の表のように、一般的なコーディング、数学、科学のベンチマークでリードしており、強力なリーズニング能力とコーディング能力を示している。

 Gemini 2.5 Pro Experimentalは「Google AI Studio」に加え、「Gemini Advanced」ユーザー向けのGeminiアプリで利用可能になっており、Google Cloudの「Vertex AI」でも近く提供開始される。数週間以内に料金が発表され、大規模な本番利用ができるように、利用上限も引き上げられる見込みだ。

Gemini 2.5 Pro Experimentalと競合モデルのベンチマーク比較結果(提供:Google) Gemini 2.5 Pro Experimentalと競合モデルのベンチマーク比較結果(提供:Google)

強化されたリーズニング

 Gemini 2.5 Pro Experimentalは上のグラフのように、高度なリーズニングを必要とするさまざまなベンチマークで先端レベルのパフォーマンスを示している。特に、何百人もの専門家で設計されたデータセットを使用し、リーズニングと知識がどれだけ人間に近づいているかを測るベンチマーク「Humanity's Last Exam」(人類最後の試験)では、ツールを使用しないモデルで18.8%のスコアを記録している。

 Googleは、これらのベンチマーク結果から、リーズニングと知識(Humanity's Last Exam)、科学(GPQA)、数学(AIME 2025)に関する結果を取り上げて以下のようにグラフ化している。

リーズニングと知識、科学、数学に関するGemini 2.5 Pro Experimentalと競合モデルのベンチマーク比較結果(提供:Google) リーズニングと知識、科学、数学に関するGemini 2.5 Pro Experimentalと競合モデルのベンチマーク比較結果(提供:Google)

高度なコーディング

 Gemini 2.5 Proは、視覚的に説得力のあるWebアプリケーションやエージェントコードアプリケーションの作成に加え、コードの変換や編集に優れているという。エージェントコードを評価するベンチマークの業界標準である「SWE-Bench Verified」では、Gemini 2.5 Pro Experimentalはカスタムエージェントの構築で、上のグラフのように63.8%のスコアを記録している。

Gemini 2.5 Proがリーズニング能力を使って、1行のプロンプトから実行可能なコードを生成し、ビデオゲームを作成するデモ動画(提供:Google)

 Googleは「今後、全てのモデルにリーズニング能力を直接組み込むことで、より複雑な問題に対処し、より有能でコンテキストを認識するエージェントをサポートする計画だ」と述べている。

Copyright © ITmedia, Inc. All Rights Reserved.

スポンサーからのお知らせPR

Smart & Social 記事ランキング

本日月間

注目のテーマ

4AI by @IT - AIを作り、動かし、守り、生かす
Microsoft & Windows最前線2025
AI for エンジニアリング
ローコード/ノーコード セントラル by @IT - ITエンジニアがビジネスの中心で活躍する組織へ
Cloud Native Central by @IT - スケーラブルな能力を組織に
システム開発ノウハウ 【発注ナビ】PR
あなたにおすすめの記事PR

RSSについて

アイティメディアIDについて

メールマガジン登録

@ITのメールマガジンは、 もちろん、すべて無料です。ぜひメールマガジンをご購読ください。