Googleは、複雑な問題に取り組むためのリーズニングモデル「Gemini 2.5」を発表した。最初のリリースとなる「Gemini 2.5 Pro Experimental」は、一般的なさまざまなベンチマークで最先端の性能を示しており、特にリーズニング能力とコーディング能力に優れているという。
この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。
Googleは2025年3月25日(米国時間)、「最もインテリジェントなAI(人工知能)モデル」をうたう「Gemini 2.5」を発表した。同日、Gemini 2.5モデルシリーズの最初のリリースとなる「Gemini 2.5 Pro」の試験運用版「Gemini 2.5 Pro Experimental」の提供を開始した。
同社は「リーズニング」について「AIの分野では単なる『分類』や『予測』以上の能力を指す。情報を分析して論理的な結論を導き出し、文脈やニュアンスを取り入れた、知識のある意思決定能力だ」と表現している。
Googleは長年、強化学習や思考連鎖プロンプトのような技術により、AIをより賢くし、リーズニング能力を高める方法を模索してきた。その取り組みに基づき最近では、リーズニングプロセスを生成する最初のモデル「Gemini 2.0 Flash Thinking」を発表している。
Gemini 2.5は、ネイティブのマルチモーダリティと長いコンテキストウィンドウという、Geminiモデルの長所をベースに開発されている。大幅な強化と事後トレーニングの改良により、新たなレベルのパフォーマンスを達成しているという。
Gemini 2.5 Proは、100万トークンのコンテキストウィンドウを備え、前世代よりも強力なパフォーマンスを発揮する。膨大なデータセットを理解し、テキスト、音声、画像、動画、さらにはコードリポジトリ全体など、さまざまな情報源からの情報に基づいて複雑な問題を処理できる。
Gemini 2.5 Pro Experimentalは、複雑なタスクのための先端モデルであり、人間の選好で評価されるLMArenaリーダーボードでは、かなりの差をつけて首位に立っている。下の表のように、一般的なコーディング、数学、科学のベンチマークでリードしており、強力なリーズニング能力とコーディング能力を示している。
Gemini 2.5 Pro Experimentalは「Google AI Studio」に加え、「Gemini Advanced」ユーザー向けのGeminiアプリで利用可能になっており、Google Cloudの「Vertex AI」でも近く提供開始される。数週間以内に料金が発表され、大規模な本番利用ができるように、利用上限も引き上げられる見込みだ。
Gemini 2.5 Pro Experimentalは上のグラフのように、高度なリーズニングを必要とするさまざまなベンチマークで先端レベルのパフォーマンスを示している。特に、何百人もの専門家で設計されたデータセットを使用し、リーズニングと知識がどれだけ人間に近づいているかを測るベンチマーク「Humanity's Last Exam」(人類最後の試験)では、ツールを使用しないモデルで18.8%のスコアを記録している。
Googleは、これらのベンチマーク結果から、リーズニングと知識(Humanity's Last Exam)、科学(GPQA)、数学(AIME 2025)に関する結果を取り上げて以下のようにグラフ化している。
Gemini 2.5 Proは、視覚的に説得力のあるWebアプリケーションやエージェントコードアプリケーションの作成に加え、コードの変換や編集に優れているという。エージェントコードを評価するベンチマークの業界標準である「SWE-Bench Verified」では、Gemini 2.5 Pro Experimentalはカスタムエージェントの構築で、上のグラフのように63.8%のスコアを記録している。
Googleは「今後、全てのモデルにリーズニング能力を直接組み込むことで、より複雑な問題に対処し、より有能でコンテキストを認識するエージェントをサポートする計画だ」と述べている。
Copyright © ITmedia, Inc. All Rights Reserved.
Smart & Social 記事ランキング