Google、最新のAIモデルファミリー「Gemini 2.0」を発表 AIコーディングエージェント「Jules」など最新の取り組みを紹介:Geminiアプリで「Gemini 2.0 Flash」試験運用版を提供開始
Googleは、エージェント時代に向けた最新のAIモデルファミリー「Gemini 2.0」を発表し、その最初のモデルの試験運用版リリースや、Gemini 2.0を用いたAIエージェントの研究開発など、関連する一連の取り組みも紹介した。
Googleは2024年12月11日(米国時間)、AI(人工知能)エージェント時代に向けた最新のAIモデルファミリー「Gemini 2.0」を発表し、試験運用版モデルのリリースや、Gemini 2.0を用いたAIエージェントの研究開発など、関連する一連の取り組みも紹介した。
Gemini 2.0は、ネイティブでの画像や音声の出力、ツールの使用といったマルチモーダルの新たな進歩により、「ユニバーサルアシスタント」というGoogleのビジョンに近づく新しいAIエージェントの構築を可能にするという。
Googleは、Google検索など各種製品へのGemini 2.0の実装を迅速に進めている。Google検索では、「AIによる概要」機能にGemini 2.0の高度な推論機能を導入する計画だ。
Googleは、Gemini 2.0に関する同社の取り組みについて、以下のように解説している。
- Gemini 2.0ファミリー最初のモデル「Gemini 2.0 Flash」の試験運用版リリース
- AIアシスタントの「Gemini」アプリでのGemini 2.0と新しい「Deep Research」機能の提供
- Gemini 2.0を利用したAIエージェントの研究開発の進展(研究プロトタイプ「Project Astra」のアップデート/新しい「Project Mariner」/開発者を支援するAIコーディングエージェント「Jules」)
- ゲームなど他の分野でのエージェント
Gemini 2.0 Flash(試験運用版)をリリース
Googleは、Gemini 2.0 Flashの試験運用版「Gemini 2.0 Flash Experimental」をリリースした。Gemini 2.0 Flashは、低レイテンシと性能強化を大規模に実現したGemini 2.0の主要モデルだ。以下のペンチマークテスト結果では、ほとんどの項目で既存の「Gemini 1.5 Flash」「Gemini 1.5 Pro」を上回っている。
Gemini 2.0 Flashは現在、「Google AI Studio」および「Vertex AI」のGemini APIを介して開発者向けの実験モデルとして提供されており、マルチモーダル入力とテキスト出力は全ての開発者に提供されている。また、早期アクセスパートナーはテキスト読み上げとネイティブ画像生成を利用できる。2025年1月には一般提供を開始し、モデルサイズも拡大する。
またGoogleは、開発者が動的でインタラクティブなアプリケーションを構築できるように、リアルタイムの音声、動画ストリーミング入力、複数のツールを組み合わせた機能を備えた新しい「Multimodal Live API」もリリースする。
AIアシスタントの「Gemini」アプリでのGemini 2.0と新しい「Deep Research」機能を公開
12月11日から、AIアシスタントの「Gemini」アプリのユーザーは、デスクトップとモバイルのドロップダウンメニューからモデルを選択して、チャットに最適化されたGemini 2.0 Flash Experimentalにアクセスできるようになった。この新モデルにより、ユーザーはより便利なGeminiアシスタントを体験できる。
また、Geminiアプリの上位版「Gemini Advanced」のユーザーは、新しい「Deep Research」機能も利用できるようになった。この機能は、高度な推論とロングコンテキスト能力を活用してリサーチアシスタントとして動作し、ユーザーに代わって複雑なトピックを探索して、レポートを作成する。
2025年初頭には、Gemini 2.0はより多くのGoogle製品で利用可能になる見込みだ。
Gemini 2.0を利用したAIエージェントの研究開発の進展
Gemini 2.0 Flashは、ネイティブなユーザーインタフェース操作機能と、マルチモーダル推論、ロングコンテキスト理解、複雑な指示への追従と計画、複合的な関数呼び出し、ネイティブなツール利用、レイテンシの改善による、新しいエージェント体験を実現する。
AIエージェントの実用化は、大きな可能性を秘めた研究分野であり、Googleは、人々のタスクを支援するさまざまなAIエージェントのプロトタイプを開発している。Gemini 2.0によるこの取り組みの進展例として、普遍的なAIアシスタントの将来の可能性を探る研究プロトタイプ「Project Astra」のアップデート、ブラウザを起点に人間とエージェントの相互作用の未来を探る新しい「Project Mariner」、開発者を支援するAIコーディングエージェント「Jules」を紹介した。
現実世界でマルチモーダル理解を実現するProject Astra
Gemini 2.0を基に構築されたProject Astraの最新バージョンでは、以下の点が改善されている。
- 対話の改善:複数の言語および混合言語での会話が可能になり、アクセントや珍しい単語の理解も向上した
- 新しいツールの利用:Google検索、Googleレンズ、Googleマップを利用できるようになり、日常生活におけるアシスタントとしての利便性が向上した
- 記憶力の強化:ユーザーが管理しながら記憶できる情報量が拡張された。セッション中は最大10分間の記憶保持が可能になり、過去の会話もより多く記憶することで、個々のユーザーに最適化された体験を提供する
- 応答速度の向上:新しいストリーミング機能とネイティブな音声理解により、人間同士の会話とほぼ遜色のない応答速度で言語を理解できるようになった
複雑なタスクを支援するProject Mariner
Project Marinerは、Gemini 2.0で構築された初期の研究プロトタイプで、ブラウザを起点に人間とエージェントのインタラクションの可能性を探求する。テキスト、コード、画像、フォームなどのピクセルやWeb要素を含むブラウザ画面上の情報を理解し、推論できる。さらに、試験運用版の「Google Chrome」向け拡張機能を介してその情報を使用し、ユーザーの代わりにタスクを完了する。
まだ初期段階の研究プロトタイプであり、現時点では精度やタスク完了速度に課題が残るものの、技術的にはブラウザ内を操作できる可能性を示している。これらの課題は今後改善されると見込まれる。
現在、一部のテスターは試験運用版のChrome拡張機能を使用してProject Marinerのテストを開始しており、Googleは並行してWebエコシステムとの対話を進めている。
コーディングを支援するJules
Googleは、AIエージェントによる開発支援の可能性を探る取り組みとして、GitHubのワークフローに直接統合された実験的なAIコーディングエージェント「Jules」の開発を進めている。Julesは、開発者の指示と監督の下、課題への取り組み、計画の策定、実行までを担うことができる。
ゲームなど他の分野でのエージェント
GoogleのAI研究部門であるGoogle DeepMindは、AIモデルがルールに従い、計画を立て、論理的に考える能力を高めるために、長年にわたりゲームを活用してきた。例えば、1枚の画像から無限に多様なプレイ可能な3D世界を生成するAIモデル「Genie 2」を2024年12月初めに発表した。この流れを受け、Gemini 2.0を用いて、ビデオゲームの仮想世界をナビゲートするエージェントも開発した。このエージェントは、画面上の動きのみに基づいてゲーム状況を把握し、次に取るべき行動をリアルタイムの会話で提案する。
これらのエージェントは、仮想ゲームコンパニオンとして機能するだけでなく、Google検索を利用して、Web上の豊富なゲーム知識とユーザーをつなげることもできる。
またGoogleは、仮想世界でのエージェント機能の探求に加え、Gemini 2.0の空間推論機能をロボット工学に適用することで、現実世界で役立つエージェントの実験も推進している。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
Google、Geminiで「Googleレンズ」や「AI Overview」を強化 撮影した動画に基づく検索や音声検索に対応
Googleは、検索専用にカスタマイズされた「Gemini」モデルを活用し、検索機能を強化したと発表した。Google、「Gemini 1.5 Pro」「Gemini 1.5 Flash」の新機能とオープンモデル「Gemma 2」を提供開始
Googleは、大規模言語モデル「Gemini 1.5 Pro」とGeminiファミリーの軽量モデル「Gemini 1.5 Flash」それぞれの新機能と最新オープンモデル「Gemma 2」を提供開始したと発表した。GoogleのLLM「Gemini 1.5 Pro」は最大100万トークンのロングコンテキストウィンドウに対応 どう役立つのか?
GoogleがリリースしたGemini 1.5の強みの一つに、ロングコンテキストウィンドウがある。Googleが実装したロングコンテキストウィンドウとは何か、そしてこの機能が開発者にどのように役立つのか。