Googleは、エージェント時代に向けた最新のAIモデルファミリー「Gemini 2.0」を発表し、その最初のモデルの試験運用版リリースや、Gemini 2.0を用いたAIエージェントの研究開発など、関連する一連の取り組みも紹介した。
この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。
Googleは2024年12月11日(米国時間)、AI(人工知能)エージェント時代に向けた最新のAIモデルファミリー「Gemini 2.0」を発表し、試験運用版モデルのリリースや、Gemini 2.0を用いたAIエージェントの研究開発など、関連する一連の取り組みも紹介した。
Gemini 2.0は、ネイティブでの画像や音声の出力、ツールの使用といったマルチモーダルの新たな進歩により、「ユニバーサルアシスタント」というGoogleのビジョンに近づく新しいAIエージェントの構築を可能にするという。
Googleは、Google検索など各種製品へのGemini 2.0の実装を迅速に進めている。Google検索では、「AIによる概要」機能にGemini 2.0の高度な推論機能を導入する計画だ。
Googleは、Gemini 2.0に関する同社の取り組みについて、以下のように解説している。
Googleは、Gemini 2.0 Flashの試験運用版「Gemini 2.0 Flash Experimental」をリリースした。Gemini 2.0 Flashは、低レイテンシと性能強化を大規模に実現したGemini 2.0の主要モデルだ。以下のペンチマークテスト結果では、ほとんどの項目で既存の「Gemini 1.5 Flash」「Gemini 1.5 Pro」を上回っている。
Gemini 2.0 Flashは現在、「Google AI Studio」および「Vertex AI」のGemini APIを介して開発者向けの実験モデルとして提供されており、マルチモーダル入力とテキスト出力は全ての開発者に提供されている。また、早期アクセスパートナーはテキスト読み上げとネイティブ画像生成を利用できる。2025年1月には一般提供を開始し、モデルサイズも拡大する。
またGoogleは、開発者が動的でインタラクティブなアプリケーションを構築できるように、リアルタイムの音声、動画ストリーミング入力、複数のツールを組み合わせた機能を備えた新しい「Multimodal Live API」もリリースする。
12月11日から、AIアシスタントの「Gemini」アプリのユーザーは、デスクトップとモバイルのドロップダウンメニューからモデルを選択して、チャットに最適化されたGemini 2.0 Flash Experimentalにアクセスできるようになった。この新モデルにより、ユーザーはより便利なGeminiアシスタントを体験できる。
また、Geminiアプリの上位版「Gemini Advanced」のユーザーは、新しい「Deep Research」機能も利用できるようになった。この機能は、高度な推論とロングコンテキスト能力を活用してリサーチアシスタントとして動作し、ユーザーに代わって複雑なトピックを探索して、レポートを作成する。
2025年初頭には、Gemini 2.0はより多くのGoogle製品で利用可能になる見込みだ。
Gemini 2.0 Flashは、ネイティブなユーザーインタフェース操作機能と、マルチモーダル推論、ロングコンテキスト理解、複雑な指示への追従と計画、複合的な関数呼び出し、ネイティブなツール利用、レイテンシの改善による、新しいエージェント体験を実現する。
AIエージェントの実用化は、大きな可能性を秘めた研究分野であり、Googleは、人々のタスクを支援するさまざまなAIエージェントのプロトタイプを開発している。Gemini 2.0によるこの取り組みの進展例として、普遍的なAIアシスタントの将来の可能性を探る研究プロトタイプ「Project Astra」のアップデート、ブラウザを起点に人間とエージェントの相互作用の未来を探る新しい「Project Mariner」、開発者を支援するAIコーディングエージェント「Jules」を紹介した。
Gemini 2.0を基に構築されたProject Astraの最新バージョンでは、以下の点が改善されている。
Project Marinerは、Gemini 2.0で構築された初期の研究プロトタイプで、ブラウザを起点に人間とエージェントのインタラクションの可能性を探求する。テキスト、コード、画像、フォームなどのピクセルやWeb要素を含むブラウザ画面上の情報を理解し、推論できる。さらに、試験運用版の「Google Chrome」向け拡張機能を介してその情報を使用し、ユーザーの代わりにタスクを完了する。
まだ初期段階の研究プロトタイプであり、現時点では精度やタスク完了速度に課題が残るものの、技術的にはブラウザ内を操作できる可能性を示している。これらの課題は今後改善されると見込まれる。
現在、一部のテスターは試験運用版のChrome拡張機能を使用してProject Marinerのテストを開始しており、Googleは並行してWebエコシステムとの対話を進めている。
Googleは、AIエージェントによる開発支援の可能性を探る取り組みとして、GitHubのワークフローに直接統合された実験的なAIコーディングエージェント「Jules」の開発を進めている。Julesは、開発者の指示と監督の下、課題への取り組み、計画の策定、実行までを担うことができる。
GoogleのAI研究部門であるGoogle DeepMindは、AIモデルがルールに従い、計画を立て、論理的に考える能力を高めるために、長年にわたりゲームを活用してきた。例えば、1枚の画像から無限に多様なプレイ可能な3D世界を生成するAIモデル「Genie 2」を2024年12月初めに発表した。この流れを受け、Gemini 2.0を用いて、ビデオゲームの仮想世界をナビゲートするエージェントも開発した。このエージェントは、画面上の動きのみに基づいてゲーム状況を把握し、次に取るべき行動をリアルタイムの会話で提案する。
これらのエージェントは、仮想ゲームコンパニオンとして機能するだけでなく、Google検索を利用して、Web上の豊富なゲーム知識とユーザーをつなげることもできる。
またGoogleは、仮想世界でのエージェント機能の探求に加え、Gemini 2.0の空間推論機能をロボット工学に適用することで、現実世界で役立つエージェントの実験も推進している。
Copyright © ITmedia, Inc. All Rights Reserved.
Smart & Social 記事ランキング