Googleは、「Google AI Studio」と「Gemini API」で利用できる「Gemini 2.0」の「Multimodal Live API」を公式ブログで紹介した。
この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。
Googleは2024年12月23日(米国時間)、「Google AI Studio」と「Gemini API」で利用できる「Gemini 2.0」の「Multimodal Live API」を公式ブログで紹介した。
Gemini 2.0のMultimodal Live APIは、「ビジュアル入力を使ってテキストや音声で質問すると、コンテキストを認識してテキスト、音声、動画を組み合わせた回答がリアルタイムで返ってくる」といったAI(人工知能)インタラクションを可能にする。Googleは、このAPIにより、リアルタイムデータを利用して、周囲の世界に反応するアプリケーションを構築できると述べている。
Multimodal Live APIは、WebSocketを利用したステートフルAPIであり、低レイテンシのサーバ間通信を容易にする。関数呼び出し、コード実行、検索のグラウンディングなどのツールや、1つのリクエスト内での複数ツールの組み合わせをサポートし、1つのプロンプトに対する包括的な応答を可能にする。開発者はこのAPIを用いて、より効率的で複雑なAIインタラクションを作成できる。
Multimodal Live APIの主な特徴は以下の通り。
Multimodal Live APIは、リアルタイムでインタラクティブなさまざまなアプリケーションを可能にする。Googleは、このAPIを効果的に適用できるユースケースの例として、以下を挙げている。
さらにGoogleは、Multimodal Live APIを利用したアプリケーションのデモ動画も紹介している。
Copyright © ITmedia, Inc. All Rights Reserved.