検索
ニュース

AIモデル「Gemini 2.0」の「Multimodal Live API」でテキストや音声、動画を組み合わせたリアルタイム回答を可能にする仕組みとはアプリ開発例も動画で紹介

Googleは、「Google AI Studio」と「Gemini API」で利用できる「Gemini 2.0」の「Multimodal Live API」を公式ブログで紹介した。

Share
Tweet
LINE
Hatena

 Googleは2024年12月23日(米国時間)、「Google AI Studio」と「Gemini API」で利用できる「Gemini 2.0」の「Multimodal Live API」を公式ブログで紹介した。

 Gemini 2.0のMultimodal Live APIは、「ビジュアル入力を使ってテキストや音声で質問すると、コンテキストを認識してテキスト、音声、動画を組み合わせた回答がリアルタイムで返ってくる」といったAI(人工知能)インタラクションを可能にする。Googleは、このAPIにより、リアルタイムデータを利用して、周囲の世界に反応するアプリケーションを構築できると述べている。

Multimodal Live APIの仕組みと特徴 何ができる?

 Multimodal Live APIは、WebSocketを利用したステートフルAPIであり、低レイテンシのサーバ間通信を容易にする。関数呼び出し、コード実行、検索のグラウンディングなどのツールや、1つのリクエスト内での複数ツールの組み合わせをサポートし、1つのプロンプトに対する包括的な応答を可能にする。開発者はこのAPIを用いて、より効率的で複雑なAIインタラクションを作成できる。

 Multimodal Live APIの主な特徴は以下の通り。

  • 双方向ストリーミング:テキスト、音声、動画データの同時送受信を可能にする
  • 1秒未満のレイテンシ:最初のトークンを600ミリ秒で出力し、反応時間を人間の期待に合わせることで、シームレスな応答を実現する
  • 自然な音声会話:割り込みや音声行動検知など、人間のような音声のやりとりをサポートし、AIとのよりスムーズな対話を可能にする
  • 動画理解:動画入力を処理、理解する機能を提供し、音声と動画の両方のコンテキストを組み合わせて、より情報に基づいてニュアンスに富んだ応答を可能にする。このコンテキスト認識は、インタラクションに新たな豊かさをもたらす
  • ツールの統合:単一のAPI呼び出しでの複数ツールの統合を容易にし、APIの機能を拡張して、ユーザーに代わって複雑なタスクを解決するアクションを実行できるようにする
  • 選択可能な音声:さまざまな感情を伝えられる表現力の高い5種類の音声を選択できる。これにより、よりパーソナライズされた魅力的なユーザー体験を実現する

マルチモーダルライブストリーミングの活用

 Multimodal Live APIは、リアルタイムでインタラクティブなさまざまなアプリケーションを可能にする。Googleは、このAPIを効果的に適用できるユースケースの例として、以下を挙げている。

  • リアルタイム仮想アシスタント:ユーザーの画面を観察し、リアルタイムでユーザーに合ったアドバイスを提供し、探しているものがどこにあるかを教えてくれたり、ユーザーに代わってアクションを実行したりするアシスタント
  • 適応型教育ツール:Multimodal Live APIは、生徒の学習ペースに適応できる教育アプリケーションの開発をサポートする。例えば、生徒のリアルタイムの発音や理解度に基づいて練習問題の難易度を調整する言語学習アプリを作成できる

 さらにGoogleは、Multimodal Live APIを利用したアプリケーションのデモ動画も紹介している。

マイク、カメラ、画面入力をストリーミングするスターターWebアプリケーション(提供:Google)
Geminiと天気についてチャットできるアプリケーション。場所を選択し、その場所の天気についてGeminiベースのキャラクターから説明を受けられる。いつでも説明に割り込んで質問できる(提供:Google)

Copyright © ITmedia, Inc. All Rights Reserved.

ページトップに戻る