Googleが新AIモデルのGeminiをリリースした。人の専門家を超える能力を備えると同社が主張するGeminiは、日本でもBardで使えるようになっている。実力はどうなのか。
この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。
Googleは2023年12月6日(米国時間)、新たな大規模言語モデル(LLM)「Gemini」をリリースした。「Geminiの時代へようこそ」という挑戦的なタグラインを掲げている。AIチャットボットサービスの「Bard」や「Pixel 8 Pro」に即日投入した。Google Cloudのサービスとしても提供される予定となっている。
GeminiはマルチモーダルなAIモデル。テキスト、静止画、動画、音声、コードなどを統合的に理解し、処理できる。Googleは「ネイティブに」マルチモーダルなモデルとして設計したとする。メディア別に学習させた結果を後からつなぎ合わせるのではなく、最初から複数メディアのデータを学習させたと説明している。
Geminiは人間の専門家を上回る能力を示したという。数学、物理学、歴史、法律、医学、倫理など57項目の組み合わせで知識と問題解決能力をテストする MMLU(大規模マルチタスク言語理解)というベンチマークで、専門家の89.8%を上回る90.00%のスコアを叩き出したという。
また、Googleはテキスト、マルチモーダルの各種生成AIベンチマークで、GPT-4よりも高いスコアを出したとしている。
発表された「Gemini 1.0」には「Ultra」「Pro」「Nano」の3つのサイズがある(それぞれのパラメータ数などは発表していない)。MMLUで専門家よりも高いスコアを示したのはUltra。ProでもMMLUをはじめとした幾つかのベンチマークで、「GPT-3.5」より高い数値を発揮したという。
Googleではプロダクト全般にGeminiを活用していく。
BardにはまずProを投入した。これは、「より高度な推論、要約、理解のためにファインチューニングを施したもの」という。2024年の初めには「Bard Advanced」と呼ぶ上位版サービスで、Ultraが使えるようになる。
Pixel 8 ProではNanoが使える。「レコーダー」の要約機能やGboardのスマートリプライ機能などに役立てられるという。 また、「Google Search」におけるSGE(Search Generative Experience)の高速化に、Geminiが試験的に使われている。「Google Ad」「Google Chrome」「Duet AI」への活用も考えられている。
GoogleはGemini Proで強化された最新版Bardを使い、目標に向かって最も「正確」に飛ぶ紙飛行機を科学系ユーチューバーが作るというビデオを紹介している。
Copyright © ITmedia, Inc. All Rights Reserved.