Googleが新AIモデルのGeminiをリリースした。人の専門家を超える能力を備えると同社が主張するGeminiは、日本でもBardで使えるようになっている。実力はどうなのか。
この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。
Googleは2023年12月6日(米国時間)、新たな大規模言語モデル(LLM)「Gemini」をリリースした。「Geminiの時代へようこそ」という挑戦的なタグラインを掲げている。AIチャットボットサービスの「Bard」や「Pixel 8 Pro」に即日投入した。Google Cloudのサービスとしても提供される予定となっている。
GeminiはマルチモーダルなAIモデル。テキスト、静止画、動画、音声、コードなどを統合的に理解し、処理できる。Googleは「ネイティブに」マルチモーダルなモデルとして設計したとする。メディア別に学習させた結果を後からつなぎ合わせるのではなく、最初から複数メディアのデータを学習させたと説明している。
Geminiは人間の専門家を上回る能力を示したという。数学、物理学、歴史、法律、医学、倫理など57項目の組み合わせで知識と問題解決能力をテストする MMLU(大規模マルチタスク言語理解)というベンチマークで、専門家の89.8%を上回る90.00%のスコアを叩き出したという。
また、Googleはテキスト、マルチモーダルの各種生成AIベンチマークで、GPT-4よりも高いスコアを出したとしている。
発表された「Gemini 1.0」には「Ultra」「Pro」「Nano」の3つのサイズがある(それぞれのパラメータ数などは発表していない)。MMLUで専門家よりも高いスコアを示したのはUltra。ProでもMMLUをはじめとした幾つかのベンチマークで、「GPT-3.5」より高い数値を発揮したという。
Googleではプロダクト全般にGeminiを活用していく。
BardにはまずProを投入した。これは、「より高度な推論、要約、理解のためにファインチューニングを施したもの」という。2024年の初めには「Bard Advanced」と呼ぶ上位版サービスで、Ultraが使えるようになる。
Pixel 8 ProではNanoが使える。「レコーダー」の要約機能やGboardのスマートリプライ機能などに役立てられるという。 また、「Google Search」におけるSGE(Search Generative Experience)の高速化に、Geminiが試験的に使われている。「Google Ad」「Google Chrome」「Duet AI」への活用も考えられている。
GoogleはGemini Proで強化された最新版Bardを使い、目標に向かって最も「正確」に飛ぶ紙飛行機を科学系ユーチューバーが作るというビデオを紹介している。
Bardはまず、よくある紙飛行機の3種類の形を示す。次に「正確さ」の定義とテスト方法を「打ち合わせ」する。そしてユーチューバーが折った3種類の形の紙飛行機の画像をアップロードすると、最も正確さが期待できるものを選んでくれる。さらにこの形でユーチューバーが折った紙飛行機の画像を見て「翼をもっと大きくしろ」など、設計最適化のためのアドバイスをする。最後には、ビデオのフィナーレにふさわしいドラマチックなテストの演出も提案してくれるといった具合だ。
特に、次の設計最適化のアドバイスをする場面では、「折りが甘い」「この紙では軽すぎる」といった指摘までしている。紙飛行機の画像を空気力学的に分析しているのだろうか。
また、Bardで今すぐにできるかどうかは別として、Geminiの可能性を示すさまざまな動画もアップされている。
この場面では、人が紙の玉と3つのコップをテーブルに置くと、「どのコップの下に紙の玉があるかを当てさせようとしているんだね。やってみるよ」と自発的に話し、シャッフルの後実際に当てている。
こちらでは、アヒルの絵とクマの絵、ラバーダックを置き、人が「ダックはどっちの道を進むべき?」と聞くだけで、「左に行けばアヒルにたどり着く。アヒルは味方だ。右に行けばクマにたどり着く。クマは敵だ。敵より味方の方がいい。だから左に行くべきだ」と話している。
この場面では、一筆書きクイズの絵を見せただけで、「カニの絵」と当てている。
これは、2つの画像から映画名を当てるクイズだ。「ティファニーで朝食を」だと的確に当ている。
Gemini Pro版Bardは、既に日本で利用可能となっている。ただし英語版のみだ。Googleアカウントを英語に設定してBardにアクセスすれば、利用できることが確認できる。
Copyright © ITmedia, Inc. All Rights Reserved.