Googleは、同社の大規模言語モデル「Gemini」の次世代モデルである「Gemini 1.5」を発表した。
この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。
Googleは2024年2月15日(米国時間)、同社の大規模言語モデル(LLM)「Gemini」の次世代モデルである「Gemini 1.5」を発表した。
Geminiは、テキスト/画像/音声/数値など複数の種類のデータ(モダリティ)を処理できるマルチモーダルAI(人工知能)モデル。Googleは、Gemini 1.5の初期テスト用モデルとして「Gemini 1.5 Pro」の提供を開始している。Gemini 1.5 Proは、12万8000トークンのコンテキストウィンドウを持つ中規模のマルチモーダルモデルだ。
一部の開発者と顧客は「Generative AI Studio」「Vertex AI」を通じて、最大100万トークンのコンテキストウィンドウを持つ限定プレビュー版のGemini 1.5 Proを試すこともできる。Gemini 1.5では、より少ないコンピューティングでも、Gemini 1.0 Ultraと同等の品質を確保していると、Googleは述べている。
Gemini 1.5の特徴は次の通り。
Gemini 1.5は、TransformerとMoE(Mixture of Experts)アーキテクチャに関する最先端の研究に基づいて構築されている。従来のTransformerが1つの大きなニューラルネットワークとして機能するのに対し、MoEモデルはより小さな「エキスパートニューラルネットワーク」に分割される。
与えられた入力の種類に応じて、MoEモデルはニューラルネットワークの中で最も関連性の高いエキスパートニューラルネットワークのみを活性化するよう学習する。これにより、モデルの効率が大幅に向上するとしている。
AIモデルのコンテキストウィンドウは、モデルが結果を出力するために参照、考慮する情報量を表す概念で、情報を処理するための構成要素であるトークンの量によって性能を測定される。トークンは、テキストの単語だけに限らない。マルチモーダルの場合、画像、動画、音声、またはコードの全体または一部のことを指す。モデルのコンテキストウィンドウが大きくなるほど、特定のプロンプトでより多くの情報を取り込んで処理できるようになり、出力の一貫性や関連性、有用性が高まる。Gemini 1.5 Proのコンテキストウィンドウの容量は、Gemini 1.0の当初の3万2000トークンよりも大幅に増加しており、最大で100万トークンを処理できる。
これは、1時間のビデオ、11時間のオーディオ、3万行以上のコードベース、70万語以上の単語など、膨大な量の情報を一度に処理できることを意味する。Googleの研究によると、最大1000万トークンのテストにも成功しているという。
Gemini 1.5 Proは、与えられたプロンプト内の大量のコンテンツをシームレスに分析、分類、要約できる。アポロ11号の月面着陸に関する402ページの記録が与えられたとき、ドキュメント全体に見られる会話、イベント、詳細を推論できる。
Gemini 1.5 Proは、動画を含むさまざまなデータに対して、高度に洗練された理解と推論のタスクを実行できる。バスター・キートン氏が監督・主演を務める44分の無声映画について、さまざまな筋書きや出来事を正確に分析できるだけでなく、見逃してしまうような小さなディテールも推論できる。
Gemini 1.5 Proは、より長いコードブロックを使って、より関連性の高い問題解決タスクを実行できる。10万行以上のコード、コードのさまざまな部分がどのように機能するかについて、より適切に推論し、役に立つ修正を提案できる。
Googleによると、Gemini 1.5 Proは、LLMの開発に使用されるベンチマークの87%で1.0 Proのパフォーマンスを上回った。同じベンチマークでGemini 1.0 Ultraと比較した場合、ほぼ同レベルの性能を示しているという。
Gemini 1.5 Proは、コンテキストウィンドウが大きくなった場合でも高いレベルのパフォーマンスを維持する。長いテキストブロックの中に意図的に配置されている特定の事実や発言などの短いテキストを発見できるか試行するNIAH(Needle In A Haystack)ベンチマークの結果、Gemini 1.5 Proは、100万トークンもの長いデータブロックの中で、99%の確率で埋め込まれたテキストを発見できたと、Googleは述べている。
Googleは、100万トークンコンテキストウィンドウのフル展開に備えて、待ち時間の改善、計算要件の削減、ユーザーエクスペリエンスの向上のための最適化に積極的に取り組んでいる。
12万8000コンテキストウィンドウから、100万トークンまでスケールアップする料金プランも近日中に提供予定としている。
Copyright © ITmedia, Inc. All Rights Reserved.