GoogleのLLM「Gemini 1.5 Pro」は最大100万トークンのロングコンテキストウィンドウに対応　どう役立つのか？：ロングコンテキストウィンドウの持つ強み

GoogleがリリースしたGemini 1.5の強みの一つに、ロングコンテキストウィンドウがある。Googleが実装したロングコンテキストウィンドウとは何か、そしてこの機能が開発者にどのように役立つのか。

[＠IT] PC用表示関連情報

LINE

Hatena

　Googleが2024年2月に発表した大規模言語モデル（LLM）「Gemini 1.5」の強みの一つに、12万8000トークンのロングコンテキストウィンドウがある。コンテキストウインドウは、モデルが一度に処理できるトークン（単語、画像、動画の一部など、最小の構成要素）の数を示す。

　Googleは2024年2月16日（米国時間）、Gemini 1.5で実装したロングコンテキストウィンドウと、それが開発者にどう役立つのかを公式ブログで紹介した。

コンテキストウィンドウの重要性

　コンテキストウィンドウが重要なのは、AIモデルがセッション中に情報を思い出すのに役立つからだ。チャットbotが数ターン後に情報を「忘れる」ケースは多い。そのようなときにロングコンテキストウィンドウが役立つ。

　Geminiは以前のバージョンで一度に最大3万2000トークンを処理することができたが、「Gemini 1.5 Pro」では、最大100万トークンのコンテキストウィンドウを処理できる。Googleの研究では1000万トークンまでのテストに成功しているという。コンテキストウィンドウが長ければ長いほど、モデルはより多くのテキスト、画像、音声、コード、動画を取り込み、処理することができる。

コンテキストウィンドウの進化

　「私たちの当初の計画は、12万8000トークンを達成することだったが、私は野心的な目標を設定する方がよいと考え、100万トークンを提案した」と、ロングコンテキストプロジェクトの研究リーダーの一人である、Googleの研究者ニコライ・サヴィノフ氏は語る。「そして現在、われわれの研究はその目標の10倍を超えることができた」

　このような飛躍を遂げるために、チームはディープラーニングについてイノベーションを成し遂げる必要があったという。「あるブレークスルーが次のブレークスルーにつながり、その一つ一つが新たな可能性を切り開いた」とGoogleのエンジニア、デニス・テプリャシン氏は説明する。「そしてそれらが全て組み合わさったことで、12万8000トークン、51万2000トークン、100万トークンへ跳ね上がり、つい最近の内部研究では1000万トークンに達した」

ロングコンテキストウィンドウの実力

　Gemini 1.5 Proが一度に扱える生データの量が大幅に増加したことで、モデルと対話する新しい方法を実現できる。例えば、文書の要約は数十ページどころではなく、数千ページが可能になった。旧モデルでは数千行のコードを分析することができたが、Gemini 1.5 Proでは一度に数万行のコードを分析することができる。

　Google DeepMindの研究者であるマシェル・リード氏は「あるテストでは、コードベース全体をドロップすると、そのドキュメントを書いてくれた」と語る。「また別のテストでは、モデルに1924年の映画『キートンの探偵学入門』（45分）を「見る」ように指示した後、映画に関する質問に正確に答えることができた」という。

　Gemini 1.5 Proは、プロンプトで提供されたデータを横断して推論することもできる。「ここ数日で私が気に入った例の一つは、世界中で話者が200人以下しかおらず、文法書が1冊しかないカラマン語への翻訳だ」とマシェル氏は語る。「Gemini 1.5 Proの拡張ロングコンテキストウィンドウを使えば、文法書全体と幾つかの例文をコンテキストに入れることができる。その結果、Gemini 1.5 Proは、同じコンテンツから学習する人と同レベルで、英語からカラマン語への翻訳ができるようになった」

今後の展望

　Gemini 1.5 Proは12万8000トークンのコンテキストウィンドウを標準装備しているが、一部の開発者などは、「Generative AI Studio」と「Vertex AI」のプライベートプレビューを通じて、最大100万トークンのコンテキストウィンドウを試すことができる。

　今後もより高速で効率的なモデルの実現に取り組み続けるという。「1000万トークンは、既に私たちのTPU（Tensor Processing Units）の熱的限界に近づいている。限界がどこにあるのかはまだ分からないし、ハードウェアの改良が進めば、このモデルはさらに多くのことができるようになるかもしれない」とニコライ氏は語る。

GoogleのLLM「Gemini 1.5 Pro」は最大100万トークンのロングコンテキストウィンドウに対応　どう役立つのか？：ロングコンテキストウィンドウの持つ強み

コンテキストウィンドウの重要性

コンテキストウィンドウの進化

ロングコンテキストウィンドウの実力

今後の展望

関連記事

関連リンク

Smart & Social 記事ランキング

GoogleのLLM「Gemini 1.5 Pro」は最大100万トークンのロングコンテキストウィンドウに対応 どう役立つのか？：ロングコンテキストウィンドウの持つ強み

コンテキストウィンドウの重要性

コンテキストウィンドウの進化

ロングコンテキストウィンドウの実力

今後の展望

関連記事

関連リンク

Smart & Social 記事ランキング

GoogleのLLM「Gemini 1.5 Pro」は最大100万トークンのロングコンテキストウィンドウに対応　どう役立つのか？：ロングコンテキストウィンドウの持つ強み