GoogleのLLM「Gemini 1.5 Pro」は最大100万トークンのロングコンテキストウィンドウに対応 どう役立つのか?:ロングコンテキストウィンドウの持つ強み
GoogleがリリースしたGemini 1.5の強みの一つに、ロングコンテキストウィンドウがある。Googleが実装したロングコンテキストウィンドウとは何か、そしてこの機能が開発者にどのように役立つのか。
Googleが2024年2月に発表した大規模言語モデル(LLM)「Gemini 1.5」の強みの一つに、12万8000トークンのロングコンテキストウィンドウがある。コンテキストウインドウは、モデルが一度に処理できるトークン(単語、画像、動画の一部など、最小の構成要素)の数を示す。
Googleは2024年2月16日(米国時間)、Gemini 1.5で実装したロングコンテキストウィンドウと、それが開発者にどう役立つのかを公式ブログで紹介した。
コンテキストウィンドウの重要性
コンテキストウィンドウが重要なのは、AIモデルがセッション中に情報を思い出すのに役立つからだ。チャットbotが数ターン後に情報を「忘れる」ケースは多い。そのようなときにロングコンテキストウィンドウが役立つ。
Geminiは以前のバージョンで一度に最大3万2000トークンを処理することができたが、「Gemini 1.5 Pro」では、最大100万トークンのコンテキストウィンドウを処理できる。Googleの研究では1000万トークンまでのテストに成功しているという。コンテキストウィンドウが長ければ長いほど、モデルはより多くのテキスト、画像、音声、コード、動画を取り込み、処理することができる。
コンテキストウィンドウの進化
「私たちの当初の計画は、12万8000トークンを達成することだったが、私は野心的な目標を設定する方がよいと考え、100万トークンを提案した」と、ロングコンテキストプロジェクトの研究リーダーの一人である、Googleの研究者ニコライ・サヴィノフ氏は語る。「そして現在、われわれの研究はその目標の10倍を超えることができた」
このような飛躍を遂げるために、チームはディープラーニングについてイノベーションを成し遂げる必要があったという。「あるブレークスルーが次のブレークスルーにつながり、その一つ一つが新たな可能性を切り開いた」とGoogleのエンジニア、デニス・テプリャシン氏は説明する。「そしてそれらが全て組み合わさったことで、12万8000トークン、51万2000トークン、100万トークンへ跳ね上がり、つい最近の内部研究では1000万トークンに達した」
ロングコンテキストウィンドウの実力
Gemini 1.5 Proが一度に扱える生データの量が大幅に増加したことで、モデルと対話する新しい方法を実現できる。例えば、文書の要約は数十ページどころではなく、数千ページが可能になった。旧モデルでは数千行のコードを分析することができたが、Gemini 1.5 Proでは一度に数万行のコードを分析することができる。
Google DeepMindの研究者であるマシェル・リード氏は「あるテストでは、コードベース全体をドロップすると、そのドキュメントを書いてくれた」と語る。「また別のテストでは、モデルに1924年の映画『キートンの探偵学入門』(45分)を「見る」ように指示した後、映画に関する質問に正確に答えることができた」という。
Gemini 1.5 Proは、プロンプトで提供されたデータを横断して推論することもできる。「ここ数日で私が気に入った例の一つは、世界中で話者が200人以下しかおらず、文法書が1冊しかないカラマン語への翻訳だ」とマシェル氏は語る。「Gemini 1.5 Proの拡張ロングコンテキストウィンドウを使えば、文法書全体と幾つかの例文をコンテキストに入れることができる。その結果、Gemini 1.5 Proは、同じコンテンツから学習する人と同レベルで、英語からカラマン語への翻訳ができるようになった」
今後の展望
Gemini 1.5 Proは12万8000トークンのコンテキストウィンドウを標準装備しているが、一部の開発者などは、「Generative AI Studio」と「Vertex AI」のプライベートプレビューを通じて、最大100万トークンのコンテキストウィンドウを試すことができる。
今後もより高速で効率的なモデルの実現に取り組み続けるという。「1000万トークンは、既に私たちのTPU(Tensor Processing Units)の熱的限界に近づいている。限界がどこにあるのかはまだ分からないし、ハードウェアの改良が進めば、このモデルはさらに多くのことができるようになるかもしれない」とニコライ氏は語る。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
- Google、次世代AIモデル「Gemini 1.5」を発表 「10万行のソースコードから修正を提案するデモ」も公開
Googleは、同社の大規模言語モデル「Gemini」の次世代モデルである「Gemini 1.5」を発表した。 - Google、商用利用可能な軽量オープンAIモデル「Gemma」を公開
Googleは、大規模言語モデル「Gemma」を提供開始した。「Gemini」と同じ研究と技術に基づく軽量のオープンモデルファミリーだ。 - 大規模言語モデル(LLM:Large Language Model)とは?
用語「大規模言語モデル」について説明。大量のテキストデータを使ってトレーニングされた自然言語処理のモデルのことを指す。