Google、次世代AIモデル「Gemini 1.5」を発表　「10万行のソースコードから修正を提案するデモ」も公開：最大100万コンテキストウィンドウに対応

Googleは、同社の大規模言語モデル「Gemini」の次世代モデルである「Gemini 1.5」を発表した。

» 2024年03月09日 08時00分公開

[＠IT]

この記事は会員限定です。会員登録（無料）すると全てご覧いただけます。

　Googleは2024年2月15日（米国時間）、同社の大規模言語モデル（LLM）「Gemini」の次世代モデルである「Gemini 1.5」を発表した。

　Geminiは、テキスト／画像／音声／数値など複数の種類のデータ（モダリティ）を処理できるマルチモーダルAI（人工知能）モデル。Googleは、Gemini 1.5の初期テスト用モデルとして「Gemini 1.5 Pro」の提供を開始している。Gemini 1.5 Proは、12万8000トークンのコンテキストウィンドウを持つ中規模のマルチモーダルモデルだ。

　一部の開発者と顧客は「Generative AI Studio」「Vertex AI」を通じて、最大100万トークンのコンテキストウィンドウを持つ限定プレビュー版のGemini 1.5 Proを試すこともできる。Gemini 1.5では、より少ないコンピューティングでも、Gemini 1.0 Ultraと同等の品質を確保していると、Googleは述べている。

　Gemini 1.5の特徴は次の通り。

効率的なアーキテクチャ

　Gemini 1.5は、TransformerとMoE（Mixture of Experts）アーキテクチャに関する最先端の研究に基づいて構築されている。従来のTransformerが1つの大きなニューラルネットワークとして機能するのに対し、MoEモデルはより小さな「エキスパートニューラルネットワーク」に分割される。

　与えられた入力の種類に応じて、MoEモデルはニューラルネットワークの中で最も関連性の高いエキスパートニューラルネットワークのみを活性化するよう学習する。これにより、モデルの効率が大幅に向上するとしている。

より大きなコンテキストウィンドウ

　AIモデルのコンテキストウィンドウは、モデルが結果を出力するために参照、考慮する情報量を表す概念で、情報を処理するための構成要素であるトークンの量によって性能を測定される。トークンは、テキストの単語だけに限らない。マルチモーダルの場合、画像、動画、音声、またはコードの全体または一部のことを指す。モデルのコンテキストウィンドウが大きくなるほど、特定のプロンプトでより多くの情報を取り込んで処理できるようになり、出力の一貫性や関連性、有用性が高まる。Gemini 1.5 Proのコンテキストウィンドウの容量は、Gemini 1.0の当初の3万2000トークンよりも大幅に増加しており、最大で100万トークンを処理できる。

　これは、1時間のビデオ、11時間のオーディオ、3万行以上のコードベース、70万語以上の単語など、膨大な量の情報を一度に処理できることを意味する。Googleの研究によると、最大1000万トークンのテストにも成功しているという。

膨大な情報に対する複雑な推論

　Gemini 1.5 Proは、与えられたプロンプト内の大量のコンテンツをシームレスに分析、分類、要約できる。アポロ11号の月面着陸に関する402ページの記録が与えられたとき、ドキュメント全体に見られる会話、イベント、詳細を推論できる。

アポロ11号の月面着陸記録の推論のデモ（提供：Google）

モダリティ全体からの理解と推論の向上

　Gemini 1.5 Proは、動画を含むさまざまなデータに対して、高度に洗練された理解と推論のタスクを実行できる。バスター・キートン氏が監督・主演を務める44分の無声映画について、さまざまな筋書きや出来事を正確に分析できるだけでなく、見逃してしまうような小さなディテールも推論できる。

44分の無声映画に対する推論のデモ（提供：Google）

長いコードブロックからの問題解決

　Gemini 1.5 Proは、より長いコードブロックを使って、より関連性の高い問題解決タスクを実行できる。10万行以上のコード、コードのさまざまな部分がどのように機能するかについて、より適切に推論し、役に立つ修正を提案できる。

10万633行あるソースコードにおける問題解決の推論のデモ（提供：Google）

強化されたパフォーマンス

　Googleによると、Gemini 1.5 Proは、LLMの開発に使用されるベンチマークの87％で1.0 Proのパフォーマンスを上回った。同じベンチマークでGemini 1.0 Ultraと比較した場合、ほぼ同レベルの性能を示しているという。

　Gemini 1.5 Proは、コンテキストウィンドウが大きくなった場合でも高いレベルのパフォーマンスを維持する。長いテキストブロックの中に意図的に配置されている特定の事実や発言などの短いテキストを発見できるか試行するNIAH（Needle In A Haystack）ベンチマークの結果、Gemini 1.5 Proは、100万トークンもの長いデータブロックの中で、99％の確率で埋め込まれたテキストを発見できたと、Googleは述べている。

今後の展開

　Googleは、100万トークンコンテキストウィンドウのフル展開に備えて、待ち時間の改善、計算要件の削減、ユーザーエクスペリエンスの向上のための最適化に積極的に取り組んでいる。

　12万8000コンテキストウィンドウから、100万トークンまでスケールアップする料金プランも近日中に提供予定としている。

日本語版「Bard」でも「Gemini Pro」が利用可能に　要約、コーディング能力など向上
Googleは「Bard」日本語版で「Gemini Pro」が使用できるようになったことを発表した。また、Bardの英語版に画像生成機能を導入した。
マルチモーダルAI（Multimodal AI）とは？
用語「マルチモーダルAI」について説明。テキスト／画像／音声／数値など複数の種類のモダリティー（データ種別）を一度に処理できる統合されたAIモデルを指す。
生成AIが促進する職場の民主化
生成AIの急速な普及を受けて、企業でナレッジとスキルの民主化が大きく進みそうだ。ITリーダーは、生成AIの民主化効果を活用し、成長機会を創出しなければならない。同時に、これに伴う重大なリスクを軽減する必要がある。