TechTargetは「Google Gemini AI アップデート」に関する記事を公開した。LLMの性能競争が激しくなる中、生成AIアプリの開発者や利用者にとって本当に必要な性能や機能とは何か? 「Google I/O 2024」の基調講演を通じて探る。
この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。
TechTargetは2024年5月14日(米国時間)、「Google Gemini AI アップデート」に関する記事を公開した。Googleは2024年6月に、大規模言語モデル(LLM)の「Gemini」アップデートと、「Google AI Studio」「Vertex AI」の新しい機能をリリースする。このアップデートと新機能の目的は、既存のバージョンよりも効率を高めて高度なアプリケーションワークフローをサポートすることだ。
2024年6月に一般提供開始予定のGoogle Gemini 1.5 Pro(以下、Gemini 1.5 Pro)は、全世界200カ国でGoogleのさまざまなコンシューマーサービスやデベロッパーサービスでのプレビュー公開が予定されている。2024年5月上旬に開催されたGoogleのデベロッパー向けイベントGoogle I/O 2024の基調講演で同社関係者が明らかにしたところによると、Gemini 1.5 Proは一般提供開始時点で最大100万トークンのコンテキストウィンドウをサポートするという。なお、2024年2月の発表では、Gemini 1.5 Proがサポートするのは12万8000トークンで、100万トークンのサポートは実験段階だった。
コンテキストウィンドウとは、LLMが一度に処理できるテキスト、音声、動画のデータ量を示す。トークン数100万は、ビデオなら約1時間、オーディオなら11時間、コードなら30万行、単語なら75万語に相当する。
Googleはさらに、最大200万トークンのサポートを計画しており、2024年後半にプレビュー版を提供開始する予定だ。GoogleのデベロッパーツールであるGoogle AI StudioやVertex AIのユーザーは、このプレビュー版の待機リストへの登録ができる。
さまざまなプロジェクトでVertex AIを利用している、Pantheonのデビッド・ストラウス氏(Pantheon共同設立者 最高技術責任者<CTO>)は次のように語る。
「コンテキストウィンドウは、AI(人工知能)の作業用メモリのようなものだ。コンテキストウィンドウを大きくすることで、コンテキストに依存する高度なタスクにどの程度役立つかはまだ不明だが、コンテキストウィンドウの拡大によって、完全なトレーニングやファインチューニングをすることなしでAIで処理できるタスクが増えるだろう」
2023年から2024年にかけて、LLMの大手ベンダーはモデルの属性(精度や処理性能、応答速度など)向上競争を繰り広げている。こう語るのは、Verint Systemでチーフサイエンティストを務めるイアン・ビーバー氏だ。
同氏は3つの例を挙げる。Anthropicが2024年3月にリリースした「Claude 3 Opus」は、LLMベンチマークでOpenAIの「GPT-4」を上回った。2024年4月、Metaは自社の「Llama 3」がGemini 1.5 Proのプレビュー版をベンチマークパフォーマンスの点で上回ったことを誇らしげに発表している。2024年5月にはOpenAIが「GPT-4o」と「ChatGPT」のアップデートを発表し、マルチモーダル(テキスト、オーディオ、画像)の入力をサポートし、ベンチマークの点でLlama 3とGemini 1.5 Proの双方を上回ることを明らかにしている。
ビーバー氏によると、いずれのモデルも全て入力トークン数の上限を大きく向上させている。GPT-4は1万6000トークンから12万8000トークンへ、Claudeは10万トークンから20万トークンへ、Geminiは3万2000トークンから100万トークンへと引き上げている。
コンテキストウィンドウの拡大は、ビデオの編集や生成などのアプリケーションにおいて役立つ可能性がある。しかし、「100万トークンがどれほど有用なのかははっきりしない」とビーバー氏は語る。
「例えば、書籍『戦争と平和』の全文を快適に送り込めれば、長編小説のレビューを生成するのに役立つかもしれない。しかし、100万トークンという“巨大な検索空間”で、複雑なコンテキストに含まれるデータの依存関係をモデルが効果的に扱えるかどうかは未知数だ。私の経験上、トークン数が10万を超えてもモデルの応答品質には大きな影響が見られないことが多い。これは、LLMの処理前にデータクエリや検索のような選択プロセスが介入するからだ」(ビーバー氏)
Enterprise Management Associatesのトルステン・フォルク氏(アナリスト)は2024年5月のブログ記事で「コンテキストウィンドウは大きければ大きいほどよい、とは限らない」と記している。
「Gemini 1.5 Proが提供する100万トークンのコンテキストウィンドウは印象的で、膨大な量のデータを処理する上で理論上メリットがある。だが、GPT-4のような言語モデルの実用的な効果は、その洗練度の高いメカニズムによってそのメリットを上回ることが多い。そうしたメカニズムを使うサービスは最も関連性の高い情報にコンピューティングリソースを集中することで、小さなコンテキストウィンドウを効果的に管理し、高いパフォーマンスを引き出している」とフォルク氏はブログ記事に記している。
Googleは2024年5月、Google AI StudioやVertex AIの他、「Google Gemini API」などをアップデートしている。これらのアップデートでは特に開発者向けの新機能が追加されている。フォルク氏によると、新機能の一つである「コンテキストキャッシュ」はコンテキストウィンドウの拡大そのものよりも効果が高い可能性がある。この機能は、大きなデータセットを繰り返し送信する必要をなくし、モデルのトレーニングとプロンプト処理の効率を高める手段としてGoogleが提示しており、大規模ドキュメントセットに対してクエリを繰り返す際に役立つという。
「偶然だがOpenAIも、GPT-4oに会話全体にまたがるコンテキストキャッシュを実装したと発表している」と、フォルク氏はGoogle I/O 2024の開催前日に開催されたOpenAIのニュースイベントに言及している。
もう1つの開発者向けアップデートはGeminiの「並列関数呼び出し」だ。この機能によって、LLMは一度に複数の関数を呼び出すことができる。これは、「複数ステップのワークフローを実行できるAIエージェントを導入する」という新たなトレンドにつながる可能性がある。2024年5月、GoogleのVertex AIには「Agent Builder」ツールが追加され、Atlassianの「Atlassian Rovo」にもAIエージェント(同社は「バーチャルチームメイト」と定義)のサポートを追加している。
2024年5月上旬にリリースされたGeminiの新バージョン「Gemini 1.5 Flash」には、Gemini 1.5 Pro相当のデータ分析機能が備わっている。「蒸留」(distillation)と呼ばれる技法を用いることで、データ分析機能を大規模バージョンよりも迅速に回答できるよう最適化し、軽量かつ低コストのLLMに組み込むことに成功している。
Gemini 1.5 Flashは、Google AI StudioやVertex AI向けに新たな従量制課金の価格が追加されている。価格設定は、100万トークン当たり0.35ドル(最大12万8000トークンまでのプロンプト)と、100万トークン当たり0.70ドル(12万8000トークンを超えるプロンプト)の2つだ。一方、Gemini 1.5 Proの価格は、100万トークン当たり3.50ドル(最大12万8000トークンまでのプロンプト)と100万トークン当たり7.00ドル(12万8000トークンを超えるプロンプト)に設定されている。
ホステッドサービス型LLMの早期導入者の多くが、こうしたクラウドコストの管理に悩んでいるという。
「当社(Pantheon)は、コストが問題になるほどの規模でVertex AIを使っていないが、Vertex AI製品の価格は公共料金のように捉えている。つまり、顧客別に切り分けてプロビジョニングし、実際の使用量に応じて料金を支払うことができるので、私は気に入っている」(ストラウス氏)
急成長するオープンソースAIの分野では、Googleは2つのタイプの新しい「Gemma」を展開している。1つは270億のパラメーター数を誇る「Gemma 2」で、オープンソースLLMのサイズを大幅に増やす。もう1つはGoogle初のオープン視覚言語モデル(VLM:Vision-Language Model)の「PaliGemma」で、動画生成用にファインチューニングされるモデルが追加されている。
Verint Systemsのビーバー氏によると、大手のモデルベンダーは、パフォーマンスベンチマークやトークン入力数の上限の点で競うだけでなく、「自社主力モデルの価格低減」や「高速バージョンの提供」でも競っている。
「これまでは最も大きく最もコストがかかるモデルで実行する必要があったことが、今では費用対効果が高い小型モデルで実行可能になっている。AIの覇権争いにより、パフォーマンスの高いLLMの参入コストも急速に下がっている。生成AIのアプリケーションをデプロイするコストも下落する一方だ」(ストラウス氏)
ビーバー氏は、広範なモデルのマルチモーダルサポートによって、さまざまな種類のメディアコンテンツを生成するコストも下がっていくと予測している。
マルチモーダルに対応したGeminiモデルは、テキストだけでなく、画像やビデオなどのさまざまな形式のデータを処理し、複数の形式で出力できる。だが、まだ実用化レベルで活用できる状態ではないようだ。
Google I/O 2024の基調講演で、Googleリサーチ部門のシニアディレクターを務めるダグラス・エック氏が、画像生成ツール「Google Imagen」の最新バージョンを「一から作り直す」作業に取り組んでいると語った。これは、2024年2月に同ツールの使用が一時停止に追い込まれた論争を受けての対応だという。「Google Imagen 3」は、Googleの「ImageFX AI Test Kitchen」で試験利用できる。近日中にVertex AIでも利用可能になる予定だ。Google I/O 2024の基調講演での情報によると、本当の意味でのマルチモーダル機能は2024年後半には広く利用可能になる見込みのようだ。
Googleは、AIの信頼性と安全性に対する新たな物議を醸すことのないようにしている。レッドチームによるモデルのアップデート、複数の研究分野の専門家集団によるコンサルティング、Google傘下のDeepMindの「SynthID」という電子透かしツールなど、Googleが行っている取り組みを、基調講演に登壇した複数の関係者が強調している。
しかし、Red Hatの「Ansible Lightspeed」をはじめとする生成AIツールは、現時点では企業にそれほど導入されていない。これは、本番環境での生成AIの使用に企業は熱心に取り組んでいないことを示している。ストラウス氏によると、Pantheonが取り組んだVertex AIの初期プロジェクトでは成否さまざまな結果が出たという。その原因として「データセットが正しく統合されていなかったこと」を挙げる。
「Pantheonは、作成済みのコンテンツにタグを付けるためのレコメンデーション機能や検索システムのプロトタイプにVertex AIを使用している。レコメンデーション機能は現在も積極的に運用されている。検索システムでもある程度の成果が得られているが、本当の意味でテストするには統合にもっと力を入れる必要があるだろう」(ストラウス氏)
Copyright © ITmedia, Inc. All Rights Reserved.