Microsoft Research、LLMに与えるプロンプトを圧縮する「LLMLingua」を開発：コスト削減とパフォーマンス向上を実現

Microsoft Researchは、大規模言語モデルに与えるプロンプトを圧縮する手法として「LLMLingua」を開発した。

[＠IT] PC用表示関連情報

LINE

Hatena

　Microsoft Researchは2023年12月7日（米国時間）、大規模言語モデル（LLM）に与えるプロンプトを圧縮する手法である「LLMLingua」と、長いコンテキストのシナリオに対応したLLMLinguaである「LongLLMLingua」を開発した。

　LLMは優れた能力から、さまざまな分野に応用されている。だが、CoT（Chain-of-Thought：思考の連鎖）、ICL（In-Context Learning：コンテキスト内学習）、RAG（Retrieval-Augmented Generation：検索拡張生成）といった技術の進歩により、LLMに与えるプロンプトはますます長くなり、時には数万トークンを超えることもある。

　プロンプトが長くなると「APIレスポンスのレイテンシの増加」「コンテキストウィンドウの制限の超過」「コンテキスト情報の損失」「高額なAPI課金」「Lost in the middle（関連情報をプロンプトの中央に配置すると精度が著しく落ちる）」などコスト増やパフォーマンス低下といった問題が発生する。

　Microsoft Researchはこれらの問題に対処するため、プロンプトを圧縮するLLMのための言語を構築する一連の取り組みに乗り出し、LLMLinguaとLongLLMLinguaを開発した。

LLMLinguaとLongLLMLinguaの特徴

　LLMLinguaは以下のような特徴を持つ。

パフォーマンス低下をほとんど伴わずに、プロンプトを最大20分の1に圧縮する
プロンプトとLLMの出力の長さを同時に短縮し、API呼び出し時のコストを節約できる
LLMLinguaで圧縮されたプロンプトは、「ChatGPT」「GPT-4」「Claude」などのブラックボックスなLLMで直接使える
プロンプトを圧縮することで、より多くの情報を元のトークン長に含めることを可能にし、それによってモデルの性能を向上させる
LLMLinguaで生成、圧縮されたプロンプトは、LLMによって理解され、下流のタスクで元の能力を維持し、ICLや推論など、元のプロンプトの知識を保持できる。また、LLMは圧縮されたプロンプトから、重要情報を復元できる
これらの手法を利用するに当たって、LLMの再学習は不要である
KV（Key-Value）キャッシュの圧縮にも利用でき、推論を高速化する

　一方、LongLLMLinguaは、長いコンテキストのシナリオでLLMが直面する3つの主要な課題（高い計算／金銭的コスト、レイテンシの増加、パフォーマンス低下）への対処を目的としている。「LLMのパフォーマンスは、入力プロンプトにおける重要情報（質問に関連する情報）の密度と位置の両方に依存する」という先行研究の知見に触発され、LLMが重要情報を認識する能力を向上させるプロンプト圧縮手法として開発されている。

　LongLLMLinguaは幾つかのベンチマークで以下を達成した。

プロンプトを4分の1に圧縮し、パフォーマンスを17.1％向上させた
1000サンプル当たり27.4～28.5ドルのコスト削減を可能にした
1万トークンまでのプロンプトを2分の1～10分の1に圧縮すると、エンドツーエンドのレイテンシが1.4分の1～3.8分の1に短縮された

　LLMLinguaとLongLLMLinguaは、CoT、長いコンテキスト、RAGなど、幅広いシナリオに適用できる。

　Microsoft Researchは、LLMLinguaとLongLLMLinguaのプロジェクトページとGitHubリポジトリ（examplesフォルダ）で、RAG、オンラインミーティング、CoT、コード補完などに両者を適用した例を紹介している。

　LLMLinguaとLongLLMLinguaのコードは、GitHubリポジトリで公開されている。

Microsoft Research、LLMに与えるプロンプトを圧縮する「LLMLingua」を開発：コスト削減とパフォーマンス向上を実現

LLMLinguaとLongLLMLinguaの特徴

関連記事

関連リンク

Smart & Social 記事ランキング