Microsoftは、RAGの精度を強化する「GraphRAG」と、Microsoft Azure上でGraphRAGを実行するためのソリューションアクセラレータリポジトリをGitHubで公開した。GraphRAGはMicrosoftが2024年2月に発表した新たなRAGのアプローチだ。
この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。
Microsoft Researchは2024年7月2日(米国時間)、「RAG」(Retrieval-Augmented Generation:検索拡張生成)の精度を強化する「GraphRAG」と、Microsoft Azure上でGraphRAGを実行するためのソリューションアクセラレータリポジトリをGitHubで公開した。
GraphRAGは、Microsoftが2024年2月に発表した新たなRAGのアプローチだ。Microsoft Researchは、従来のRAGの問題点や、GraphRAGの特徴、RAGとGraphRAGの比較結果を次のように述べている。
LLMの最大の課題は、LLMの能力を「プライベートデータセット」(LLMのトレーニングに活用されていない未知のデータを指す。企業の独自研究やビジネス文書、通信などが含まれる)にも適用させることだ。
そこで注目されているのがRAGだ。LLMによる応答生成に情報の検索を組み合わせることで、前述した課題の解決を目指している。Microsoft Researchによると、RAGのアプローチのほとんどが情報の検索にベクトル検索を活用する一方で、下記のような課題があるという。
こうした背景の下、Microsoft Researchは、新しいアプローチとしてGraphRAGを実装した。
GraphRAGでは、LLMを使用して任意のデータセットに基づくナレッジグラフを生成する。ナレッジグラフが優れている点は、ユーザーのクエリに先立ってデータの意味構造を明らかにできる点にある。
高レベルのテーマから低レベルのトピックまで複数のレベルでグラフを分割し、階層的に密に接続されたノードの「コミュニティー」を検出する。各コミュニティーを要約するためにLLMを使用することで、データの階層的な概要が作成され、事前に質問を知る必要なくデータセットの概要を提供できるようになる。Microsoft Researchによると、各コミュニティーはエンティティ同士の関係性を示す「コミュニティーサマリー」の基礎として機能するという。
従来のベクトル検索が、質問に意味的に似ているテキストの断片から応答を生成するのに対し、全てのデータの意味を考慮して構築されたコミュニティーサマリーを活用することで、データセット全体の質問や、データセットの意味を問うような質問の応答生成にも役立つとしている。
Microsoft Researchは、LLMの「GPT-4」を用いて、2つのデータセット(ポッドキャストの書き起こしとニュース記事)の短い説明から質問群を生成し、従来のRAGとGraphRAGによる応答結果を、3つの観点で比較、評価した。
その結果、コミュニティーサマリーを使用するGraphRAGは包括性と多様性において従来のRAGを70〜80%の確率で上回ることが示された。また中間レベルおよび低レベルのコミュニティーサマリーを使用したGraphRAGは、より低いトークンコスト(クエリあたり20〜70%のトークン使用)で、従来のRAGよりも優れたパフォーマンスを示した。最上位レベルのコミュニティーサマリーは、従来のRAGと比較してトークンコストが大幅に低かった(クエリあたり2〜3%のトークン使用)。
Copyright © ITmedia, Inc. All Rights Reserved.