Microsoft、RAGの精度を強化する「GraphRAG」を正式リリース　正式版で何が変わった？：ナレッジグラフでデータの意味構造を理解し、ベクトル検索の課題を克服

Microsoft Researchは、グラフベースのモジュラーRAGシステムである「GraphRAG」の正式版「GraphRAG 1.0」を公開した。

» 2024年12月20日 08時00分公開

[＠IT]

この記事は会員限定です。会員登録（無料）すると全てご覧いただけます。

　Microsoft Researchは2024年12月16日（米国時間）、グラフベースのモジュラーRAG（Retrieval-Augmented Generation：検索拡張生成）システムである「GraphRAG」の正式版「GraphRAG 1.0」をGitHubで公開した。

　GraphRAGは、大規模言語モデル（LLM）を利用して、非構造化テキストから意味のある構造化データを抽出するように設計されたデータパイプラインおよび変換スイートであり、Pythonパッケージとして提供されている。また「Microsoft Azure」で使用するための

ソリューションアクセラレータパッケージもGitHubで公開されている。

RAGの精度をどう強化？　GraphRAG 1.0での改良点とは

　RAGは、LLMの出力を向上させるために使用される。プライベートデータセット（LLMのトレーニングに使用されていない未知のデータ。企業の独自研究やビジネス文書、通信などを含む）の検索を、LLMによる応答生成に組み合わせる仕組みだ。ほとんどの場合、この情報検索にはベクトル検索が利用される。

　だが、RAGには以下のような課題があり、Microsoft Researchはこれらの課題に対応する方法として、GraphRAGを開発した。

異なる情報の断片をたどる必要があるような質問に応答する際に苦労する
大規模データセットや単一の巨大ドキュメントに含まれる意味を総合的に理解する必要があるケースで、精度が落ちる

　GraphRAGはLLMを利用して、任意のデータセットを解析してナレッジグラフを生成し、ユーザーからの質問に答える。ナレッジグラフによってデータの意味構造を明らかにし、大量の情報の中で情報と情報を結び付けることができ、これらの結び付きを利用して、キーワード検索やベクトル検索のメカニズムでは答えにくい、あるいは答えられない質問に答えることができる。

　GraphRAGは、2024年7月にプレリリース版が公開され、以下のような改良を経て、GraphRAG 1.0がリリースされた。

新規プロジェクトのセットアップがより容易に

　initコマンドの追加により、シンプルな設定ファイルが利用できるようになった。最小限の初期設定であれば、GraphRAGの専門知識がなくても、OpenAIのAPIキーさえあれば、すぐにセットアップできる。

CLIの改善

　ほとんどのユーザーがGraphRAGの主要な操作モードとして、コマンドラインインタフェース（CLI）を使いたいと考えていることを踏まえ、CLIの機能と使いやすさが改善された。CLIの起動時間は平均148秒から2秒に短縮された。

APIレイヤーの導入

　操作を簡素化するために、スタンドアロンのAPIレイヤーが導入された。CLIとソリューションアクセラレータはAPIレイヤー上に構築されている。

データモデルの簡素化

　データモデルが包括的な見直しによって簡素化され、関連出力が、重要でない中間出力ファイルと混同されやすいという問題が解消された。

ベクトルストアの効率化

　GraphRAGパイプラインのアップデートにより、インデックス作成時にデフォルト（既定）のベクトルストアが作成されるようになった。これによってクエリの際の読み込み時間と使用メモリの節約が可能になった。データモデルの簡素化と相まって、ディスク使用量も削減された。

コードベースの簡素化

　よりフラットで明確なコード構造を目指してコードベースが簡素化された。これにより、データ重複が減少し、ディスクI/O（Input/Output）が減少した他、パイプラインのインメモリフットプリントも削減され、GraphRAGでより大きなデータセットのインデックス作成や分析ができるようになった。

差分取り込み

　CLIに新しいupdateコマンドが追加された。このコマンドを使うと、データセットに新しいコンテンツが追加された場合、既存インデックスとの差分を計算し、インテリジェントに更新をマージすることで、インデックスの再作成が最小化される。

今後の計画

　近い将来、「LazyGraphRAG」という新しいアプローチが、GraphRAGのコアコードベースにオプションとして追加される。LazyGraphRAGにより、ユーザーにとって興味のない大量のコンテンツを、LLMで要約することを避けることができる。これによって、GraphRAGの数分の1のコストで強力なパフォーマンスが得られることが期待されている。

Microsoft、LLMで注目の「RAG」の精度を向上させる「GraphRAG」をGitHubで公開
Microsoftは、RAGの精度を強化する「GraphRAG」と、Microsoft Azure上でGraphRAGを実行するためのソリューションアクセラレータリポジトリをGitHubで公開した。GraphRAGはMicrosoftが2024年2月に発表した新たなRAGのアプローチだ。
Microsoft、ベクトルデータベース「Pinecone」の活用を支援する「Pinecone .NET SDK」を発表
Microsoftは、ベクトルデータベース「Pinecone」を使ったAIアプリケーションを構築するためのSDKである「Pinecone .NET SDK」を発表した。
RAG（Retrieval-Augmented Generation：検索拡張生成）とは？
用語「RAG」について説明。ChatGPTなどのチャットAIに独自の情報源を付与する仕組みのことで、具体的には言語モデルによるテキスト生成に特定の情報源（ナレッジベース）の検索を組み合わせること。これには、生成内容の正確さを向上させるメリットがある。