Microsoft Researchは、グラフベースのモジュラーRAGシステムである「GraphRAG」の正式版「GraphRAG 1.0」を公開した。
この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。
Microsoft Researchは2024年12月16日(米国時間)、グラフベースのモジュラーRAG(Retrieval-Augmented Generation:検索拡張生成)システムである「GraphRAG」の正式版「GraphRAG 1.0」をGitHubで公開した。
GraphRAGは、大規模言語モデル(LLM)を利用して、非構造化テキストから意味のある構造化データを抽出するように設計されたデータパイプラインおよび変換スイートであり、Pythonパッケージとして提供されている。また「Microsoft Azure」で使用するための
ソリューションアクセラレータパッケージもGitHubで公開されている。
RAGは、LLMの出力を向上させるために使用される。プライベートデータセット(LLMのトレーニングに使用されていない未知のデータ。企業の独自研究やビジネス文書、通信などを含む)の検索を、LLMによる応答生成に組み合わせる仕組みだ。ほとんどの場合、この情報検索にはベクトル検索が利用される。
だが、RAGには以下のような課題があり、Microsoft Researchはこれらの課題に対応する方法として、GraphRAGを開発した。
GraphRAGはLLMを利用して、任意のデータセットを解析してナレッジグラフを生成し、ユーザーからの質問に答える。ナレッジグラフによってデータの意味構造を明らかにし、大量の情報の中で情報と情報を結び付けることができ、これらの結び付きを利用して、キーワード検索やベクトル検索のメカニズムでは答えにくい、あるいは答えられない質問に答えることができる。
GraphRAGは、2024年7月にプレリリース版が公開され、以下のような改良を経て、GraphRAG 1.0がリリースされた。
initコマンドの追加により、シンプルな設定ファイルが利用できるようになった。最小限の初期設定であれば、GraphRAGの専門知識がなくても、OpenAIのAPIキーさえあれば、すぐにセットアップできる。
ほとんどのユーザーがGraphRAGの主要な操作モードとして、コマンドラインインタフェース(CLI)を使いたいと考えていることを踏まえ、CLIの機能と使いやすさが改善された。CLIの起動時間は平均148秒から2秒に短縮された。
操作を簡素化するために、スタンドアロンのAPIレイヤーが導入された。CLIとソリューションアクセラレータはAPIレイヤー上に構築されている。
データモデルが包括的な見直しによって簡素化され、関連出力が、重要でない中間出力ファイルと混同されやすいという問題が解消された。
GraphRAGパイプラインのアップデートにより、インデックス作成時にデフォルト(既定)のベクトルストアが作成されるようになった。これによってクエリの際の読み込み時間と使用メモリの節約が可能になった。データモデルの簡素化と相まって、ディスク使用量も削減された。
よりフラットで明確なコード構造を目指してコードベースが簡素化された。これにより、データ重複が減少し、ディスクI/O(Input/Output)が減少した他、パイプラインのインメモリフットプリントも削減され、GraphRAGでより大きなデータセットのインデックス作成や分析ができるようになった。
CLIに新しいupdateコマンドが追加された。このコマンドを使うと、データセットに新しいコンテンツが追加された場合、既存インデックスとの差分を計算し、インテリジェントに更新をマージすることで、インデックスの再作成が最小化される。
近い将来、「LazyGraphRAG」という新しいアプローチが、GraphRAGのコアコードベースにオプションとして追加される。LazyGraphRAGにより、ユーザーにとって興味のない大量のコンテンツを、LLMで要約することを避けることができる。これによって、GraphRAGの数分の1のコストで強力なパフォーマンスが得られることが期待されている。
Copyright © ITmedia, Inc. All Rights Reserved.