「RAGの検索精度を上げる」データ変換サービスをNTT Comが発表

NTT Comが、非構造化データを構造化データに変換するサービスを発表した。複雑な構成/構造を解釈したデータ表現をすることで、RAGにおける検索の精度を向上できるという。

» 2025年02月21日 15時52分 公開
[三木泉@IT]

この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。

 NTTコミュニケーションズ(NTT Com)は2025年2月19日、RAG(検索拡張生成)の精度を上げられるとして、データ変換サービス「rokadoc」を発表した。同日にパブリックβ版の提供を開始しており、個人でも試せる。

複雑になりがちな表を
構造的に表現

 「社内データを生かした生成AI(人工知能)の活用に取り組んでいるが、LLM(大規模言語モデル)から期待した回答を得られない」という声はよく聞かれる。その原因の一つとしてNTT Comは今回、「非構造化ドキュメントの検索精度が上がらない」という問題に着目したという。

 新サービスrokadocでは、非構造化ドキュメント(Word、PowerPoint、Excel、PDFに対応)を構造化データに変換する。

 「特に日本では、資料に図や表が埋め込まれ、緻密な構成になっていることが多い。表はセルのマージにより複雑化している」(NTT Com)

 rokadocでは図や表を含めた構成/構造を解釈し、JSON形式に変換して、検索をしやすくする。表についてはHTMLで表現し、JSONのValueとして埋め込む形となっている。グラフィックについても、自動的に自然言語で説明を加える。

ポンチ絵などのグラフィックを
説明する文を追加

 このサービスを企業が使う場合、NTT Comのクラウドストレージに対象データを移動/複製する必要がある。データの一括送信については、rokadocのAPIをたたくスクリプトで対応できると説明する。

 情報漏えい防止などの観点でデータを社内のみで管理したい場合は、オンプレミスで動作するソフトウェアとして提供することもあり得るとしている。

 正式なサービスは、rokadoc単体では提供されない。課題の特定からチューニングまでをカバーするトータルソリューションの一部として位置付けているという。

Copyright © ITmedia, Inc. All Rights Reserved.

スポンサーからのお知らせPR

Cloud Native Central 記事ランキング

本日月間

注目のテーマ

4AI by @IT - AIを作り、動かし、守り、生かす
Microsoft & Windows最前線2025
AI for エンジニアリング
ローコード/ノーコード セントラル by @IT - ITエンジニアがビジネスの中心で活躍する組織へ
Cloud Native Central by @IT - スケーラブルな能力を組織に
システム開発ノウハウ 【発注ナビ】PR
あなたにおすすめの記事PR

RSSについて

アイティメディアIDについて

メールマガジン登録

@ITのメールマガジンは、 もちろん、すべて無料です。ぜひメールマガジンをご購読ください。