NTT Comが、非構造化データを構造化データに変換するサービスを発表した。複雑な構成/構造を解釈したデータ表現をすることで、RAGにおける検索の精度を向上できるという。
この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。
NTTコミュニケーションズ(NTT Com)は2025年2月19日、RAG(検索拡張生成)の精度を上げられるとして、データ変換サービス「rokadoc」を発表した。同日にパブリックβ版の提供を開始しており、個人でも試せる。
「社内データを生かした生成AI(人工知能)の活用に取り組んでいるが、LLM(大規模言語モデル)から期待した回答を得られない」という声はよく聞かれる。その原因の一つとしてNTT Comは今回、「非構造化ドキュメントの検索精度が上がらない」という問題に着目したという。
新サービスrokadocでは、非構造化ドキュメント(Word、PowerPoint、Excel、PDFに対応)を構造化データに変換する。
「特に日本では、資料に図や表が埋め込まれ、緻密な構成になっていることが多い。表はセルのマージにより複雑化している」(NTT Com)
rokadocでは図や表を含めた構成/構造を解釈し、JSON形式に変換して、検索をしやすくする。表についてはHTMLで表現し、JSONのValueとして埋め込む形となっている。グラフィックについても、自動的に自然言語で説明を加える。
このサービスを企業が使う場合、NTT Comのクラウドストレージに対象データを移動/複製する必要がある。データの一括送信については、rokadocのAPIをたたくスクリプトで対応できると説明する。
情報漏えい防止などの観点でデータを社内のみで管理したい場合は、オンプレミスで動作するソフトウェアとして提供することもあり得るとしている。
正式なサービスは、rokadoc単体では提供されない。課題の特定からチューニングまでをカバーするトータルソリューションの一部として位置付けているという。
Copyright © ITmedia, Inc. All Rights Reserved.
Cloud Native Central 記事ランキング