データ品質への取り組みにおけるLLMの活用と注意点：Gartner Insights Pickup（354）

生成AI、特に大規模言語モデル（LLM）は、データ品質の問題に取り組む新たな機会をデータ担当者に提供する。LLMによって多くの問題が解決しやすくなる一方、その限界によって新たな課題が出てくる。

» 2024年06月07日 05時00分公開

[Jason Medd, Gartner]

この記事は会員限定です。会員登録（無料）すると全てご覧いただけます。

ガートナーの米国本社発のオフィシャルサイト「Insights」などのグローバルコンテンツから、＠IT編集部が独自の視点で“読むべき記事”をピックアップして翻訳。グローバルのITトレンドを先取りし「今、何が起きているのか、起きようとしているのか」を展望する。

　生成AI技術は、テクニカル担当者がデータ環境におけるデータ品質を確保する方法を急速に変えつつある。生成AI、特に大規模言語モデル（LLM）は、データ品質の問題に取り組む新たな機会をデータ担当者に提供する。

　LLMは、複雑で技術的なデータ品質の分析とルール開発を、自然言語プロンプトで代替できるようにすることで、データ品質に関するビジネスユーザーのセルフサービスによる取り組みを進めやすくする。これにより、ビジネスユーザーは完全性、一貫性、妥当性など、各種の客観的なデータ品質基準に沿ってデータ品質を高められる。

　だが、データ品質の問題は、どれだけ技術革新が進んでも、完全に解決されることはない。LLMによってデータ品質における従来の多くの課題が解決しやすくなる一方で、LLMの限界によって新たな課題が現れる。データ品質に携わる実務者は、LLMを管理する方法を学ぶ必要がある。

LLMのリスクと課題

　LLMは、データ品質の維持、向上にLLMを利用しようとする企業に新たな課題とリスクをもたらす場合がある。事実を生成するマシンではないからだ。LLMは、基盤となるモデルのデータを利用し、与えられたプロンプトに対する回答としてのもっともらしさを計算することで、正しそうな回答を選択して出力しているにすぎない。またLLMは、説明可能性の欠如という問題も抱えている。これは最近のトレンドとなっているAIの導入において、押さえておくべき基本ポイントだ。

　LLMは現在の成熟度では、データ品質に関する取り組みを完全に自動化することはできない。企業がLLMを効果的に活用するには、効果的なデータガバナンスとデータリテラシーが必要になる。企業はLLMの利用を進める中で、ユーザーにトレーニングを提供し、自動化への過信や自動化のバイアスを識別し、対処できるようにしなければならない。

　自動化への過信は、ユーザーが自動化の出力を信頼するあまり、エラーを見落とすようになることを指す。これは精度の高いシステムで特によく見られる。一方、自動化のバイアスは、ユーザーが自分の判断よりも自動化の出力を信頼する傾向を指す。多くの場合、これはビジネスやプロセスに関するユーザーの知識が低く、自動化された判断を検討または修正する仕事がユーザーに任されている環境で起こる。

　データ品質基準の観点からLLMについて考えると、LLMがデータ品質を大幅に向上させる分野もあるが、LLMがリスクを高める恐れがある分野もある。このリスクは、適切なガバナンスと監視を通じて対処しなければならない。

データ品質への信頼を構築する方法

　データ品質担当者は、データへの信頼を確保する新しい方法や技術を開発する必要がある。その中には、以下が含まれる可能性がある。

プロンプトがどのように作成、検証、展開され、バージョン管理が行われるかを追跡するためのプロンプトエンジニアリング、リネージ（来歴）、ガバナンスを標準化する
プロンプトをどこに展開でき、どこに展開できないかを規定するポリシーを確立する
LLMによって変更または生成される全データの監査可能性と透明性を高める。その一環として、LLMによって生成されるあらゆるデータの完全なリネージにより、LLMによって生成される不正確なデータの影響分析を示す
ユーザーが直接、またはプロンプトエンジニアリングを通じて編集した出力のフィードバックループを作成する。この出力は元のクエリと対応付け、企業の知識ベースや情報リポジトリをループの終点とする
自社のオントロジー（概念体系）とLLMを統合する。これにより、LLMが使用するポリシーや定義をある程度管理下に置く

出典：Unlocking the Potential of Data Quality Initiatives with LLMs（Gartner）

※この記事は、2024年3月に執筆されたものです。