データは、AIおよび生成AIプロジェクトの成否を左右する重要な要素だ。本稿では、AIライフサイクルにおけるデータリスクを包括的に評価し、それらを軽減するための7つの推奨事項を紹介する。
この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。
データは、AIおよび生成AIプロジェクトの成否を左右する重要な要素だ。AIのライフサイクルとその成果は、データの不適切な収集や管理、品質、保護に起因する問題の影響を非常に受けやすい。AIプロジェクトにおけるデータリスクの管理は難しく、それは単一障害点がないからだ。
データは至る所に存在し、データパイプラインはあらゆる組織の不可欠な要素となっている。そのため、データの管理については、全責任を負う役割は存在しない。最高データ責任者(CDO)、AI責任者、データガバナンス責任者、セキュリティスタッフ、ビジネス部門のマネジャーによる協調的な取り組みが必要となる。
このようにデータ管理の責任が共有されるため、AIプロジェクトは非常に複雑になる。以下では、AIライフサイクル全体における主なデータリスクの包括的な評価と、それらを軽減するための推奨事項を提示する。
AIプロジェクトにおける重大なリスクの一つは、重要なデータ要素の欠落だ。多くの場合、データ収集では目先のニーズのみが重視され、将来開発される下流アプリケーションの要件は考慮されない。この見落としは不完全なデータセットをもたらし、そのせいで最適ではないAIモデルが開発されてしまう場合がある。
組織がこのリスクを軽減する方法としては、堅牢(けんろう)なデータおよびAIガバナンスプログラムを導入することが推奨される。また、収集するデータとメタデータの種類を定期的に評価することも不可欠だ。そうすることで、組織は現在と将来のAIモデル開発を支える包括的なデータ収集ができる。
AIプロジェクトでは、データの誤表現は重大なリスクをもたらす。ソースで取得されたデータを、下流のユーザーが誤って解釈することがあるからだ。メタデータやコンテキスト情報が不足している場合は特にそうだ。例えば、温度を正確なスカラー値で表現するのではなく、「低」「中」「高」と単純に記述する場合がこれに当たる。これは最適ではない、あるいは粗悪なAIモデルの開発につながることがある。
この問題に対処するにはデータの分布や変換、選択、フィルター、プロトコルなどを含む明確なデータ測定基準を確立することが極めて重要だ。さらに、高度なデータおよびメタデータ収集ツールや技術を採用することで、関連する多様なデータを全て正確に取得し、測定することが可能になる。
モデルが直面する現実のシナリオをテストデータが正確に反映していない場合、モデルのパフォーマンス評価を誤らせることがある。こうしたテストデータと現実とのずれにより、管理されたテスト環境では優れていても、実際には使い物にならないAIシステムができてしまうかもしれない。
このリスクを軽減するには、モデルが遭遇する状況を正しく示すテストデータを注意深く選択する必要がある。層別化や交差検証、継続的なモニタリングなどの手法を採用することで、テストデータの信頼性を高められる。
不十分なデータクレンジングは、AIプロジェクトに重大なリスクをもたらす。適切なクレンジングや検証がなされていないデータを使用すると、AIモデルでエラーが発生したり、不正確な出力が生成されたりする場合があるからだ。厄介なのが、データクレンジングの適切なレベルの判断だ。過剰なクレンジングは貴重な時間とリソースの浪費を招くからだ。
この問題に対処するために、データの品質と可観測性に投資することが推奨される。このアプローチにより、AIの取り組みのライフサイクル全体を通じてデータ品質が管理、維持される。
適切な計画なしにAIモデルを機密データでトレーニングすると、AIモデルの出力にそれらのデータが含まれ、コンプライアンスやプライバシー、知的財産に関わる重大なリスクが発生する場合がある。そうしたデータ漏えいの結果として規制措置を受けたり、訴訟に直面したり、評判が損なわれたり、ビジネスを失ったりするかもしれない。
これらのリスクを軽減するには、堅牢なデータセキュリティガバナンスを導入することが不可欠だ。データセキュリティポスチャ(態勢)マネジメントや情報漏えい防止(DLP)、プライバシー強化テクノロジー、暗号化といった適切なデータセキュリティ対策を講じることが、これらのリスクの効果的な管理に役立つ。さらに、関連するデータプライバシー規制を順守し、データ漏えいとその悪影響を防ぐことが極めて重要だ。
データポイズニングは、攻撃者がトレーニングデータセットを操作し、AIモデルが企業ではなく攻撃者の利益に沿って動作するように誘導する、重大な脅威だ。これにより、データの破損、偏った結果、エラーの他、侵害やランサムウェアのような悪意ある行為の被害が発生してしまう場合もある。
このリスクに対抗するには、データセキュリティポスチャ(態勢)マネジメントやTRiSM(トラスト/リスク/セキュリティ・マネジメント)などのテクノロジーを採用し、個々のAIモデルの機密データへのアクセスを特定することが欠かせない。AIモデルの特権を制限し、データ操作やデータポイズニングの試みを防止、検出することが極めて重要だ。セキュリティプロトコルを定期的にレビューし、更新するとともに、リスクと軽減策に関するベンダーの説明責任を確保することで、この脅威に対するセキュリティをさらに強化できる。
多様なデータソース、技術、インフラの管理と統合の複雑化に伴い、AIユースケースのためにデータを提供することが大きな課題となっている。組織がAIの取り組みを展開するにつれて、複雑なデータ環境の中で代表的なデータを見つけるのが難しくなり、データの識別、アクセス、提供のプロセスが複雑になっているからだ。
この課題に対処するに当たっては、堅牢なメタデータ管理の実践を確立することが推奨される。これにより、AIユースケースに関わるデータの識別を効率化できる。さらに、データエンジニアリング技術(データカタログ、レイクハウス、データファブリックなど)を簡素化し、標準化することで、多様なデータソースの統合と管理が容易になる。そのため、データ提供の効率と効果を向上させられる。
出典:Understanding Major Data Risks in AI Projects(Gartner)
※この記事は、2025年2月に執筆されたものです。
VP Analyst
Copyright © ITmedia, Inc. All Rights Reserved.
Cloud Native Central 記事ランキング