検索
連載

データを「AI-Ready」にするにはGartner Insights Pickup(369)

AIと生成AIの出現に伴い、データを巡る議論は新たな段階に入った。データとアナリティクス(D&A)のリーダーは、自社のデータがAI-Readyであることを証明し、AI-Readyなデータの需要に対応できるようにする必要がある。

PC用表示 関連情報
Share
Tweet
LINE
Hatena

ガートナーの米国本社発のオフィシャルサイト「Insights」などのグローバルコンテンツから、@IT編集部が独自の視点で“読むべき記事”をピックアップして翻訳。グローバルのITトレンドを先取りし「今、何が起きているのか、起きようとしているのか」を展望する。

 データ戦略は常に重要だ。だが、AIと生成AIの出現に伴い、データを巡る議論は新たな段階に入っている。Gartnerの調査によると、自社のデータは「AI-Ready」だと回答した企業は4%にすぎない。逆に言えば、自社のデータをAIに対応させて活用する準備ができていない企業が96%に上ることになる。

 AIと従来のデータ管理におけるデータ要件の大きな違いを認識していない企業は、AIへの取り組みが失敗する恐れがある。データとアナリティクス(D&A)のリーダーは、自社のデータがAI-Readyであることを証明し、AI-Readyなデータの需要に効果的に対応できる必要がある。

 AI-Readyなデータは、特定のユースケースを代表するデータでなければならない。特定用途向けのAIモデルのトレーニングまたは実行に必要な全てのパターン、エラー、外れ値、予期せぬアウトプットを含んでいる必要がある。データをAI-Readyにすることは、1回限りの作業ではなく、全てのデータについて事前に準備ができることでもない。継続的なプロセスと実践であり、データの適合性や適格性、ガバナンスを確保するためのメタデータが利用可能であることが前提となる。

 データがAI-Readyであることを証明するには、D&AチームとAIチームは、パイロットプロジェクトを迅速に反復、統合し、AIユースケースの本格的な開発と運用における使用に適したデータを特定できる必要がある。D&Aリーダーは以下の推奨事項に取り組み、データをAI-Readyにする必要がある。

データをユースケース要件に合わせる

 AIユースケースについては、どんなデータが必要かを必ず記述する必要がある。それは、使用されるAI手法によって決まってくる。これは前もって完全に定義することはできないかもしれないが、データが使用され、AI要件が満たされるにつれて明らかになる。D&Aリーダーは、データが以下のパラメーターに関して、AIユースケースで求められる要件を満たすようにする必要がある。

  • AI手法: 一部のデータ要件を規定する。例えば、生成AIのトレーニングデータと、シミュレーションモデルに使われるデータでは要件が異なる。データは、ユースケースをサポートするために適用されるAI手法が求める要件を満たさなければならない
  • 定量化: 十分なデータを確保することを含む。例えば、季節的なパターンがある場合に、複数年にわたる十分なトレーニングデータを用意するといった具合だ。この場合、既存データを補完するためにシンセティックデータ(合成データ)を使用するなどの潜在的な解決策を、定量化の要件を満たすための改善計画に含められる
  • セマンティクス、アノテーション、ラベリング: データを充実させる。これには、画像や動画の場合のアノテーション(注釈)、ラベリング(ラベル付け)の他、ナレッジグラフ(知識グラフ)の形で表現されることが多いタクソノミー(分類体系)やオントロジー(概念体系)の適用が含まれる
  • 品質: データがAIユースケースのデータ品質要件をどの程度満たしているかを定義する
  • 信頼: データの出所、関係するソースとパイプラインの信頼レベル、他の参加AIモデルからの出力に関するAIユースケースの要件を包含する
  • AIの多様性要件: ソースに起因するバイアスを回避し、できるだけ多様なソースを含むことを保証する
  • リネージ(来歴): 特定のAIユースケースのコンテキストにおいて、全てのデータ使用シナリオにわたってデータの出所と使用方法に関するエンドツーエンドの透明性を提供する

適格な使用によりAIで求められる信頼要件を満たす

 データの適格な使用により、データが運用されるモデルのトレーニング用、開発用、実行用のいずれであるかにかかわらず、継続的に要件を満たすことが保証される。以下のパラメーターを用いて、AIユースケースで求められる信頼要件にデータを対応させる必要がある。

  • 検証と確認: 全てのデータ要件が開発および運用中に、通常満たされていることを保証する
  • パフォーマンス、コスト、非機能要件: 応答時間、適時性、高可用性、ディザスタリカバリー、コストなど、運用に関する最低限のサービスレベル契約(SLA)をデータが満たしていることを保証する
  • バージョン管理: AI-Readyなデータをより古いバージョンに戻したり、データの全バージョンを監査したりする可能性を想定し、使用される全てのデータがバージョン管理されるようにする
  • 継続的な回帰テスト: チームは、さまざまなテストケースを考案してシステムをテストし、問題の発生を検出する必要がある
  • 可観測性指標およびモニタリング: システムの健全性の追跡を透明化し、支援する

ユースケースのコンテキストにおけるAI-Readyなデータのガバナンス

 D&Aリーダーは以下のパラメーターを用いて、データがAIユースケースをサポートするために満たすべき継続的なデータガバナンス要件を定義する必要がある。

  • データスチュワードシップ(管理): ユースケースのライフサイクル全体にわたって適切なポリシーが適用されていることを保証する。これは、必要な可観測性指標を定義し、モニタリングすることでサポートされる
  • データとAIに関する基準と規制(EU AI法など): 現在、策定が進められている。これらの新しい規制は、データに関する既存の規制やコンプライアンス要件に追加される
  • AI倫理要件: ユースケースのガバナンス要件の一部を構成する

 データ管理は永遠に続く課題だ。これらのポイントを押さえてデータをAI-Readyにするのは、1回限りのプロセスではなく、継続的な取り組みであることを念頭に置く必要がある。

出典:How to Ensure Your Data Is AI-Ready(Gartner)

※この記事は、2024年6月に執筆されたものです。

筆者 Roxane Edjlali

Sr Director Analyst


Copyright © ITmedia, Inc. All Rights Reserved.

[an error occurred while processing this directive]
ページトップに戻る