データガバナンスにおけるデータディスカバリを自動化するための3つのベストプラクティス：Gartner Insights Pickup（387）

データガバナンスには、組織がデータをどう管理するかを定義する包括的なルールセットが含まれる。その主な根拠は、規制要件と組織の自主基準の2つだ。本稿では、データガバナンスにおけるデータディスカバリを自動化するための3つのベストプラクティスを紹介する。

» 2025年02月21日 05時00分公開

[Nader Henein, Gartner]

この記事は会員限定です。会員登録（無料）すると全てご覧いただけます。

ガートナーの米国本社発のオフィシャルサイト「Insights」などのグローバルコンテンツから、＠IT編集部が独自の視点で“読むべき記事”をピックアップして翻訳。グローバルのITトレンドを先取りし「今、何が起きているのか、起きようとしているのか」を展望する。

　データガバナンスには、組織がデータをどのように管理するかを定義する包括的なルールセットが含まれる。多くの場合、これらのルールはプライバシーポリシーやデータ保持ポリシー、データ分類ポリシーなど、複数のポリシーで規定されている。

　データガバナンスへの取り組みを成功させる土台は、組織が所有するデータ、さまざまな企業システムにおけるそれらのデータの流れ、それらのデータの使用目的を徹底的に理解することだ。

　データガバナンスルールの主な根拠は2つある。規制要件と組織の自主基準だ。多くの場合、法的義務に基づく規制ルールは法域によって異なり、コンプライアンス違反には重大な罰則が科される。一方、自主ルールはベストプラクティスとビジネスニーズに基づいている。

　これらのルールを適用するための最初のステップは、データがどこに保存され、どのように利用されているかを明確に理解することだ。これは、体系的なデータディスカバリプロセスによって実現される。このプロセスには、非構造化データと構造化データの両データのディスカバリが含まれる。

　多くの組織はこのプロセスを手作業で開始するが、スケーラビリティを確保するには、自動化が不可欠になる。セキュリティとリスク管理（SRM）のリーダーは自動化に着手するに当たって、効果的な自動データディスカバリの3つの重要なベストプラクティスを考慮しなければならない。すなわち、自動ディスカバリプラットフォームがデータを読み取る機能、解釈する機能、データに基づいて動作する機能を評価する必要がある。

プラットフォームの接続性とデータ読み取り機能を評価する

　SRMリーダーはデータディスカバリプラットフォームを選択する際、プラットフォームが多様なソースに効果的に接続し、データを読み取れることを確認しなければならない。技術プロバイダーと契約する前に、まず組織のデータリポジトリの包括的なリストを作成するとよい。

　アップストリームコネクターの充実したライブラリを備え、組織が維持している専門システムやレガシーシステムの数に応じて、データストアの80～90％からデータを取り込んで分析できるプラットフォームが理想的だ。

　さらに、プラットフォームがカバーしていないデータストアのカスタムコネクター開発のコストと実現可能性を評価する。これらのコネクターが利用可能なAPIを用いて自前で開発できるのか、あるいは外部プロバイダーのサポートが必要なのかを判断することが極めて重要だ。

　非構造化データについては、組織内で使用されている全てのファイルタイプをプラットフォームが読み込めることを確認する。一般的なファイルタイプには、広くサポートされているPDFなどがある。だが、一部の組織は、CADドキュメントや医療機関が使用するDICOM（Digital Imaging and Communications in Medicine）画像など、特殊なフォーマットを使用している可能性がある。その場合は、技術パートナーがこれらのファイルタイプをサポートしているかどうか、あるいはカスタムファイルインタープリタが必要かどうかを確認する必要がある。

　構造化データの統合に関しては、JDBC／ODBC（Java Database Connectivity／Open Database Connectivity）コネクターやアプリケーション固有のAPIを介して、構造化データリポジトリに接続するプラットフォームの機能を評価する。

　SRMリーダーはこれらの要素を十分に考慮することで、組織全体の状況を効果的にカバーするデータディスカバリプラットフォームを、すぐに利用できる機能とカスタム開発の必要性のバランスを取りながら選択できる。

ユーザー定義のデータ属性に関するプラットフォームの学習・認識機能を評価する

　SRMリーダーはデータディスカバリプラットフォームを評価する際、ユーザー定義のデータ属性を学習、認識する機能も考慮しなければならない。ソリューションでは「Personal」（個人）、「Sensitive」（機密）、「HR」（人事）といったタグやラベルが、あらかじめプログラムに登録されていることが多い。だが、これらを組織固有のデータニーズに合わせて構成することが不可欠だ。

　データを取り込み、データ属性に基づいて適切なタグを抽出するために使用される技術は、正規表現によるパターン駆動型であるか、機械学習、自然言語処理、コンピュータビジョンによるAI駆動型であるか、あるいはその両方の組み合わせだ。

　初期状態から必要な全てのタグが抽出され、プラットフォームのプログラムに登録されると期待するのは非現実的だ。そのため、プラットフォームがトレーニングやプログラミングにより、新しいデータ属性を「学習」して認識する機能が、重要な評価ポイントになる。「プラットフォームがどのくらいの精度で、組織で定義されている新しいデータ属性を識別し、関連するデータやファイルに適切なタグを適用するか」を評価する簡単なトライアルを実施するとよい。

　通常、このプロセスでは、ベンダーの実装チームとプラットフォームを管理することになる組織内のチームが協力する。トライアルは、PDFファイルに「請求書」ラベルをタグ付けすることから、スキャンした請求書から注文番号を抽出し、カスタムタグを適用するといった、より複雑なタスクまで多岐にわたる内容が考えられる。

プラットフォームがデータガバナンス活動のオーケストレーションを実現することを確認する

　データリポジトリをスキャンし、タグ付けしたら、次のステップは、この情報を効果的に活用することだ。その目的は、データを理解するだけでなく、検出されたタグを用いてデータガバナンス活動を自動化することだ。

　例えば、これらのタグのさまざまな組み合わせに基づいてデータ分類を自動化したり、これらのタグを使ってデータ保持スケジュールのルールを発動させたりできる。このルールの発動の一例が、EU一般データ保護規則（GDPR）が適用される“CV”ドキュメント（履歴書）（※）が、「最終更新日」からの日数が事前に定義された上限を超えると、自動的に削除されることだ。

※CVは、ラテン語で「人生の行路」を意味する「curriculum vitae」の略

　これらを達成するには、選択したプラットフォームがデータの保持や分類の自動化など、計画されたダウンストリームタスクのオーケストレーションを、データの特性に基づいて実現することを確認しておく必要がある。

　このオーケストレーションは、ディスカバリソリューション内でネイティブに、あるいはサードパーティープラットフォーム（エンタープライズアーキテクチャ内のアーカイブソリューションのような）へのダウンストリームコネクターを用いて実行される。

　一部のディスカバリ専用プラットフォームは、文書化されたAPIを使用して、独自のダウンストリームコネクターを開発できる機能を顧客企業に提供している。

　SRMリーダーはこれらの機能を検証することで、組織全体のデータガバナンス活動のシームレスな統合と実行を保証できる。

出典：Top 3 Best Practices for Automating Data Discovery in Privacy Management（Gartner）

※この記事は、2024年12月に執筆されたものです。