ハイブリッド環境で複雑化するデータ管理、「攻め」と「守り」のデータガバナンスを実現する方法とはDXに取り組みながらGDPR対策もできる

データレイクサービス「Data Lake Store」やNoSQLデータベース「Cosmos DB」など、デジタルトランスフォーメーション(DX)向けの機能強化が進むMicrosoft Azure。そのような中、クラウドを含めた「攻め」と「守り」の両面で、データガバナンスの実現に向けて「データカタログ」の展開に力を入れているのがインフォマティカ・ジャパンだ。iPaaS(Integration Platform as a Service)市場のリーダーである同社の考えを聞いた。

» 2018年06月11日 10時00分 公開
[PR/@IT]
PR

「攻め」と「守り」の両面でデータガバナンスが重要に

 IoT(Internet of Things)や人工知能(AI)に代表されるデジタルトランスフォーメーション(DX)の取り組みでは、データを「資産」として生かすことが求められる。販売実績、顧客情報といった従来のデータベースに格納された「構造化データ」だけではなく、ログとともに蓄積されたカメラ画像やSNS上のデータ、動画といった「非構造化データ」を合わせて「データレイク」と呼ばれる統合データベースに格納し、さまざまな角度から分析してビジネスの成果を出していく。

 ただ、DXの取り組みが進む中であらためて課題になってきたのが、「単にデータを蓄積するだけでは、必ずしもデータを資産として生かすことができない」ということだ。蓄積されたデータを分析しようとすると、事前の準備に時間がかかったり、専門的な知識やノウハウが求められたりする。

 この事前準備、すなわち「データプレパレーション」にかかる時間について、有名な知見がある。それは「データ分析業務の80%は、分析の前のプレパレーションに費やされている」というものだ。データプレパレーションの環境がうまく整備できない結果、取り組みが遅れ、資産としての価値を失うことにもなりかねない。

インフォマティカ・ジャパン セールスコンサルティング部 シニアセールスコンサルタント 中島良樹氏

 一方、資産としてのデータを保護する要求も年々高まっている。2018年5月から適用されたEU一般データ保護規則(GDPR)では、データを適切に保護することが求められ、もしも情報漏えいなどの事故が起こった場合は、72時間以内に報告する義務がある。その際には「どこにどんなデータがあるか」「どのような方法で保護されているか」「誰が何の目的でどのデータにアクセスしたか」などを迅速に把握しなければならない。もしデータレイクに単にデータを蓄積しているだけでは、こうした要求に応えることは難しい。

 こうしたデータを巡る状況について、インフォマティカ・ジャパン セールスコンサルティング部 シニアセールスコンサルタントの中島良樹氏はこう話す。

 「DXの取り組みのような『攻め』、GDPR対応のような『守り』の両面でのデータガバナンスが重要になってきました。その際に気を付けたいのは、攻めと守りの両方でクラウド環境が広く使われるようになったことです。データはますます分散化、サイロ化しています。どうやってガバナンスを確保するかが、企業にとって大きな課題になっています」

複雑化するIT環境によってデータのガバナンスを確保するのは難しくなっている

データガバナンスに欠かせない「データカタログ」とは

 クラウド環境を含めて攻めと守りのデータガバナンスを確保するために、インフォマティカが提案しているのが「データカタログ」の構築だ。データカタログとは、データを保存場所や形式などだけではなく、どんなデータがどこから来て、どう変換され、どう活用されているかといった状況を把握できるようにすることだ。

 「データソースに関連する情報やビジネスのコンテキスト、ユーザーの評価、格付けなどをメタデータとして収集します。蓄積したデータをこれらメタデータとともに管理することで、業務に合ったデータを素早く検索、加工、分析して、業務に組み込むことができます」

 一般に、データを蓄積し処理するためのテクノロジーとしては、データ分析基盤の「Apache Hadoop」や「Apache Spark」、ストリーミング処理の「Apache Kafka」、NoSQLデータベースなどオープンソースソフトウェア(OSS)を中心にさまざまな製品やサービスが提供されている。ただ、これらを組み合わせて環境を構築するだけでは、データを活用するためのガバナンスの確保は難しい。そこでメタデータを使って、データの出自や来歴を継続的に管理するデータカタログが必要になってくる。

 データのガバナンスというと「守り」のイメージが強いが、実際には「攻め」のデータ活用にも大きく関わってくる。例えば、データ分析業務におけるデータプレパレーションがそうだ。

 「データプレパレーションには、データの正規化や、クレンジング、マスキング、品質の確保、ビジネスグロッサリ(辞書)の整備、データを追跡するためのリネージ(来歴)の把握などの作業が発生します。これらは、ビジネスのニーズに合わせて、都度発生するケースが増えています。そのため、DXの取り組みでは、データレイクを構築するだけではなく、データカタログを活用して、データプレパレーションをスムーズに行える環境をいかに整備するかがポイントになります」

 インフォマティカは1993年の創業以来、メタデータ管理をコア技術にして、ETLツールやシステム連携、データ統合製品を展開してきた企業だ。さらに近年は、そうした強みをマルチクラウド、ハイブリッドクラウド環境のデータガバナンスにも拡大している。インフォマティカのデータカタログは、企業のデータ活用やデータ保護の課題を解消し、「攻め」と「守り」のデータガバナンスをハイブリッドクラウドで実現するコアコンポーネントとなり得るものである。

データカタログ「Enterprise Data Catalog」の3つの特長

 インフォマティカのデータカタログプラットフォーム「Enterprise Data Catalog」には大きく3つの特長がある。

Enterprise Data Catalog

 1つ目は、さまざまなデータソースからメタデータを自動で収集し、カタログ化を自動で行うことだ。メタデータを収集するときにデータの内容を理解して、内容にふさわしいタグを自動で付与し、管理する。例えば、メールアドレスや電話番号、クレジットカード番号などの認識だけではなく、一般的なルールセットにない企業固有の製品IDや顧客IDなども学習して、自動的にカタログに反映する。ここで活用しているのがAIエンジン「CLAIRE」だ。データが変わったり、データのタグを手動で変化したりしても、その変化をCLAIREが学習し、タグやメタデータの管理に変化を反映させるのだ。

 一般に、こうしたメタデータ管理のほとんどは手作業で行ってきた。人がデータの内容を見てタグ付けし、Excelなどでタグやメタデータ情報を管理するのだ。しかし、こうした管理方法では、ビジネスのスピーディーな変化に追随したり、重大インシデントが発生したときに素早く対応したりすることができない。CLAIREを搭載したインフォマティカのデータカタログは、メタデータ管理の作業を大幅に削減し、スピーディーな活用を促すことが可能だ。

 2つ目は、データ活用におけるさまざまなニーズを1つのプラットフォームで対応できることだ。Enterprise Data Catalogは、セルフサービスでのデータ抽出や加工を支援する「Enterprise Data Lake」、ビッグデータの高度な統合やストリーミング処理を行う「Big Data Management」「Big Data Streaming」などと連携されているので、Enterprise Data Catalogからそれらソリューションを使用可能だ。そのため、データプレパレーションとそれ以降の分析業務を1つのプラットフォームからスピーディーに実施できる。

 また、GDPR対応に代表されるデータ保護やガバナンス、コンプライアンスの課題に対しては「Data Governance & Compliance」ソリューションと連携する。GDPR対応で大きな課題になるのは「データの利用に関する把握」「データそのものに関する把握」「データの保護状態に関する把握」の3つとされている。これらはそれぞれ「どういう目的で、どの部門/組織が、どういうデータを利用しているか」「どのシステムに、どういうデータが存在しているか」「どこに機密データが存在し、適切なセキュリティ対策が行われているか」がテーマになる。まず、Enterprise Data Catalogでデータそのものに関する把握を行い、データの利用の把握については「Informatica Axon」、データの保護状態に関しては「Secure@Source」という製品を利用してデータをモニタリングし、ガバナンスを確保する。

Microsoft Azureに対応し、Azure標準機能を大幅に拡張

 3つ目は、マルチクラウド、ハイブリッドクラウド対応だ。Enterprise Data Catalogは、「Microsoft Azure Marketplace」に登録されており、簡単に「Microsoft Azure」(以下、Azure)環境で利用できる。Enterprise Data Catalog以外のインフォマティカの製品もAzure対応が進められていて、例えば、Big Data Management、Informatica Axon、Secure@SourceなどをAzure上に展開し、DXの取り組みやGDPR対応をオンプレミスと複数のクラウドを混在させた形で実施できる。もちろん、その際には、Azure上に展開した製品からデータを自動収集し、すぐにカタログ化が可能だ。

 また、Azureの各サービスと連携するコネクターも開発が進められている。例えば、オブジェクトストレージ「Azure Blob」や、データベース「Azure SQL Database」はもちろん、DWH(データウェアハウス)サービス「Azure SQL Data Warehouse」、データレイクサービス「Azure Data Lake Store」、Hadoop処理基盤サービス「HDInsight」と連携できる。この他「Dynamics 365」で構築した基幹システムとの連携や、NoSQLデータベース「Azure Cosmos DB(旧Document DB)」との接続も可能だ。

 こうしたMicrosoftとインフォマティカの製品、サービスの連携は、両社の強力なパートナーシップの下で進められており、製品の連携対象やサポート対象は大きく広がっている。

 「データレイクやデータ保護などのサービスや機能は、MicrosoftがAzureで提供しています。ただ、オンプレミスやAzure、他社クラウドなどの複数のクラウド環境をまたがってデータカタログを構築するには、データカタログの領域に特化した専用製品を用いることが求められます。基本機能はAzureの標準サービスで、より拡張した機能を利用したい場合はインフォマティカのデータガバナンス製品で、といった役割分担ができています」

 インフォマティカの製品は、iPaaS(Integration Platform as a Service)分野のリーダーとして市場から評価されており、クラウドサービス連携は大きな特長だ。中島氏は、Azureと連携できる最大のメリットを「オンプレミスとクラウド間のハイブリッドクラウド環境での利用がスムーズです。データカタログを使ってハイブリッドクラウド間のデータガバナンスが容易に構築できます」と説明する。

ユーザーメリットを引き出す3つのユースケース

 「攻め」と「守り」のデータ活用に関わるEnterprise Data Catalogだが、具体的にどのようなシーンで利用するのか。それについて中島氏は、典型的な3つのユースケースを挙げる。

 1つは「セルフサービス分析」だ。分析の素材となるデータセットを自分で探し出し、そのデータのビジネスコンテキストを理解して、データを活用できる。主なユーザーは、業務部門に所属するデータアナリストや、分析チームに所属するデータサイエンティストだ。

 例えば、データアナリストは、Enterprise Data Lakeの画面を操作して、データの抽出や加工を簡単に行える。データサイエンティストが行う高度な分析も簡単なインタフェースで容易に行うことが可能だ。

Enterprise Data Lakeの画面を操作して、データの抽出や加工を簡単に行える

 2つ目は、「データガバナンスとコンプライアンス」だ。データ資産を適切に活用できるように統制、管理するとともに、品質やメタデータを整備する。主なユーザーはデータに責任を持つデータオーナーや、データを専門に管理するデータスチュワードだ。

 情報漏えいなどのインシデントが発生したときに、データを利用するエンドユーザーにデータの所在や管理方法を聞いていては、GDPRのような法令に迅速に対応できない。そこで、データオーナーやデータスチュワードが「どこにあるデータがどう管理されていて、それがどう漏えいしたか」を速やかに追跡できるようにする必要がある。Enterprise Data Catalogでは、管理画面上からそれらを素早く確認可能だ。また、複数クラウド環境に展開されたアプリケーションを統合して管理する場合には、データカタログは欠かせない存在となる。

 3つ目は「IT影響分析」だ。システム横断のデータ配置や、来歴、影響範囲などの流れを把握し、開発運用に役立てられる。このユースケースでのユーザーはシステム管理者やITアーキテクトとなる。

 中島氏は「データカタログの重要性が指摘されるようになったのは最近のことです。その背景には、実際にDXの取り組みやGDPR対応を行う中で、これまでのようなデータガバナンスの在り方では不十分だという認識が広まってきたことがあります」と話す。

 今後、DXなどの取り組みが進む中で、こうしたニーズはますます強まっていくことが予想される。そんな中、インフォマティカでは、自動化や可視化機能の改善など、「攻め」と「守り」の両方に適用できるデータカタログの機能拡張に努めていく予定だ。

関連ホワイトペーパー

データレイク管理の9つの設計原理:プロセスの自動化が必要な理由とは?

複数ソースからのデータを構造化せず保存・処理できる「データレイク」の価値を高めるには、データ管理を効率化するアプローチが必要だ。そのために最高データ責任者やデータ管理リーダーが把握しておくべき、9つの設計原理を紹介する。


Copyright © ITmedia, Inc. All Rights Reserved.


提供:日本マイクロソフト株式会社
アイティメディア営業企画/制作:@IT 編集部/掲載内容有効期限:2018年7月10日

RSSについて

アイティメディアIDについて

メールマガジン登録

@ITのメールマガジンは、 もちろん、すべて無料です。ぜひメールマガジンをご購読ください。