現在、プライバシーの侵害なく安全にデータを公開するためにさまざまな手法が考案され始めています。企業が保有するデータには資産価値があるものが多く含まれますが、それらが一部の権限者しか活用できないようでは、商品開発や企画検討、サービス開発に時間がかかることになります。本稿では今後、データを利用する上で理解しておく必要にせまられるであろう、プライバシー保護データマイニングの手法の概要や課題、現状を紹介します。
個人情報やプライバシーを含むようなデータを、プライバシー侵害なく安全に活用して、ビジネスや社会の改善に結び付けるには「プライバシー保護データマイニング(PPDM)」の利用やその適正なリスク評価方法を内部に確立していることが重要になってきます。
PPDMはプライバシーを保護しつつ、データから有用な情報の抽出を試みるための技術の総称であり、これを用いることでパーソナルデータの活用に関する本人からの同意の取得や厳格なセキュリティ管理など、煩雑な作業が軽減できる可能性があり、ビジネス活用の幅が拡大することが期待されます。
特にPPDMの手法の一つに当たる「匿名化」に関しては、現在、審議されている「個人情報保護法改正案」(注1)の中で「匿名加工情報」として規定されており、個人情報とは異なる扱いが可能になると見られています。今後のデータ活用を後押しするものとして期待されています。
注1:正式には「個人情報の保護に関する法律及び行政手続における特定の個人を識別するための番号の利用等に関する法律の一部を改正する法律案」として閣議決定され、第189回通常国会に提出されています。内閣官房のWebページを参照ください。
それでは、PPDMにはどのような手法があり、どのような課題があるのでしょうか? 現在、研究や開発が進むPPDM技術の概要や課題を見ていきましょう。やや学術的な議論も含まれますが、手法そのものの概要や課題の他、実現するためのソフトウエアの情報も紹介していきますので、参考にしてください。
前回はデータを扱うために理解しておくべき、個人情報やプライバシー保護に関する直近の議論を整理し、その注意点を示しました。それら注意点を理解している前提で、今回はPPDMの多様な手法を紹介していきます。
PPDMについては人によって捉え方が異なりますが、筆者は図1で示したように大きく三つに分類することが可能と考えています(注2)。
注2:Huidong (Warren) Jinらのリポートより日立コンサルティング作成(出典: Huidong (Warren) Jin, Practical Issues on Privacy-Preserving Health Data Mining, Emerging Technologies in Knowledge Discovery and Data Mining Lecture Notes in Computer Science Volume 4819, 2007, pp 64-75)
一つ目は「解析する元データの作成時に用いられる技術(入力データプライバシー保護技術)」、二つ目は「秘密計算」と呼ばれる「個々のデータを秘匿しつつ解析結果の抽出のみを可能にする技術」、そして三つ目は「解析結果をデータとして出力する際にプライバシー侵害のリスクを低減する技術(出力データプライバシー保護技術)」です。
入力データプライバシー保護技術は、個人の特定などに結び付く可能性があるデータを加工あるいは削除することで、プライバシー侵害のリスクを低減する技術のことです。主に「匿名化」や「攪乱(かくらん)」といった手法があります。
秘密計算とは、単体では意味を成さない状態でデータを蓄積し、それを解析した結果のみを表示することで、データの内容を秘匿しながら解析できるようにする手法で、暗号化や秘密分散などの技術が活用されます。
出力データプライバシー保護技術は、解析を行うコマンドであるクエリへの応答を制御したり、解析結果に対してノイズを加えたりすることで、特定の個人の属性が明らかになるリスクを回避する技術です。
それでは、これら三つの技術について、それぞれ見ていきましょう。
Copyright © ITmedia, Inc. All Rights Reserved.