PPDM活用の前に「個人情報」「プライバシー」の今を知る：匿名化技術とPPDM（1）（2/2 ページ）

» 2014年11月20日 11時30分公開

[美馬正司，日立コンサルティング]

パーソナルデータの活用をめぐる議論

　日本国内ではパーソナルデータを安全に（二次）利活用するためのルールについての議論が進んでおり、2014年6月24日には内閣府のIT総合戦略本部が、パーソナルデータ活用のため、「パーソナルデータの利活用に関する制度改正大綱」（リンクはPDF）を策定しています。2014年10月7日には、この大綱に対するパブリックコメントの募集結果が発表されており、これらを基に、早期に関係法案を国会に提出することを目指しています。

　海外を見てみても、同じく議論が進められているところです。例えば、2014年5月には米大統領府であるホワイトハウスが「Big Data: Seizing opportunities, Preserving Values」というビッグデータの可能性とプライバシー保護に関するレポートを発表しています（リンクはPDF）。また、2014年7月にはイギリスのプライバシーコミッショナーが「Big Data and Data Protection」というレポートを出し（リンクはPDF）、EUでもその議論がなされているところです。

　2014年6月には、「プライバシー・バイ・デザイン（プライバシー侵害のリスクを低減するために、ビジネスの設計段階からプライバシーに配慮すること）」を提唱したアン・カブキアン（Ann Cavoukian）博士が「ビッグデータ活用におけるプライバシーの保護で、匿名化技術が有効だから皆で使おう」という趣旨の考えを表明しました（リンクはPDF）。すると、以前NetFlixが公開したデータから個人を特定したことのあるアービンド・ナラヤナン（Arvind Narayanan）氏が「匿名データでも個人を特定できる」として、カブキアン氏の意見を真っ向から批判するレポートを公開しています。このように、現在でも各国で議論が行われている渦中であることを理解しておきましょう。

運用方法の設計は各企業の責務

　このように、データの利活用とプライバシー保護に関しては、世界中で現在も活発な議論がなされている状況にあります。いずれも、迅速なルール作りを行い、データ活用市場における自国の優位性を保つための議論であることから、近い将来、われわれ一般の企業や組織が、事業の中で、一定のルールの下にデータを活用していくことになることはほぼ間違いないでしょう。その中で、個人を特定するリスクを低減することは不可避であり、事業者においてはプライバシー保護に関する制度、技術などに関するナレッジを形成することが非常に重要になります。

　では、事業者が活用する際には何に気を付けるべきなのでしょうか。

　データの扱いで注意したいのは、特定性の評価が一概にはできないということ、データ単体での特定性の低減には限界があるということです。作成した識別非特定情報が絶対に特定できないと証明することは現実的に不可能な場合が多く、データのみで非特定化するのではなく、あらゆる手段を使って特定できないようにする努力を企業全体で行うべきです。

　例えば、「特定の都市に在住する四十代男性」であれば、その集合に含まれる数は膨大であることが想像できますが、「特殊な疾病に罹患したことがあり、特定の都市に在住する四十代男性」には特定性が発生する可能性があります。他にも、個人の趣味嗜好（しこう）、行動履歴、買い物履歴、位置情報など、何重ものデータを掛け合わせていけば、個人に到達する可能性があることは想像に難くないでしょう。

　これらのデータに関して、一定に基準を作るのはほぼ不可能であると筆者は考えています。それはデータの内容によって特定性が異なり、また、個々人の情報発信の状況などに応じてリスクが変化するからです。つまり、パーソナルデータの利活用について検討する際に、本質的にはデータそのものだけでリスク評価をすることが難しいのです。では、組織内で対策を何もしなくてもよいかというと、もちろんそうではありません。組織内で運用する場合もデータを公開する場合も、データ自体のリスク評価を行うことは不可欠ではありますが、一概に評価できない部分は、その都度、ナレッジに基づく判断を行うことになります。

　加えて、データ自体のリスク評価以外の対策も重要になります。特定性を低減したデータを利活用する場合、厳格な認証によって限られた人しかデータを扱えないようにする他、物理的な入退出管理、規則の整備と研修などによるその順守の徹底など、データの加工以外のところでもリスクを低減できます。このことは組織をまたがってデータを活用する場合においても同様であり、リスク対策を担保するための契約など（個人を特定する分析の禁止など）も不可欠です。

　リスクの低減を図る際に有効とされるのが、攻撃者の立場になって考えるということです。特にパーソナルデータについて、プライバシー侵害が起こり得る攻撃手法の典型は他のデータと突合して個人の特定を図るというものです。従って、このようなことが起こらないようなデータの開示の仕方、開示相手の選定や契約などが重要になります。

　例えば、パーソナルデータを活用する際には、それを他者に提供、あるいは公開する際に、データが他と照合され、再特定されるリスクが生じます。昨今、このようなリスク低減を図るため、加工した情報を限定した相手に提供するサービスが出てきています。トヨタ自動車ではプローブ情報を、NTTドコモでは基地局情報を、統計的に加工した形で、企業などへ提供を開始しています。また、Facebookにおいても、ユーザーのセグメントデータを提供し、これについて広告が配信できるようになっています。これらは、元データを公開せず、解析結果のみを公開することで、データを保護しながら活用しているケースといえるでしょう。

「プライバシー保護データマイニング（PPDM）」とは

　ここまで、直近の状況に即したプライバシー保護に関する議論を見てきました。いずれも、データを資源と見なし、活用するために必要なルール作りを急いでいる点に変わりありません。前述の個人情報保護法についても、現在の状況に則して、改定の議論が行われているところです*。

　プライバシーを考慮して、安全にデータを利活用する手法には本連載でこれから紹介していく「プライバシー保護データマイニング（Privacy Preserving Data Mining：PPDM）」をはじめ、さまざまな技術が考案されています。PPDMは、元データを秘匿しつつ、データの分析を可能にする技術ですが、入力データに対する加工や暗号化、出力データに対する加工など、複数の方法が存在します。次回以降ではその手法をそれぞれ体系化して紹介していく予定です。

*改定の議論 前述した内閣府が発行した大綱には、「……また、政府の成長戦略においては、データ利活用による産業再考を掲げており、特に利用活が高いとされるパーソナルデータについて、事業者の『利活用の壁』を取り払い、これまでと同様に個人の権利利益の侵害を未然に防止し個人情報及びプライバシーの保護を図りつつ、新産業・新サービスの創出と国民の安全・安心の向上等のための利活用を実現する環境整備を行うことが求められている」と明記されています。

終わりに

　ここまでは、企業が保有するデータを活用する上での留意点や現在行われている議論などを紹介してきました。本稿で紹介した通り、データそのもののリスク評価・リスク低減に加え、制度面、運用面などを含めて十分なリスク低減策を検討、実施した上で、データを広く活用していく必要があるという点は今後も非常に重要になります。

　一方で、先のオープンデータに関する事例紹介の中では、十分な匿名化を施したデータを基に、広く知見を求め、大きな成果を導いたケースを紹介しました。運用を含めて十分な対策を施した上でのデータ公開は、広く企業や組織、あるいは社会にとって有効なものとなり得ることでしょう。次回以降では、本稿にあるような課題を理解した上で、企業や組織がデータを活用する上で最低限理解しておくべき、「プライバシー保護データマイニング（PPDM）」の手法について紹介していきます。