米大学研究者、回答者のプライバシー保護のために調査データを変更する新しい方法論を提唱:ゲノム配列決定アプリケーションで使われる手法がベース
ドレクセル大学とバンダービルト大学の研究者のチームが最近発表した論文で、調査データが共有される場合に、消費者のプライバシー保護のためにデータを恒久的に変更し、その一方でデータの精度を維持する新しい方法論を提唱した。
米国のドレクセル大学とバンダービルト大学の研究者のチームが、2020年2月に「Journal of Marketing Analytics」で発表した論文で、調査データが共有される場合に消費者のプライバシー保護のためにデータを恒久的に変更し、その一方でデータの適切な精度を維持する新しい方法論を提唱した。
この論文は、ドレクセル大学ルボーカレッジオブビジネスの決定科学および管理情報システム学助教授マシュー・シュナイダー博士と、バンダービルト大学のドーン・アイアコブッチ博士が著した。
同論文の著者によると、調査データは多くの場合、組織内で保持され、データはもともとの収集目的以外の用途でも使われる。これはプライバシーにとって脅威となる。「データベースや顧客情報は、企業が提携するときに、相手企業にとって自社の魅力の源泉となる現代的な資産だ。高いデータセキュリティ基準を持つ企業にとっても、消費者データのプライバシー保護は難しい場合がある」(シュナイダー氏)
これほど一般的ではないが、もう1つの現実的な脅威が、従業員が転職先に、これまでの勤務先からデータを違法に持ち出すことだ。その理由は、「転職先で好印象を得る」「これまでの勤務先に害を与える」「データ提供が転職の条件である」などだ。
シュナイダー氏は、データプライバシー保護の約束を果たすためのソリューションは、技術的なものになっていると指摘する。
「調査データは、他のプロプライエタリデータセットとの関連など、回答者レベルの分析にますます使われるようになっている。データが事後的に何度も使われる中で、プライバシー保護は保証されないかもしれない。機密性は匿名性を保証しない。調査の中で、注意深く作られた3つか4つの設問を立てることで、誰かを一意に識別できる」(シュナイダー氏)
著者は論文で、2015年に米国テキサス州オースティン市で収集され、オープンデータ運動を受けて公開された調査データセットを分析した。ニューヨークやフィラデルフィアなどの市でも同様の運動が行われている。
「オープンデータの取り組みには、多くのプライバシーリスクがある。これらを進める地方政府は連邦政府と比べて、プライバシー保護という技術的な問題に対処するための予算やリソースが潤沢ではないからだ」(シュナイダー氏)
洞察精度の誤差を5%以内に保ちつつプライバシー保護が可能に
オースティン市は、同市在住のアジア系米国人2614人に対する調査を行った。健康状態や行政サービスニーズの把握が目的だ。市の担当者は、要望に応えてこれらのデータセットを、すぐに使用できる形でユーザーに公開した。
ある調査では、各回答者は民族的起源(32カテゴリー)、年齢(77カテゴリー)、郵便番号(61カテゴリー)、性別を尋ねられた。
「この4つの変数から、ほぼ全ての人が特定できる。この調査では他にも、雇用状態、信仰している宗教、世帯収入、支出可能な住宅予算、考え方を問うさまざまな質問に対する回答結果も公開された」(シュナイダー氏)
ニューヨーク市も同様に、オープンデータの問題を経験した。ニューヨーク市タクシーリムジン委員会が公開した1億2400万件の運行ルートのデータにより、ドライバーの自宅住所まで追跡することができたという問題だ。
調査データを効果的に変更する方法論を考える際の1つの大きな課題は、調査結果の精度を大きく変えない方法が必要なことだ。著者が提唱した方法論は、ゲノム配列決定アプリケーションに見られる手法に基づいている。洞察精度の誤差を5%以内に保ちながら、消費者の身元を隠すというものだ。
「われわれの方法論は基本的に、調査データセットの人口統計データを“シャッフル”する。だが、これまでの方法とは異なり、分析に不可欠な重要な変数間の相関関係を維持する限りにおいて、データをシャッフルする。保護されるデータは消費者レベルでシミュレートされるが、エンドユーザーにとっては有益だ。このデータセットが公開されても、公開元組織の洞察しか知られることはない」(シュナイダー氏)
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
- 無断でダウンロードしたデータでもAI開発に使える? 改正著作権法を弁護士が解説
AIモデル開発を目的とするなら、著作権者に許諾を得ずとも、データのダウンロード、整形、加工がより広い範囲で行えるようになった。弁護士法人STORIAの柿沼太一弁護士が、2019年1月1日に施行された「改正著作権法」のポイントとAIモデル開発時の注意点について解説した。 - 生データ使い放題?! 「日本は機械学習パラダイス」になった ― DEEP LEARNING LAB 勉強会
2019年1月1日施行の「著作権法30条の4」により、日本ではAIの学習済みモデルの生成にネット上の情報が(ほぼ)自由に使用できるという。DEEP LEARNING LAB 勉強会で説明された、その内容を紹介する。 - プライバシーフリーク、就活サイト「内定辞退予測」で揺れる“個人スコア社会”到来の法的問題に斬り込む!――プライバシーフリーク・カフェ(PFC)前編 #イベントレポート #完全版
学生の就職活動を支援するための「人材」サービスが、本人の権利利益をないがしろにして己の利益のためだけに野放図に使っていたことこそが、問題だ!(by厚生労働省)――リクナビ事件の問題点を、鈴木正朝、高木浩光、板倉陽一郎、山本一郎の4人がさまざまな角度で討論した。※本稿は、2019年9月9日時点の情報です