AI/機械学習のデータには、例えば診察情報/店頭映像/ネットコンテンツ抽出など「個人情報」や「個人の権利」が含まれる場合がある。「日本の個人情報保護法の下では、個人情報を含むデータはどう扱えばよいか?」を説明する。
この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。
AI・機械学習を行うにはデータが必要だ。そのデータは、患者さんの診療情報だったり、店頭にカメラを設置して無断で録画した情報だったり、インターネット上にあるコンテンツをスクレイピングによって抽出した情報だったりする。よくよく考えてみると、診察情報は患者にとって公開したくない「個人情報」であるし、勝手に録画された映像には「肖像権」、コンテンツには「著作権」という「個人の権利」を含んでいる。つまり「個人情報/個人の権利」は、「AI」に常につきまとう課題なのである。
日本の個人情報保護法の下では、AIのデータはどういった扱いになるのだろうか? この疑問に対する、非常に分かりやすい発表があった。具体的には、日本マイクロソフトが2019年10月7日に開催した「DLLAB Engineer Days Day2: Conference」という勉強会の「AIと個人情報」というセッションである(図1-1)。発表者は、STORIA法律事務所の柿沼太一氏だ(図1-2)。
このセッションでは、できる限り具体的なケースを例示しながら、「個人情報保護法の下でAIの学習データ/利用データをどう扱えばよいか?」が、個人情報にテーマを絞って説明された。本稿では、その内容をあますところなく書き起こし、読み物として筆者なりにまとめた(※なお、筆者自身は個人情報保護法について詳しいわけではなく、本稿の厳密性や、本稿により発生したいかなる損害やトラブルなどにおいても筆者や本サイトは責任を一切負わないので、その点はあらかじめご了承いただきたい。また本稿は、勉強会に参加した筆者が、自身の理解に従って書き起こしたもので、スピーカーの柿沼太一氏の監修などは受けていないので、本記事につき柿沼氏に問い合わせることなどはお止めいただきたい)。
図3は、AIの「生成フェーズ」と「利用フェーズ」の流れをまとめたもので、柿沼氏がセミナーでよく使う一般的な図とのことだ(実際に前回の記事「生データ使い放題?! 「日本は機械学習パラダイス」になった ― DEEP LEARNING LAB 勉強会:AIと法律・知財・契約 - @IT」の図3などでも使われている)。
上の「生成フェーズ」では、データを集めて、それからデータセットを作り、モデルに学習させる。下の「利用フェーズ」では、学習済みのモデルを利用する、という流れになっている。
この流れにおいて「個人情報」が関係するのは、図4に示す、学習用データの部分である。例えば医療AIや顔認証AIなどを生成するためのデータ(具体的には診療データや、顔写真といった画像データなど)には個人情報が含まれるだろう。
ちなみに、Web上にあるコンテンツをスクレイピングして無断で使う場合には著作権に関する問題も発生するが、今回はその点について説明しない。
もう一つが、図5に示す、AI利用フェーズでの入力用データの部分である。学習済みモデルに対して入力するデータには、個人情報が含まれる可能性がある。これは何もAI特有の問題ではなく、普通のソフトウェアでも発生する問題でもある。
この2種類の個人情報について説明していく。
まずは具体例から説明する(図7)。なお、下記の具体例は「特定の事例」を指すわけでないので注意してほしい。
要約すると、下記のようなデータには個人情報が含まれている。
AIで学習/入力に使用する際には個人情報保護法が絡んでくるので、「どうすればよいか」という相談が登壇者である柿沼氏の事務所にはよくあるとのことである。その相談に対して柿沼氏が回答している「判断方法」が、図8に示す3つのポイントである。
要するに、
ということだ。特に3つ目が重要である。本稿ではこの3点を順に説明していく。
覚えておいていただきたいのが、個人情報には3種類あるということである(図10)。
スライド内容をあらためて説明すると、
といったデータは個人情報に該当する。
なお、1番目と2番目は違うものなので区別する必要がある。1番目は個人情報だと分かることが多いが、2番目は「実際にどういうデータを管理しているか」によって変わるので分かりづらいケースが多い。
それぞれの具体例を説明しよう。例えば図11は、ある病院(以下、A病院)が保有する「ある患者の診療データ」の例である。
表データを見ると、[患者データ]として、まず「患者ID」があり、「氏名」「住所」「年齢」「画像ID」と続いている。そして[画像データ]が、「画像ID」により各患者データにひも付けられて存在する。
まず[患者データ]の内容(氏名や住所など)は、誰が見ても「個人情報である」と分かるだろう。先ほどの「3種類の個人情報」の1番目に該当する。
図11の【問題】を見てほしい。では、[画像データ]に表示されている脳の画像は「個人情報」なのだろうか? この問題の前提として、A病院がAIベンダー(以下、ベンダーB)に対してAIの開発を発注する際、[患者データ]は提供せず、[画像データ]のみを提供すると想定しよう。このように画像データのみであっても、やはり「個人情報」なのだろうか、という問いである。
ここで注意しなければならないのが、「誰の目から見て個人情報なのか」という観点で考える必要があるということだ。
まず、A病院の目から見ると、脳の画像だけでは「誰のものであるか」は一般的には識別できないが、容易に画像IDと照合できる(=容易照合性がある)ので個人を識別できることになる。つまりA病院にとっては、先ほどの「3種類の個人情報」の2番目に該当する、というわけだ(図12)。
では次に、ベンダーBの目から見ると、どうだろうか? ベンダーBは個人情報にひも付く患者データは保有していない、という前提だ(図13)。
この状況下で、先ほどの「3種類の個人情報」に当てはめると、1番目にも2番目にも該当しない(図14)。よってベンダーBにとっては、個人情報ではない、と判断できる。
以上のように、同じデータであっても、立場の違いによって個人情報の扱いが変わってくるので注意が必要だ。
今回は詳しく説明する時間的な余裕はないが、「個人情報の提供」に関しても簡単に言及しておこう。
先ほどのA病院からベンダーBに脳画像データを提供する行為が「個人情報の提供」ということになると、当然、患者さんの同意が必要になる。よって、その提供する行為が「個人情報の提供」になるのか/ならないのかを判断しなければならない。では、この判断は、A病院の観点、ベンダーBの観点、どちらで考えるべきなのだろうか?
これについては、提供元で判断する、ということになっている。つまりA病院の観点で考えるので、たとえ脳の画像データのみであっても、「個人情報の提供」になる、のである。そのため、患者本人の同意が必要となる。もし患者本人の同意なしで、A病院がベンダーBに脳画像データを提供したいのでれば、提供元で「匿名加工」するしかない。
匿名加工とは、逆に容易照合性が失われるように、情報を匿名に加工することだ。例えば前掲の図13の場合、[患者データ]と[画像データ]が画像ID経由でひも付いているので、それを切り離す。具体的には、脳画像を別のデータグループに保存したり、データの管理者を別々にして画像IDによって[患者データ]を照合できないようにしたりすればよい。ただし、匿名加工は提供元であるA病院側の負担が大きくなるので、現実に実施する際には「どうやってやるのか」が問題になることが多い。
Copyright© Digital Advantage Corp. All Rights Reserved.