その「ひも付ける」仕掛けが図2です。左下の就活生がWebサイトを日々閲覧していると、その閲覧履歴がリクルートコミュニケーションズのDMPのサーバに送られるようになっていたと。共通の計測タグを各WebサイトにHTMLの一部として埋め込んでおくことでこういう動作になるわけです。
そのデータと本人を結び付けるために、右側にあるような「uid=0001」と番号を付けたURLを、求人企業がアンケートと称して就活生にアクセスさせたようです。この罠(わな)に引っ掛かって就活生がクリックすると、uidの番号とcookieのIDがひも付くわけです。スパム業者がやっているのと同じ手口です。
山本 内部突合ですね。この手口であれば、完全な本人特定に近いところまでいくかと思いますけれども。
高木 そうです。求人企業は当然ながら、本人の氏名といいますか、本人そのものを扱っておりますので、それと突合するということですね。こういう方法で行われていたと。
続けて、分析をどうしていたか、5段階評価をどうやって計算したかについてです。これは機械学習を使ってやったようです。前年度の実績として辞退者のリストを求人企業からもらいます。リクナビは辞退者たちの閲覧履歴を持っているので、それを先ほどの方法で突き合わせたうえで機械学習にかけます。そうすることで予測モデルが出来上がったわけです。その内容がどのようなモデルになっていたかは何も明らかにされていませんし、リクナビ自身にとってもブラックボックスだったようです。そして、そのモデルに次の年の内定候補者のリストを当てはめると、今年度の予測としてそれぞれの候補者の予測スコアが出てくる、というわけです。
山本 この機械学習の方法について、詳細がリクルートキャリアから公開される予定はあるんでしょうかね。
高木 それは聞いたことがないですね。会見でもそこを質問している記者はいなかったと思います。
山本 もし、機械学習の内容を本当に問題視するようであれば、個人情報保護委員会の立入検査の中で詳細なものが分かったところで、さらに一段重い処分が下るような向きもあるかと思いますが。
高木 おお、そんな可能性があるんですか。
山本 お話が前後しますが、「個人情報保護委員会の立入検査ではどこに何の情報があるのか、それが何の意味を持つのか分からないままになっているのではないか」と言っている人もいるようです。「立入検査で何をすれば、問題の全容を知るために知るべきことが分かるのか」がきちんとフォローしきれていなかったのではと、メディア関係者や、実際に個人情報保護委員会に関わる方面から聞こえています。
高木 機械学習の内容については後でまた触れますが、この学習結果に正確性があったのか検証をする必要があると思います。個人情報保護法19条の正確性の確保をしていたかどうか。
また、採用の判断には使わない約束でスコアを提供していたということでしたが、実際に使ったか使っていないかは、スコアとその年の内定者のリストを突き合わせれば統計的に分かるはずです。立入検査はまさにそういうところを調べてほしいですね。
山本 ある意味「リクルートキャリアが公式にどのように釈明しているのか、弁明しているのか」と、「その結果報道された事実」や「実際の利用企業、学生などから事後的に出てきた話」があまりにも相違があると、結構な問題の波及になっていくのかなと思うのですが。
高木 恐らく、まだ求人企業側に個人情報保護委員会や厚労省の執行が行われていない段階、準備中の段階にあるので、その結果が出るまでは、リクルートキャリアとしては何も言えない状況にあるのではないかと思います。
Copyright © ITmedia, Inc. All Rights Reserved.