顔認証技術は優れた認証技術の一つだ。だが、別途手に入れた写真などを使って破られる場合がある。ブリガムヤング大学の研究者は顔の表情の変化を捉えた1〜2秒間の映像を利用して、顔認証技術を強化する手法を開発した。
この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。
ブリガムヤング大学は2021年3月15日(米国時間)、顔認証技術を強化する手法を開発したと発表した。
顔の静止画像を使って携帯電話などのロックを解除する技術は、優れたセキュリティとして機能している。しかし、どんな高度な技術であっても、破られる運命にある。例えば寝ている間に顔を撮影されて携帯電話のロックを解除されたり、ソーシャルメディアの写真を使って解除されたりする。指紋や網膜スキャンなど、他の生体認証システムも同じ問題をはらんでいる。最先端の本人確認技術にも重大なセキュリティ上の欠陥があるのだ。
こうした中、ブリガムヤング大学の電気・コンピュータ工学の教授であるD.J.リー氏は、顔だけでより強いアクセス制限をかける、安全で優れたC2FIV(Concurrent Two-Factor Identity Verification)技術を考案した。
C2FIVでは顔の静止画像と併せて特定の顔の動きを用いる。カメラに向かって固有の顔の動きを記録するか、または秘密のフレーズを読んだときの唇の動きを1〜2秒の短い動画で記録する。C2FIV技術では動画そのものを利用することはしない。静止画の顔の特徴と顔の動きの特徴量をそれぞれ抽出して、ID認証のために保存する。
「私たちが解決しようとしている最大の問題は、本人確認のプロセスを意識的にすることだ。誰かが意識を失っていても、その人の指を使って携帯電話のロックを解除し、デバイスにアクセスすることができる。網膜をスキャンすることもできる。トム・クルーズが演じた『ミッション・インポッシブル』の主人公イーサン・ハントが、マスクを使って他人の顔を再現していたように、映画でもよく見掛ける光景だ」(リー氏)
C2FIVでは、顔の静止画の特徴と動画を同時に学習するために、統合されたニューラルネットワークフレームワークを採用した。
このフレームワークは、顔の動きのような動的で連続したデータをモデル化するもので、動画の全てのフレームを用いる(顔の輪郭だけを用いる静止画とは異なる)。
ユーザーの顔の特徴や顔の動きの特徴量を抽出し、サーバや組み込み機器に保存しておき、後にアクセスしようとしたときに、新しく生成された特徴量と保存された特徴量を比較する。両者が一定のしきい値内で一致した場合、ユーザーIDとして認証される。
「ユーザーが面倒な操作をすることなく、保護レベルを高められることが、この技術のユニークな点だ」(リー氏)
今回の研究は、リー氏と博士課程学生のジョン・サン(Zheng Sun)氏が進めたものだ。ニューラルネットワークの学習のために、50人の被験者を使って、まばたきやあごを下げる動作、笑顔、眉を上げる動作などさまざまな顔の動きを8000本の短い動画として記録した。
その後、顔の動きを入力して作った特徴量と記録された特徴量を比較し、一致したものと不一致だったもののデータセットを作成し、一致した対に高いスコアを与えた。学習を続けた結果、ニューラルネットワークは90%以上の精度で、本人確認が可能になったという。さらにデータセットを増やし、ニューラルネットワークを改良することで、より高い精度に到達できるとした。
今回の技術は例えばAppleの顔認証技術と競合したり、スマートフォンアクセスに特化したりしたものではないと、リー氏はいう。C2FIVは、職場内の制限区域への立ち入りやオンラインバンキング/ATMの利用時、貸金庫へのアクセス、ホテルの部屋への入室、車のキーレスエントリーなど、より幅広い用途に使えるのだという。
「カメラを搭載した非常に小さなデバイスを作り、このデバイスをさまざまな場所に簡単に設置できるだろう。車の鍵を盗まれても、顔の動作を知らない犯罪者人が車を動かすことができないとしたらどうだろうか。この技術は非常に役立つと考える」(リー氏)
Copyright © ITmedia, Inc. All Rights Reserved.