検索
ニュース

Google、虹彩追跡のための機械学習モデル「MediaPipe Iris」を公開コンピュータによる写真撮影やARエフェクト、ユーザビリティ向上などに利用可能

Googleは、虹彩の追跡によって目の位置の推定を正確に行うための機械学習モデル「MediaPipe Iris」を公開した。

Share
Tweet
LINE
Hatena

 Googleは2020年8月6日(米国時間)、虹彩の追跡によって目の位置の推定を正確に行うための新しい機械学習(ML)モデル「MediaPipe Iris」を公開したと発表した。

 虹彩の追跡による目の位置の推定は、コンピュータによる写真撮影や拡張現実(AR)エフェクトの提供など、幅広い用途に利用されている。

 MediaPipe Irisは、顔の大まかな形状のメッシュを生成する「MediaPipe Face Mesh」に関するGoogleの取り組みに基づいている。


MediaPipe Face Meshは、仮想アバターを動かすのに利用できる(中、右)。虹彩追跡も併せて利用すると(右)、アバターがもっと生き生きとする(出典:Google AI Blog

 1つのRGBカメラを使って虹彩や瞳、目の輪郭などをリアルタイムで追跡でき、特殊なハードウェアは不要だ。虹彩の追跡により、深度センサーを使うことなくカメラと対象の計測距離を10%未満の相対誤差で判定できるという。


MediaPipe Irisによる目の色付け(出典:Google AI Blog

 MediaPipe Irisは、MLソリューションやアプリケーションを作成するためのオープンソースのクロスプラットフォームフレームワークである「MediaPipe」で実装されているため、ほとんどのスマートフォン、デスクトップPC、ノートPC、Webで動作するという。

 なお、「MediaPipe Irisによる虹彩追跡では、人が見ている場所の推測や、いかなる本人確認も行われない」とGoogleは述べている。

虹彩追跡のMLパイプライン

 MLパイプラインの最初のステップでは、MediaPipe Face Meshが生成する顔の大まかな形状のメッシュから、虹彩追跡モデルで使用するオリジナル画像の目の領域を分離する。

 これにより、問題が目の輪郭の推定と、虹彩の位置探索の2つに分割される。Googleは、各タスクの独立したコンポーネントを持つユニファイドエンコーダーで構成されるマルチタスクモデルを設計した。これにより、タスク固有のトレーニングデータが使用可能になった。


虹彩(青)とまぶた(赤)の追跡例(出典:Google AI Blog

 切り取った目の領域のデータでモデルをトレーニングするために、Googleは5万点弱の画像に手動で注釈を付けた。これらの画像は下のように、多様な地理的地域で撮られたもので、照明条件も頭部の姿勢もさまざまだ。


まぶた(赤)と虹彩(青)の輪郭がプロットされた目の領域(出典:Google AI Blog

切り取った目の領域がモデルに入力され、モデルは複数のコンポーネントでランドマーク(目印)を予測する(出典:Google AI Blog

カメラと対象の距離

 MediaPipe Irisが、カメラと対象の計測距離を10%未満の誤差で判定できるのは、多くの場合、人間の虹彩の水平直径が、11.5±0.5ミリで、ほぼ一定であることと、幾何学の簡単な論理のおかげだ。


左:「Pixel 2」で動作するMediaPipe Irisが虹彩追跡のみで行う計測距離の予測、右:実測距離の目安(出典:Google AI Blog

 GoogleはMediaPipe Irisモデルを拡張し、誤差を減らしてより安定した虹彩追跡を可能にすることで、アクセシビリティーをサポートするユースケースにこのモデルを適用する計画だ。

Copyright © ITmedia, Inc. All Rights Reserved.

ページトップに戻る