Googleは機械学習に対応したモバイルSDK「ML Kit」の一般提供を開始した。合わせてSelfie Segmentation API β版のML Kitへの追加と、ML Kitに含まれるPose Detection API β版の機能強化も発表した。モバイルアプリケーション開発者が視覚処理と自然言語処理に関する機械学習を利用しやすくなる。
Googleは2021年3月9日(米国時間)、Googleのオンデバイス機械学習機能を利用したAndroidアプリケーションやiOSアプリケーションを開発するためのモバイルSDK「ML Kit」の一般提供を開始した。合わせて、Selfie Segmentation(自撮り写真分割)APIのβ版をML Kitへ追加し、ML Kitに含まれるPose Detection(姿勢検知)APIのβ版の機能強化を発表した。
ML Kitは、AndroidやiOSを対象とする開発者がアプリケーションで機械学習を簡単に利用できるようにすることを目指しており、2018年5月にGoogleがβ版を発表した。ML Kitには視覚と自然言語処理をベースにしたユースケースに役立つAPIセットが含まれており、Googleはこれらを急ピッチで拡充してきた。今回、Selfie Segmentation API、Pose Detection API、Entity Extraction(エンティティー抽出)APIを除く、ML Kitの全APIの一般提供を開始した。
Selfie Segmentation APIは画像内のユーザーと背景を簡単に分離し、重要なものにフォーカスする際に役立つ。
これまで、自撮り写真にクールな効果を加えたり、被写体を面白い背景に置いたりすることは、簡単ではなかった。
Selfie Segmentation APIは静止画と動画、全身と半身の画像に対応する。
Selfie Segmentation APIは、入力画像から出力マスクを生成する。マスクの各ピクセルには、0.0〜1.0の範囲にある浮動小数点数が割り当てられる。その数が1.0に近いほど、ピクセルが人を表す信頼度が高くなる。
動画を入力した場合、前のフレームの出力を利用して、スムーズな分割結果を返す。さらに同APIは、1人または複数の被写体のサポートや、リアルタイム処理、RAWサイズマスクといった機能も提供する。
Pose Detection APIはアプリケーション開発者が動画や静止画からリアルタイムで被写体の姿勢を検知するための多様な機能を提供する軽量ソリューションだ。
Googleは2021年2月に、Pose Detection APIをアップデートしている。アップデート内容の概要は次の通り。
GoogleによればZ座標は実験的な機能であり、顔を除く全ての点を対象に計算される。Z座標を推定する際には、Googleが開発した人体モデル(GHUMモデル)を用いている。
Z座標はX座標やY座標と同様に画像ピクセルで表される。Z軸はカメラに垂直な方向で、対象の臀部を通る。Z軸の原点は、臀部のほぼ中心点だ。Z値がマイナスの場合はカメラに近く、プラスの場合はカメラから遠い。Z座標には上限値や下限値は設定されていない。
Pose Detection APIのリリース後、開発者からGoogleに寄せられた要望は複数ある。中でもアプリケーション内で特定のポーズの分類を望む要望が多かったという。
そこで今回、ポーズ分類のチュートリアルとインタラクティブな「Google Colab」ページを公開した。分類チュートリアルでは、ML Kitを用いてAndroidサンプルアプリケーション内でカスタムポーズ分類器を構築して実行する方法を紹介した。腕立て伏せとスクワットの動画を対象にレップカウンターを実現したデモもある。
Copyright © ITmedia, Inc. All Rights Reserved.