ロボットにDeep Learningを導入して画像認識の精度が向上すると、どう便利になるのか:ロボットをビジネスに生かすAI技術(7)(1/2 ページ)
Pepperや自動運転車などの登場で、エンジニアではない一般の人にも身近になりつつある「ロボット」。ロボットには「人工知能/AI」を中心にさまざまなソフトウェア技術が使われている。本連載では、ソフトウェアとしてのロボットについて、基本的な用語からビジネスへの応用までを解説していく。今回は、Pepperで使われているDeep Learningを例に、精度が高い画像認識機能を持つロボットの利点を解説する。
書籍の中から有用な技術情報をピックアップして紹介する本シリーズ。今回は、秀和システム発行の書籍『図解入門 最新 人工知能がよーくわかる本(2016年7月4日発行)』からの抜粋です。
ご注意:本稿は、著者及び出版社の許可を得て、そのまま転載したものです。このため用字用語の統一ルールなどは@ITのそれとは一致しません。あらかじめご了承ください。
※編集部注:前回記事「FinTechにおけるロボット/人工知能の活用事例――集客、接客、資産運用アドバイス、ファンドマネージャ」はこちら
ロボットのディープラーニング活用法
現時点で、ディープラーニングが最も効果を発揮できるのは、画像認識や音声認識だと言われています。従来のパターン認識やパターンマッチングに代わって、ディープラーニングが大きな効果を上げることがわかってきたのです。
従来の画像認識とディープラーニング
従来、画像認識で最も一般的に利用されてきた技術のひとつがパターン認識で、指紋認証やカメラの顔認識機能の例を紹介しました。FBIや刑事が主人公のドラマや映画でも、監視カメラに写っている人物を犯罪者データベースの顔写真と照合して、同一人物を割り出すというシーンがお馴染みですが、これも基本的には輪郭や目や鼻、口の形や位置などが合致しているかどうかで判断するものが中心になっているので、ディープラーニングを導入すると識別率が格段に向上するでしょう。
立体のものを認識する場合は、同じ方向から見るとは限りません。カメラの顔検出も、正面を向いた写真を中心にデータが蓄積されてアルゴリズム作成の素になっていましたが、実際の撮影時には被写体の顔は斜めに傾いていたり、横顔だったりもします。また、正面で認識したものを追尾し、横顔になっても追尾しつづけるといった技術も導入されています。同じ方向からきちんと見せれば高い精度で認識するという段階から、異なる角度でも被写体を認識するといった段階に進化が求められました。
パターン認識の場合はこれに対応するため、元になる大量の顔データに斜めから撮ったものや横顔を追加し、判別する対象となるパターンをルールとともに増やすことで認識精度を上げてきた経緯があります。最近のペットブームで、人間の顔だけでなく、一部の犬や猫の顔を認識する機能も出はじめていますが、これも同様にいろいろな種類のペットの顔を元のデータベースに加えることで適用範囲を増やしています。
しかし、人間の脳は必ずしも目や鼻の形や位置で個々人を判別しているわけではありません。また、ボトルやシャンプー、アイロン、電話機など、さまざまなものの形状を前や横、裏から撮った写真を登録していくのは人間の手間がかかります。もしも商品をぐるっと見せるだけで、機械が覚えてくれれば、とても便利になります。ディープラーニングではこれを画像から「特徴量」を割り出す、と言います。ここでは、この技術をロボットに活用した例を紹介します。
ディープラーニングとロボット
ディープラーニングは、特に画像の認識や解析で成果を上げはじめています。そのため、ロボット分野でも開発や導入が急速に進められています。
ディープラーニングをうまく導入することによって、画像認識の精度が格段に向上します。また、画像を認識するための登録作業も簡単になります。実際にロボットに導入されていたり、もしくは今後導入されたりする事例を紹介します。
ソフトバンクが2015年7月に開催した「SoftBank World 2015」、ここでの基調講演で孫氏はPepperに開発中のディープラーニングを組み込んだ例として、実例デモを披露しました。その時点ではまだ開発中のために演出が加味されていますが、それでも活用事例をイメージするのには良い機会でした。
デモの内容
デモの舞台はドラッグストア。まず、アシスタントの女性がいくつかの商品を入れたカート(買い物かご)を押して、孫氏とPepperが待つステージ上に出て来ました。Pepperがドラッグストアの店員、孫氏はドラッグストアに来たお客さん役です。孫氏はカートの中から商品をひとつ取り出して、Pepperの顔の前に差し出して見せます。
Pepperは孫氏が持っている商品を額にあるカメラで画像認識し、「○×石鹸ホワイトです、肌にやさしく洗える、クリームみたいな石鹸です♪」と言って、商品名と特徴を音声で説明しました。
続いて孫氏がシャンプーのボトルを差し出して見せると、Pepperは「○×薬用シャンプーです。吸い込む泡が毛穴の脂もニオイもすっきりと落とします♪」と説明します。孫氏はその様子に感心しながら「育毛効果もあるといいんだけど・・」と返して会場がどよめく一面もありました。
技術的に見るとこの一連の流れは、お客さんが差し出した商品を画像として読み込み、製品部分を的確に抽出して形状やデザインを認識、商品名を特定して解説する、といったものです。ここにまずディープラーニングの解析能力の高さがあります。
続いて、孫氏が三つ目の商品であるハミガキ剤をPepperの顔の前に差し出します。
しかしPepperは「すいません♪、それは覚えていません、教えてもらえますか?」と回答します。Pepperが記憶している商品リスト、いわゆるデータベースに載っていない商品だったようです。
そこで孫氏が「そうか、じゃあ教えよう」と言って、再度ハミガキ剤をPepperの顔の前に差し出し、「これはね○×クリーンEXだよ」とパッケージから読んでPepperに教えます。
するとPepperは「ディープラーニングぅぅ♪」と両手を上げて叫び、「はい、覚えましたぁ♪ もう一度見せてください」と言います。
再び、孫氏がハミガキ剤をPepperに見せて「これはなにかな?」と聞くと「それは○×クリーンEXフレッシュミントです。歯のミクロのデコボコにある歯垢を落とす新商品です♪」と答えました。
孫氏は「商品名を覚えただけじゃなくて、商品の説明文を自分で検索したのか」と感心し、商品の説明までこなしたPepperを褒めてあげます。気分をよくしたPepperは、「僕は将来このように、ディープラーニングとワトソン(IBM Watsonの意)を組み合わせてどんどん学習していきます♪」と宣言しました。
商品の実物をロボットに見せて、商品名を言うだけでロボットが正確に形状を学習する、という点が機械学習、ニューラルネットワーク、ディープラーニングが優れた点です。
実は、このハミガキ剤「○×クリーンEX」にはフレッシュミント、スプラッシュクール、リッチシトラスの3つの味があります。お客さんがPepperに教えた情報は「○×クリーンEX」のみでしたが、画像からそれが「フレッシュミント」であることも劇中では特定しています。お客さんが見せた画像から製品部分を抽出して基本的な商品名を特定し、それを素にインターネット上の情報を検索して、三種類あることを学習、該当の商品はそのうちのひとつ「フレッシュミント」であり、その商品の説明部分を抽出して記憶、読み上げるという例を演出したデモでした。
この流れを図式にすると、次のように考えられます。そして、その画像認識や説明解析の部分にディープラーニングや人工知能の要素技術が活用されます。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
- 2015年に大ブレイクした「Deep Learning」「ニューラルネットワーク」を開発現場視点で解説した無料の電子書籍
人気連載を1冊にまとめてダウンロードできる@ITの電子書籍。第16弾は、「いまさら聞けないDeep Learning超入門」だ。 - Recurrent Neural Networkとは何か、他のニューラルネットワークと何が違うのか
本連載では、Deep Learningの中でも、時系列データを扱うRecurrent Neural Networkについて解説。加えて、その応用方法として原稿校正(誤字脱字の検知)の自動化について解説します。 - AlpacaDBがDeep Learningを使った自動取引アプリを公開
米AlpacaDBは、為替市場での自動取引アルゴリズムを設計できるiPhone向けモバイルアプリ「Capitalico(キャピタリコ)」の提供を開始した。