APIコールだけでおよそ欲しい画像認識系の機能が使えるGoogle Cloud Vision APIとは：Raspberry Piとちょっとのコード実装で「バナナです」

グーグルの画像認識APIが限定プレビューに。画像認識や分類などの手間の掛かる実装をAPIコールで外に出せるため、一般的な用途であれば端末側を賢く作り上げる必要がなくなる。

LINE

Hatena

　2015年12月2日、Google Cloud PlatformのプロダクトマネジャーであるRam Ramanathan氏が、Google Cloud Vision API（以下、Cloud Vision API）の限定プレビュー版を発表。既にソニーモバイルコミュニケーションズの子会社で商用ドローンなどの事業を手掛けるAerosense（エアロセンス）がアーリーテスターとしてこのAPIを利用しているという。

顔の各パーツの座標などを検出できる（出典：Cloud Vision APIのYoutube動画、以下同様）

　Ramanathan氏は「Cloud Vision APIはあらゆるタイプのアプリケーション開発者にゲームチェンジをもたらすもの」だと記している。というのも、画像認識や自動分類などの機能をAPIコールで簡単に利用できるからだ。このAPIは、グーグルが先日提供を開始した機械学習ライブラリ「TensorFlow」の機能を、複雑なプログラムを組むことなく利用できるようにしている。特殊なパターンや分類方法を学習させて利用するような用途でなければ、このAPIで処理をまかなえるものも少なくないだろう。

　Ramanathan氏によると「Cloud Vision APIは迅速に画像を数千にも及ぶカテゴリに分類し、関連する感情と共に顔を認識し、多様な言語で書かれた印刷物の単語を理解できる」という。Cloud Vision APIを利用すると画像カタログにメタデータを構築でき、不快な画像の表示を防いだり、画像が含む「感情」の分析を基にした新しいマーケティングシナリオを構築したりすることができる。あるいは、画像に含まれる象徴的な要素に対してラベル付けを行うことで、画像ベースの検索やレコメンドも可能だ。この他、製品ロゴや一般的なランドマークも検出できるという。

　すでにYouTubeにはCloud Vision APIを利用したロボットのデモ動画が公開されている。周辺の物体を認識しながら走行するだけでなく、「笑顔」を認識することもできるという。Raspberry Piをベースにしたロボット開発キット（GoPiGo）と数百行程度のPythonコードで実装している。

Youtubeのデモ

「バナナです」　カテゴリ“BANANA”が返されている

　現在、登録制の限定プレビュー版ではリクエストの一部として画像を埋め込めば、このAPIを無料でコールできるようになっており、正式サービスでの料金は今後アナウンスするとしている。なお将来的には、Google Cloud Storage上でのシステム構築を可能にする予定。グーグル自身が画像に関連するデータを保有することはないとしている。

APIコールだけでおよそ欲しい画像認識系の機能が使えるGoogle Cloud Vision APIとは：Raspberry Piとちょっとのコード実装で「バナナです」

関連記事

関連リンク

Coding Edge 記事ランキング