連載
» 2017年10月20日 05時00分 公開

これから始める人のための最新Cognitive Services入門AI・機械学習のクラウドサービス(2/7 ページ)

[横浜 篤,Microsoft MVP for AI]

視覚 ― Vison ―


Computer Vision API

 画像をアップロード、または画像URLを指定することで、画像の分析処理を行うAPIだ。以下は、画像をアップロードし、レスポンスのJSONデータを加工して表示した例だ。

computer-vision-sample 図2 Computer Vision APIに画像をアップロードし、結果を表示
・画像引用元:https://azure.microsoft.com/ja-jp/services/cognitive-services/computer-vision/

 機能の一部を解説しよう。

  • 画像の説明文を生成する: 画像に含まれるものを要約して文章を生成する。上の画像だと「a man swimming in a pool of water」(水のプールで泳いでいる男性)という文章が生成された。
  • 画像をタグ付けする: 生き物、風景、行動など2000以上のタグの中から、画像にタグ付けをする。この例では、「water」「swimming」「sport」などが付けられる。ユーザーが独自のタグを付けたい場合は、後述する「Custom Vision Service(プレビュー)」で可能だ。
  • 人間の顔を検知する: 画像内から人間の顔を検知し、顔の座標、性別や年齢の結果を返す。上の画像でも男性の顔を正しく検知できていることが確認できる。顔の検知に関してより多くの情報を取得したい場合は、後述の「Face API」で可能だ。
  • 成人向けコンテンツの判断: 性的内容を含む画像かを判断する。今回は男性が肌を多く露出しているが、成人向けコンテンツではないと、一般的に正しく判断している。

 その他に、「光学式文字認識(OCR)」「手書き文字の読み取り」「サムネイル画像を生成」「配色の区別」などの機能がある。


Face API

 顔を検出して分析する機能がある。顔の検出については、以下の顔のランドマークを検出する。

face-sample 図3 Face APIで検知する顔のランドマーク
・画像引用元:https://docs.microsoft.com/ja-jp/azure/cognitive-services/face/glossary

 ランドマークの情報以外にも多くの情報を取得する。図4上部の画像をアップロードすると、図4下部の情報が取得できる。

face-sample 図4 Face APIで検知する顔のランドマーク
・画像引用元:https://docs.microsoft.com/ja-jp/azure/cognitive-services/face/glossary

 上記は情報の一部にすぎないが、アクセサリーとして眼鏡や頭に何か付けていることや、ひげやメイクをしているかなどを認識している。感情も取得しているが、感情だけを取得したい場合は、後述の「Emotion API(プレビュー)」で可能だ。

 また、顔の検知の他に、以下の4つの機能がある。

  • 顔の確認: 1つの顔に対して、1人の顔と一致するかを判断する。
  • 似た顔の検索: 見た目が似ている顔を簡単に検索する。
  • 顔のグループ化: 見た目の類似性に基づいてグループにまとめる。
  • 顔の識別: 「似た顔の検索」と類似の機能だが、トレーニングをして精度を高めたうえで利用が可能。

Content Moderator

 ビジネスにリスクをもたらす不適切なコンテンツを追跡、フラグ付け、評価、フィルタリングすることを目的とした、監視プロセスのサービスだ。

 ソーシャルメディアのWebサイトやゲームプラットフォームなどさまざまな環境で、画像、テキスト、動画を監視し、モデレーションすることができる。


Emotion API(プレビュー)

 画像で検知した顔の感情(幸福、悲しみ、驚き、怒り、恐怖、軽蔑、嫌悪、普通の8種類)を検出し、それぞれのスコアを出力する。スコアは、01で表現される。以下は、サンプルの画像をアップロードした際の結果だ。

emotion-sample 図5 Emotion APIの結果例
顔が2つ検知され、「驚きの感情が最も高い」(赤文字表記)と認識されている。
・画像引用元:https://azure.microsoft.com/ja-jp/services/cognitive-services/emotion/


Video API(プレビュー)

 動画での顔検知と追跡、動作の検知、手振れ補正や動画サムネイルの作成ができるサービスであったが、2017年10月30日をもって終了となる。

 このサービスに代わるサービス、Video Indexer APIについては後述する。


Custom Vision Service(プレビュー)

 Computer Vision APIと似たサービスだが、Custom Vision Serviceでは独自のタグ付けをして学習が可能だ。REST APIからの利用だけでなく、ポータルサイト(https://customvision.ai/)で、画像のアップロードとタグ付け、トレーニングやテストを行うこともできる。

 利用の一例として、マイクロソフトのテクニカルエヴァンジェリストちょまど(千代田まどか)氏が、「松屋の牛めし」か「吉野家の牛丼」かを判定させるデモアプリ「松屋警察」を作っている(図6)。「松屋の牛めし」と「吉野家の牛丼」の画像をそれぞれ用意して学習させるとCustom Vision Serviceの準備は完了だ。あとは、Xamarinで作られたモバイルアプリから画像を送り、結果のJSONデータを加工して表示することで実現している。

custom-vision-sample 図6 Custom Vision Serviceの利用例
・画像引用元:https://www.slideshare.net/chomado/20170818xamarin-msaicustom-vision-service


Video Indexer(プレビュー)

 動画をアップロードすると、会話のテキスト化、翻訳(図8)、動画内の顔や誰が話しているかの認識、会話の感情分析など(図7)、さまざまな洞察結果を取得するサービスだ。REST APIと、ポータルサイト(https://vi.microsoft.com/)での操作が可能だ。分析された動画は、他のWebサイトなどに組み込むことも可能だ。

video-indexer-sample1 図7 Video Indexerのポータルサイト(1)
動画をアップロードするだけで、さまざまな分析結果が見られる。

video-indexer-sample2 図8 Video Indexerのポータルサイト(2)
キャプションの翻訳も可能。

Copyright© Digital Advantage Corp. All Rights Reserved.

RSSについて

アイティメディアIDについて

メールマガジン登録

@ITのメールマガジンは、 もちろん、すべて無料です。ぜひメールマガジンをご購読ください。