画像をアップロード、または画像URLを指定することで、画像の分析処理を行うAPIだ。以下は、画像をアップロードし、レスポンスのJSONデータを加工して表示した例だ。
機能の一部を解説しよう。
その他に、「光学式文字認識(OCR)」「手書き文字の読み取り」「サムネイル画像を生成」「配色の区別」などの機能がある。
顔を検出して分析する機能がある。顔の検出については、以下の顔のランドマークを検出する。
ランドマークの情報以外にも多くの情報を取得する。図4上部の画像をアップロードすると、図4下部の情報が取得できる。
上記は情報の一部にすぎないが、アクセサリーとして眼鏡や頭に何か付けていることや、ひげやメイクをしているかなどを認識している。感情も取得しているが、感情だけを取得したい場合は、後述の「Emotion API(プレビュー)」で可能だ。
また、顔の検知の他に、以下の4つの機能がある。
ビジネスにリスクをもたらす不適切なコンテンツを追跡、フラグ付け、評価、フィルタリングすることを目的とした、監視プロセスのサービスだ。
ソーシャルメディアのWebサイトやゲームプラットフォームなどさまざまな環境で、画像、テキスト、動画を監視し、モデレーションすることができる。
画像で検知した顔の感情(幸福、悲しみ、驚き、怒り、恐怖、軽蔑、嫌悪、普通の8種類)を検出し、それぞれのスコアを出力する。スコアは、0〜1で表現される。以下は、サンプルの画像をアップロードした際の結果だ。
動画での顔検知と追跡、動作の検知、手振れ補正や動画サムネイルの作成ができるサービスであったが、2017年10月30日をもって終了となる。
このサービスに代わるサービス、Video Indexer APIについては後述する。
Computer Vision APIと似たサービスだが、Custom Vision Serviceでは独自のタグ付けをして学習が可能だ。REST APIからの利用だけでなく、ポータルサイト(https://customvision.ai/)で、画像のアップロードとタグ付け、トレーニングやテストを行うこともできる。
利用の一例として、マイクロソフトのテクニカルエヴァンジェリストちょまど(千代田まどか)氏が、「松屋の牛めし」か「吉野家の牛丼」かを判定させるデモアプリ「松屋警察」を作っている(図6)。「松屋の牛めし」と「吉野家の牛丼」の画像をそれぞれ用意して学習させるとCustom Vision Serviceの準備は完了だ。あとは、Xamarinで作られたモバイルアプリから画像を送り、結果のJSONデータを加工して表示することで実現している。
動画をアップロードすると、会話のテキスト化、翻訳(図8)、動画内の顔や誰が話しているかの認識、会話の感情分析など(図7)、さまざまな洞察結果を取得するサービスだ。REST APIと、ポータルサイト(https://vi.microsoft.com/)での操作が可能だ。分析された動画は、他のWebサイトなどに組み込むことも可能だ。
Copyright© Digital Advantage Corp. All Rights Reserved.