これから始める人のための最新Cognitive Services入門：AI・機械学習のクラウドサービス（2/7 ページ）

» 2017年10月20日 05時00分公開

[横浜篤，Microsoft MVP for AI]

視覚 ― Vison ―

Computer Vision API

　画像をアップロード、または画像URLを指定することで、画像の分析処理を行うAPIだ。以下は、画像をアップロードし、レスポンスのJSONデータを加工して表示した例だ。

図2　Computer Vision APIに画像をアップロードし、結果を表示
・画像引用元：https://azure.microsoft.com/ja-jp/services/cognitive-services/computer-vision/

　機能の一部を解説しよう。

画像の説明文を生成する： 画像に含まれるものを要約して文章を生成する。上の画像だと「a man swimming in a pool of water」（水のプールで泳いでいる男性）という文章が生成された。
画像をタグ付けする： 生き物、風景、行動など2000以上のタグの中から、画像にタグ付けをする。この例では、「water」「swimming」「sport」などが付けられる。ユーザーが独自のタグを付けたい場合は、後述する「Custom Vision Service（プレビュー）」で可能だ。
人間の顔を検知する： 画像内から人間の顔を検知し、顔の座標、性別や年齢の結果を返す。上の画像でも男性の顔を正しく検知できていることが確認できる。顔の検知に関してより多くの情報を取得したい場合は、後述の「Face API」で可能だ。
成人向けコンテンツの判断： 性的内容を含む画像かを判断する。今回は男性が肌を多く露出しているが、成人向けコンテンツではないと、一般的に正しく判断している。

　その他に、「光学式文字認識（OCR）」「手書き文字の読み取り」「サムネイル画像を生成」「配色の区別」などの機能がある。

▲APIの一覧に戻る

Face API

　顔を検出して分析する機能がある。顔の検出については、以下の顔のランドマークを検出する。

図3　Face APIで検知する顔のランドマーク
・画像引用元：https://docs.microsoft.com/ja-jp/azure/cognitive-services/face/glossary

　ランドマークの情報以外にも多くの情報を取得する。図4上部の画像をアップロードすると、図4下部の情報が取得できる。

図4　Face APIで検知する顔のランドマーク
・画像引用元：https://docs.microsoft.com/ja-jp/azure/cognitive-services/face/glossary

　上記は情報の一部にすぎないが、アクセサリーとして眼鏡や頭に何か付けていることや、ひげやメイクをしているかなどを認識している。感情も取得しているが、感情だけを取得したい場合は、後述の「Emotion API（プレビュー）」で可能だ。

　また、顔の検知の他に、以下の4つの機能がある。

顔の確認： 1つの顔に対して、1人の顔と一致するかを判断する。
似た顔の検索： 見た目が似ている顔を簡単に検索する。
顔のグループ化： 見た目の類似性に基づいてグループにまとめる。
顔の識別： 「似た顔の検索」と類似の機能だが、トレーニングをして精度を高めたうえで利用が可能。

▲APIの一覧に戻る

Content Moderator

　ビジネスにリスクをもたらす不適切なコンテンツを追跡、フラグ付け、評価、フィルタリングすることを目的とした、監視プロセスのサービスだ。

　ソーシャルメディアのWebサイトやゲームプラットフォームなどさまざまな環境で、画像、テキスト、動画を監視し、モデレーションすることができる。

▲APIの一覧に戻る

Emotion API（プレビュー）

　画像で検知した顔の感情（幸福、悲しみ、驚き、怒り、恐怖、軽蔑、嫌悪、普通の8種類）を検出し、それぞれのスコアを出力する。スコアは、0～1で表現される。以下は、サンプルの画像をアップロードした際の結果だ。

図5　Emotion APIの結果例
顔が2つ検知され、「驚きの感情が最も高い」（赤文字表記）と認識されている。
・画像引用元：https://azure.microsoft.com/ja-jp/services/cognitive-services/emotion/

▲APIの一覧に戻る

Video API（プレビュー）

　動画での顔検知と追跡、動作の検知、手振れ補正や動画サムネイルの作成ができるサービスであったが、2017年10月30日をもって終了となる。

　このサービスに代わるサービス、Video Indexer APIについては後述する。

▲APIの一覧に戻る

Custom Vision Service（プレビュー）

　Computer Vision APIと似たサービスだが、Custom Vision Serviceでは独自のタグ付けをして学習が可能だ。REST APIからの利用だけでなく、ポータルサイト（https://customvision.ai/）で、画像のアップロードとタグ付け、トレーニングやテストを行うこともできる。

　利用の一例として、マイクロソフトのテクニカルエヴァンジェリストちょまど（千代田まどか）氏が、「松屋の牛めし」か「吉野家の牛丼」かを判定させるデモアプリ「松屋警察」を作っている（図6）。「松屋の牛めし」と「吉野家の牛丼」の画像をそれぞれ用意して学習させるとCustom Vision Serviceの準備は完了だ。あとは、Xamarinで作られたモバイルアプリから画像を送り、結果のJSONデータを加工して表示することで実現している。

図6　Custom Vision Serviceの利用例
・画像引用元：https://www.slideshare.net/chomado/20170818xamarin-msaicustom-vision-service

▲APIの一覧に戻る

Video Indexer（プレビュー）

　動画をアップロードすると、会話のテキスト化、翻訳（図8）、動画内の顔や誰が話しているかの認識、会話の感情分析など（図7）、さまざまな洞察結果を取得するサービスだ。REST APIと、ポータルサイト（https://vi.microsoft.com/）での操作が可能だ。分析された動画は、他のWebサイトなどに組み込むことも可能だ。