これから始める人のための最新Cognitive Services入門:AI・機械学習のクラウドサービス(2/7 ページ)
「AIの民主化」、全エンジニアがAIを活用する時代を迎えようとしている。多彩なAIサービスをWeb API形式で提供するCognitive Servicesでは何ができるのか? この記事で必要十分な基礎知識を素早く獲得しよう。
視覚 ― Vison ―
Computer Vision API
画像をアップロード、または画像URLを指定することで、画像の分析処理を行うAPIだ。以下は、画像をアップロードし、レスポンスのJSONデータを加工して表示した例だ。
図2 Computer Vision APIに画像をアップロードし、結果を表示
・画像引用元:https://azure.microsoft.com/ja-jp/services/cognitive-services/computer-vision/
機能の一部を解説しよう。
- 画像の説明文を生成する: 画像に含まれるものを要約して文章を生成する。上の画像だと「a man swimming in a pool of water」(水のプールで泳いでいる男性)という文章が生成された。
- 画像をタグ付けする: 生き物、風景、行動など2000以上のタグの中から、画像にタグ付けをする。この例では、「water」「swimming」「sport」などが付けられる。ユーザーが独自のタグを付けたい場合は、後述する「Custom Vision Service(プレビュー)」で可能だ。
- 人間の顔を検知する: 画像内から人間の顔を検知し、顔の座標、性別や年齢の結果を返す。上の画像でも男性の顔を正しく検知できていることが確認できる。顔の検知に関してより多くの情報を取得したい場合は、後述の「Face API」で可能だ。
- 成人向けコンテンツの判断: 性的内容を含む画像かを判断する。今回は男性が肌を多く露出しているが、成人向けコンテンツではないと、一般的に正しく判断している。
その他に、「光学式文字認識(OCR)」「手書き文字の読み取り」「サムネイル画像を生成」「配色の区別」などの機能がある。
Face API
顔を検出して分析する機能がある。顔の検出については、以下の顔のランドマークを検出する。
図3 Face APIで検知する顔のランドマーク
・画像引用元:https://docs.microsoft.com/ja-jp/azure/cognitive-services/face/glossary
ランドマークの情報以外にも多くの情報を取得する。図4上部の画像をアップロードすると、図4下部の情報が取得できる。
図4 Face APIで検知する顔のランドマーク
・画像引用元:https://docs.microsoft.com/ja-jp/azure/cognitive-services/face/glossary
上記は情報の一部にすぎないが、アクセサリーとして眼鏡や頭に何か付けていることや、ひげやメイクをしているかなどを認識している。感情も取得しているが、感情だけを取得したい場合は、後述の「Emotion API(プレビュー)」で可能だ。
また、顔の検知の他に、以下の4つの機能がある。
- 顔の確認: 1つの顔に対して、1人の顔と一致するかを判断する。
- 似た顔の検索: 見た目が似ている顔を簡単に検索する。
- 顔のグループ化: 見た目の類似性に基づいてグループにまとめる。
- 顔の識別: 「似た顔の検索」と類似の機能だが、トレーニングをして精度を高めたうえで利用が可能。
Content Moderator
ビジネスにリスクをもたらす不適切なコンテンツを追跡、フラグ付け、評価、フィルタリングすることを目的とした、監視プロセスのサービスだ。
ソーシャルメディアのWebサイトやゲームプラットフォームなどさまざまな環境で、画像、テキスト、動画を監視し、モデレーションすることができる。
Emotion API(プレビュー)
画像で検知した顔の感情(幸福、悲しみ、驚き、怒り、恐怖、軽蔑、嫌悪、普通の8種類)を検出し、それぞれのスコアを出力する。スコアは、0〜1で表現される。以下は、サンプルの画像をアップロードした際の結果だ。
図5 Emotion APIの結果例
顔が2つ検知され、「驚きの感情が最も高い」(赤文字表記)と認識されている。
・画像引用元:https://azure.microsoft.com/ja-jp/services/cognitive-services/emotion/
Video API(プレビュー)
動画での顔検知と追跡、動作の検知、手振れ補正や動画サムネイルの作成ができるサービスであったが、2017年10月30日をもって終了となる。
このサービスに代わるサービス、Video Indexer APIについては後述する。
Custom Vision Service(プレビュー)
Computer Vision APIと似たサービスだが、Custom Vision Serviceでは独自のタグ付けをして学習が可能だ。REST APIからの利用だけでなく、ポータルサイト(https://customvision.ai/)で、画像のアップロードとタグ付け、トレーニングやテストを行うこともできる。
利用の一例として、マイクロソフトのテクニカルエヴァンジェリストちょまど(千代田まどか)氏が、「松屋の牛めし」か「吉野家の牛丼」かを判定させるデモアプリ「松屋警察」を作っている(図6)。「松屋の牛めし」と「吉野家の牛丼」の画像をそれぞれ用意して学習させるとCustom Vision Serviceの準備は完了だ。あとは、Xamarinで作られたモバイルアプリから画像を送り、結果のJSONデータを加工して表示することで実現している。
図6 Custom Vision Serviceの利用例
・画像引用元:https://www.slideshare.net/chomado/20170818xamarin-msaicustom-vision-service
Video Indexer(プレビュー)
動画をアップロードすると、会話のテキスト化、翻訳(図8)、動画内の顔や誰が話しているかの認識、会話の感情分析など(図7)、さまざまな洞察結果を取得するサービスだ。REST APIと、ポータルサイト(https://vi.microsoft.com/)での操作が可能だ。分析された動画は、他のWebサイトなどに組み込むことも可能だ。
Copyright© Digital Advantage Corp. All Rights Reserved.