コグニティブサービスのAPIを用いて、「現在のコグニティブサービスでどのようなことができるのか」「どのようにして利用できるのか」「どの程度の精度なのか」を検証していく連載。今回は、Computer Vision APIの概要と使い方を解説し、OCR機能について、日本語/英語、フォントごとの精度の違いを検証する。
※本稿は2017年5月22日の情報を基に作成しています。この記事内で使用している画面やコグニティブサービスの仕様は変更になっている場合があります。
本連載「認識系API活用入門」では、MicrosoftのコグニティブサービスのAPIを用いて、「現在のコグニティブサービスでどのようなことができるのか」「どのようにして利用できるのか」「どの程度の精度なのか」を検証していきます。連載第1回の「Deep Learningの恩恵を手軽に活用できるコグニティブサービスとは」では、コグニティブサービスとは何かの概要とAPIを使うための準備の仕方を説明しました。
今回はOCR機能(画像文字認識)としてComputer Vision APIを試します。
Computer Vision APIは、画像や動画を解析してさまざまな情報を返してくれるサービスです。
マイクロソフトのサイトでは、下記のようなことができると紹介されています。
Computer Vision APIで使用できる画像については以下のサイトでも確認できますが、ここであらためて載せておきます。
Computer Vision APIはさまざまな情報を返してくれるので、使い方次第でさまざまな活用シナリオが考えられます。特定のものが写っている写真のみの抽出、サイズの大きい写真のサムネイル自動生成、アダルトコンテンツと思われる写真の自動フィルタリング、画像しかない資料や名刺のOCRによるテキスト化、Translator APIとつなげることで実現できる画像内の文字の自動翻訳などです。
なお、Computer Vision APIに顔認識の機能はありますが、顔認識/顔認証についてはFace APIという別のAPIが用意されています。Face APIの方が高度なことができるので、顔認識/顔認証を行いたい場合はFace APIの使用をお勧めします。
Computer Vision APIのリファレンスガイドは下記URLにあります。
Computer Vision APIにはさらに内部的に複数のAPIがありますが、今回は全てのAPIを紹介せず、OCR機能のAPIを使用します。OCR機能のAPIリファレンスのページは下記URLにあります。
OCR機能でサポートされている言語についてはOCR機能のAPIリファレンスのページにある「Supported languages」をご参照ください。
Computer Vision APIを使用するにはマイクロソフトのAzureサービス上で利用開始の手続きを行う必要があります。申し込み方法の詳細は本連載の第1回をご確認ください。
今回はComputer Vision APIを使うので、API Typeには「Computer Vision API」を選択します。価格レベルは無料の「F0 Free」を選択します。
デプロイが完了したら、Computer Vision APIにアクセスするために必要なキー(Ocp-Apim-Subscription-Key)を取得しておいてください。また、このキーの値は外部に知られることのないように大切に扱ってください。
今回作成するアプリケーションの画面は以下のようになります。画像ファイルを指定してOKボタンをクリックすると、OCRした結果のテキストを受け取ってテキストボックスに表示する、というアプリケーションです。
Copyright © ITmedia, Inc. All Rights Reserved.