画像/動画認識のComputer Vision APIをOCRとして使うには? フォントごとの精度は?:認識系API活用入門(5)(1/4 ページ)
コグニティブサービスのAPIを用いて、「現在のコグニティブサービスでどのようなことができるのか」「どのようにして利用できるのか」「どの程度の精度なのか」を検証していく連載。今回は、Computer Vision APIの概要と使い方を解説し、OCR機能について、日本語/英語、フォントごとの精度の違いを検証する。
※本稿は2017年5月22日の情報を基に作成しています。この記事内で使用している画面やコグニティブサービスの仕様は変更になっている場合があります。
本連載「認識系API活用入門」では、MicrosoftのコグニティブサービスのAPIを用いて、「現在のコグニティブサービスでどのようなことができるのか」「どのようにして利用できるのか」「どの程度の精度なのか」を検証していきます。連載第1回の「Deep Learningの恩恵を手軽に活用できるコグニティブサービスとは」では、コグニティブサービスとは何かの概要とAPIを使うための準備の仕方を説明しました。
今回はOCR機能(画像文字認識)としてComputer Vision APIを試します。
Computer Vision APIとは
Computer Vision APIは、画像や動画を解析してさまざまな情報を返してくれるサービスです。
マイクロソフトのサイトでは、下記のようなことができると紹介されています。
- 画像の解析
- 画像内のテキスト読み取り
- 画像からの手書き文字の読み取り(プレビュー/プレビューはアルファベットのみ対応)
- 著名人の認識
- ほぼリアルタイムで動画を分析
- サムネイルの生成
サポートしている画像
Computer Vision APIで使用できる画像については以下のサイトでも確認できますが、ここであらためて載せておきます。
- https://www.microsoft.com/cognitive-services/en-us/computer-vision-api/documentation
- APIに画像を渡す方法:application/octet stream形式のバイナリ生データもしくは画像のURL
- サポートする画像フォーマット:JPEG, PNG, GIF, BMP.
- 画像のファイルサイズ:4MB以下
- 画像の大きさ:50x50ピクセル以上であること
活用シナリオ
Computer Vision APIはさまざまな情報を返してくれるので、使い方次第でさまざまな活用シナリオが考えられます。特定のものが写っている写真のみの抽出、サイズの大きい写真のサムネイル自動生成、アダルトコンテンツと思われる写真の自動フィルタリング、画像しかない資料や名刺のOCRによるテキスト化、Translator APIとつなげることで実現できる画像内の文字の自動翻訳などです。
なお、Computer Vision APIに顔認識の機能はありますが、顔認識/顔認証についてはFace APIという別のAPIが用意されています。Face APIの方が高度なことができるので、顔認識/顔認証を行いたい場合はFace APIの使用をお勧めします。
リファレンスガイド
Computer Vision APIのリファレンスガイドは下記URLにあります。
Computer Vision APIにはさらに内部的に複数のAPIがありますが、今回は全てのAPIを紹介せず、OCR機能のAPIを使用します。OCR機能のAPIリファレンスのページは下記URLにあります。
OCR機能でサポートされている言語についてはOCR機能のAPIリファレンスのページにある「Supported languages」をご参照ください。
利用申し込み
Computer Vision APIを使用するにはマイクロソフトのAzureサービス上で利用開始の手続きを行う必要があります。申し込み方法の詳細は本連載の第1回をご確認ください。
今回はComputer Vision APIを使うので、API Typeには「Computer Vision API」を選択します。価格レベルは無料の「F0 Free」を選択します。
デプロイが完了したら、Computer Vision APIにアクセスするために必要なキー(Ocp-Apim-Subscription-Key)を取得しておいてください。また、このキーの値は外部に知られることのないように大切に扱ってください。
作成するアプリケーションについて
今回作成するアプリケーションの画面は以下のようになります。画像ファイルを指定してOKボタンをクリックすると、OCRした結果のテキストを受け取ってテキストボックスに表示する、というアプリケーションです。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
- ボットにCognitive Servicesを組み込んでみる
マイクロソフトが提供するCognitive Servicesがどんなものかを、Text Analytics APIを使いながら見てみよう。 - 米IBMがビッグデータ分析基盤サービスを拡充、コグニティブコンピューティングの研究成果も搭載
米IBMは、センサ情報などの大量データを基に人間のように意思決定するコグニティブコンピューティングの研究成果を、実製品やサービスに取り込んでいくと発表した。SoftLayer環境も想定する。 - Google Cloud Vision APIのパブリックβ版が公開
米グーグルは2016年2月18日、「Google Cloud Vision API」のパブリックβ版を公開した。APIコールのみで画像の特徴的な要素や一般的なランドマークなどをラベル付けしたり、多様な言語の文字認識(OCR)機能を利用できる。