画像／動画認識のComputer Vision APIをOCRとして使うには？　フォントごとの精度は？：認識系API活用入門（5）（1/4 ページ）

コグニティブサービスのAPIを用いて、「現在のコグニティブサービスでどのようなことができるのか」「どのようにして利用できるのか」「どの程度の精度なのか」を検証していく連載。今回は、Computer Vision APIの概要と使い方を解説し、OCR機能について、日本語／英語、フォントごとの精度の違いを検証する。

» 2017年06月15日 05時00分公開

[岩本禎史，株式会社クロスキャット]

今回の主な内容

※本稿は2017年5月22日の情報を基に作成しています。この記事内で使用している画面やコグニティブサービスの仕様は変更になっている場合があります。

　本連載「認識系API活用入門」では、MicrosoftのコグニティブサービスのAPIを用いて、「現在のコグニティブサービスでどのようなことができるのか」「どのようにして利用できるのか」「どの程度の精度なのか」を検証していきます。連載第1回の「Deep Learningの恩恵を手軽に活用できるコグニティブサービスとは」では、コグニティブサービスとは何かの概要とAPIを使うための準備の仕方を説明しました。

　今回はOCR機能（画像文字認識）としてComputer Vision APIを試します。

Computer Vision APIとは

　Computer Vision APIは、画像や動画を解析してさまざまな情報を返してくれるサービスです。

Computer Vision APIのページ

　マイクロソフトのサイトでは、下記のようなことができると紹介されています。

画像の解析
画像内のテキスト読み取り
画像からの手書き文字の読み取り（プレビュー／プレビューはアルファベットのみ対応）
著名人の認識
ほぼリアルタイムで動画を分析
サムネイルの生成

サポートしている画像

　Computer Vision APIで使用できる画像については以下のサイトでも確認できますが、ここであらためて載せておきます。

https://www.microsoft.com/cognitive-services/en-us/computer-vision-api/documentation
APIに画像を渡す方法：application/octet stream形式のバイナリ生データもしくは画像のURL
サポートする画像フォーマット：JPEG, PNG, GIF, BMP.
画像のファイルサイズ：4MB以下
画像の大きさ：50x50ピクセル以上であること

活用シナリオ

　Computer Vision APIはさまざまな情報を返してくれるので、使い方次第でさまざまな活用シナリオが考えられます。特定のものが写っている写真のみの抽出、サイズの大きい写真のサムネイル自動生成、アダルトコンテンツと思われる写真の自動フィルタリング、画像しかない資料や名刺のOCRによるテキスト化、Translator APIとつなげることで実現できる画像内の文字の自動翻訳などです。

　なお、Computer Vision APIに顔認識の機能はありますが、顔認識／顔認証についてはFace APIという別のAPIが用意されています。Face APIの方が高度なことができるので、顔認識／顔認証を行いたい場合はFace APIの使用をお勧めします。

リファレンスガイド

　Computer Vision APIのリファレンスガイドは下記URLにあります。

https://westus.dev.cognitive.microsoft.com/docs/services/56f91f2d778daf23d8ec6739/operations/56f91f2e778daf14a499e1fa

　Computer Vision APIにはさらに内部的に複数のAPIがありますが、今回は全てのAPIを紹介せず、OCR機能のAPIを使用します。OCR機能のAPIリファレンスのページは下記URLにあります。

https://westus.dev.cognitive.microsoft.com/docs/services/56f91f2d778daf23d8ec6739/operations/56f91f2e778daf14a499e1fc

　OCR機能でサポートされている言語についてはOCR機能のAPIリファレンスのページにある「Supported languages」をご参照ください。

利用申し込み

　Computer Vision APIを使用するにはマイクロソフトのAzureサービス上で利用開始の手続きを行う必要があります。申し込み方法の詳細は本連載の第1回をご確認ください。

　今回はComputer Vision APIを使うので、API Typeには「Computer Vision API」を選択します。価格レベルは無料の「F0 Free」を選択します。

Computer Vision APIの利用申し込み

　デプロイが完了したら、Computer Vision APIにアクセスするために必要なキー（Ocp-Apim-Subscription-Key）を取得しておいてください。また、このキーの値は外部に知られることのないように大切に扱ってください。

Computer Vision APIのキーの取得

作成するアプリケーションについて

　今回作成するアプリケーションの画面は以下のようになります。画像ファイルを指定してOKボタンをクリックすると、OCRした結果のテキストを受け取ってテキストボックスに表示する、というアプリケーションです。

アプリケーションの画面

プロジェクトの作成、画面の作成

ボットにCognitive Servicesを組み込んでみる
マイクロソフトが提供するCognitive Servicesがどんなものかを、Text Analytics APIを使いながら見てみよう。
米IBMがビッグデータ分析基盤サービスを拡充、コグニティブコンピューティングの研究成果も搭載
米IBMは、センサ情報などの大量データを基に人間のように意思決定するコグニティブコンピューティングの研究成果を、実製品やサービスに取り込んでいくと発表した。SoftLayer環境も想定する。
Google Cloud Vision APIのパブリックβ版が公開
米グーグルは2016年2月18日、「Google Cloud Vision API」のパブリックβ版を公開した。APIコールのみで画像の特徴的な要素や一般的なランドマークなどをラベル付けしたり、多様な言語の文字認識（OCR）機能を利用できる。