画像/動画認識のComputer Vision APIをOCRとして使うには? フォントごとの精度は?認識系API活用入門(5)(1/4 ページ)

コグニティブサービスのAPIを用いて、「現在のコグニティブサービスでどのようなことができるのか」「どのようにして利用できるのか」「どの程度の精度なのか」を検証していく連載。今回は、Computer Vision APIの概要と使い方を解説し、OCR機能について、日本語/英語、フォントごとの精度の違いを検証する。

» 2017年06月15日 05時00分 公開
[岩本禎史株式会社クロスキャット]

※本稿は2017年5月22日の情報を基に作成しています。この記事内で使用している画面やコグニティブサービスの仕様は変更になっている場合があります。

 本連載「認識系API活用入門」では、MicrosoftのコグニティブサービスのAPIを用いて、「現在のコグニティブサービスでどのようなことができるのか」「どのようにして利用できるのか」「どの程度の精度なのか」を検証していきます。連載第1回の「Deep Learningの恩恵を手軽に活用できるコグニティブサービスとは」では、コグニティブサービスとは何かの概要とAPIを使うための準備の仕方を説明しました。

 今回はOCR機能(画像文字認識)としてComputer Vision APIを試します。

Computer Vision APIとは

 Computer Vision APIは、画像や動画を解析してさまざまな情報を返してくれるサービスです。

 マイクロソフトのサイトでは、下記のようなことができると紹介されています。

  • 画像の解析
  • 画像内のテキスト読み取り
  • 画像からの手書き文字の読み取り(プレビュー/プレビューはアルファベットのみ対応)
  • 著名人の認識
  • ほぼリアルタイムで動画を分析
  • サムネイルの生成

サポートしている画像

 Computer Vision APIで使用できる画像については以下のサイトでも確認できますが、ここであらためて載せておきます。

活用シナリオ

 Computer Vision APIはさまざまな情報を返してくれるので、使い方次第でさまざまな活用シナリオが考えられます。特定のものが写っている写真のみの抽出、サイズの大きい写真のサムネイル自動生成、アダルトコンテンツと思われる写真の自動フィルタリング、画像しかない資料や名刺のOCRによるテキスト化、Translator APIとつなげることで実現できる画像内の文字の自動翻訳などです。

 なお、Computer Vision APIに顔認識の機能はありますが、顔認識/顔認証についてはFace APIという別のAPIが用意されています。Face APIの方が高度なことができるので、顔認識/顔認証を行いたい場合はFace APIの使用をお勧めします。

リファレンスガイド

 Computer Vision APIのリファレンスガイドは下記URLにあります。

 Computer Vision APIにはさらに内部的に複数のAPIがありますが、今回は全てのAPIを紹介せず、OCR機能のAPIを使用します。OCR機能のAPIリファレンスのページは下記URLにあります。

 OCR機能でサポートされている言語についてはOCR機能のAPIリファレンスのページにある「Supported languages」をご参照ください。

利用申し込み

 Computer Vision APIを使用するにはマイクロソフトのAzureサービス上で利用開始の手続きを行う必要があります。申し込み方法の詳細は本連載の第1回をご確認ください。

 今回はComputer Vision APIを使うので、API Typeには「Computer Vision API」を選択します。価格レベルは無料の「F0 Free」を選択します。

Computer Vision APIの利用申し込み

 デプロイが完了したら、Computer Vision APIにアクセスするために必要なキー(Ocp-Apim-Subscription-Key)を取得しておいてください。また、このキーの値は外部に知られることのないように大切に扱ってください。

Computer Vision APIのキーの取得

作成するアプリケーションについて

 今回作成するアプリケーションの画面は以下のようになります。画像ファイルを指定してOKボタンをクリックすると、OCRした結果のテキストを受け取ってテキストボックスに表示する、というアプリケーションです。

アプリケーションの画面
       1|2|3|4 次のページへ

Copyright © ITmedia, Inc. All Rights Reserved.

スポンサーからのお知らせPR

注目のテーマ

Microsoft & Windows最前線2025
AI for エンジニアリング
ローコード/ノーコード セントラル by @IT - ITエンジニアがビジネスの中心で活躍する組織へ
Cloud Native Central by @IT - スケーラブルな能力を組織に
システム開発ノウハウ 【発注ナビ】PR
あなたにおすすめの記事PR

RSSについて

アイティメディアIDについて

メールマガジン登録

@ITのメールマガジンは、 もちろん、すべて無料です。ぜひメールマガジンをご購読ください。