Microsoft、「Computer Vision」のOCR機能で日本語など73言語をサポート：Azure Cognitive Servicesの改善

Microsoftの「Azure Cognitive Services」に含まれる「Computer Vision」のOCR機能が、日本語を含む73言語に対応した。複数ページあるドキュメントから選択ページに限ってテキストを抽出できる。

» 2021年02月19日 15時00分公開

[＠IT]

この記事は会員限定です。会員登録（無料）すると全てご覧いただけます。

　Microsoftは2021年2月9日（米国時間）、「Azure Cognitive Services」に含まれる「Computer Vision」の光学式文字認識（OCR）機能が、日本語を含む73言語に対応したと発表した。

　Azure Cognitive ServicesはAIサービスとコグニティブAPIの総合的なファミリー。インテリジェントなアプリケーションの作成を支援する。

　Computer Visionは、画像やビデオなどのコンテンツを分析するAIサービスだ。Read APIを用いると、OCR機能によって、画像や複数ページのPDFドキュメントから、印刷されたテキスト部分（複数の言語）や手書きのテキスト部分（英語のみ）、数字、通貨記号を抽出できる。

　Read APIはテキストの多い画像や、混合言語を含む複数ページのPDFドキュメントからテキストを抽出できるように最適化されている。印刷文書と手書き文章のどちらであってもテキストを検出できる。

OCRの処理内容（出典：Microsoft）

　現行のRead API v3.1は英語とオランダ語、フランス語、ドイツ語、イタリア語、ポルトガル語、スペイン語にしか対応していなかった。

　今回のComputer VisionのRead API v3.2パブリックプレビューは、クラウドサービスやDockerコンテナとして利用できるようになった他、OCRが日本語や中国語（簡体字と繁体字）、韓国語、ラテン語系の言語を含む73言語に対応した。

　この他にも次のような更新が含まれている。

OCR実行時に自然な読みの順序を使用する（出典：Microsoft）

EMNIST：手書きアルファベット＆数字の画像データセット
データセット「EMNIST」について説明。81万枚～7万枚の手書きアルファベットおよび数字の「画像＋ラベル」データが無料でダウンロードでき、画像認識などのディープラーニングに利用できる。PyPIパッケージ、TensorFlow、PyTorchにおける利用コードも紹介。
MIT研究チーム、コピー＆ペーストでGANモデルを編集できるツールを開発
マサチューセッツ工科大学（MIT）の研究チームが、Generative Adversarial Network（GAN：敵対的生成ネットワーク）モデルの条件を操作できるツールを開発した。
「高度成長期の成功体験」がDXの邪魔をする　日本企業が今後成功するために必要な3つのカギとは
コロナ禍で初めてテレワークを導入した日本企業は少なくないだろう。コロナ禍はDXの面ではプラスに働くのだろうか。日本企業のDXを難しくしている要因とは何か。デジタルツールを用いた企業変革を専門とするアビームコンサルティングの安部慶喜氏が語った。