コグニティブサービスのAPIを用いて、「現在のコグニティブサービスでどのようなことができるのか」「どのようにして利用できるのか」「どの程度の精度なのか」を検証していく連載。今回は、Speech Recognition APIの概要と使い方を解説し、他のサービスとの違いを3パターンで検証する。
※本稿は2017年4月12日の情報を元に作成しています。この記事内で使用している画面やコグニティブサービスの仕様は変更になっている場合があります。
本連載「認識系API活用入門」では、マイクロソフトのコグニティブサービスのAPIを用いて、「現在のコグニティブサービスでどのようなことができるのか」「どのようにして利用できるのか」「どの程度の精度なのか」を検証していきます。連載第1回の「Deep Learningの恩恵を手軽に活用できるコグニティブサービスとは」では、コグニティブサービスとは何かの概要とAPIを使うための準備の仕方を説明しました。
今回はSpeech Recognition APIを試します。
Speech Recognition APIは、前回のText To Speech APIの逆で、音声データをAPIに渡すとその音声データをテキストに変換して返してくれます。
Speech Recognition APIで使用できる言語についての最新の対応状況は以下のサイトで確認できます。
アプリケーションの音声入力機能や、聴覚障がい者のための動画などのリアルタイム字幕に活用が見込まれます。
Speech Recognition APIのドキュメントは以下のサイトにあります。
Speech Recognition APIを使用するにはマイクロソフトのAzureサービス上で利用開始の手続きを行う必要があります。Speech Recognition APIは前回紹介したSpeech To Text APIと同じBing Speech APIの中の1つなので、既にBing Speech APIの利用申し込みを済ませている場合は必要ありません。
まだ申し込んでいない方は、前回のText To Speech APIの記事をご参照ください。そして前回と同様、Bing Speech APIにアクセスするために必要なキー(Ocp-Apim-Subscription-Key)を取得しておいてください。また、このキーの値は外部に知られることのないように大切に扱ってください。
今回作成するアプリケーションの画面は以下のようになります。英語か日本語かを選択し、録音開始ボタンを押して録音した音声ファイルをテキストに変換する、というアプリケーションです。
Visual Studioを起動し、新規プロジェクトを作成します。今回もC#のWPFアプリケーションを作成します。プロジェクト名は「SpeechRecognitionAPI」としています。
今回はSpeech Recognition APIの結果をJSON形式で受け取るので、JSONを取り扱えるようにするためライブラリを追加します。まず、メニューバーの「プロジェクト」から「NuGetパッケージの管理」をクリックします。
「参照」をクリックし、検索のテキストボックスに「Json」と入力すると、「System.Runtime.Serialization.Json」が検索結果として表示されます。これを選択して、画面右側の「インストール」ボタンをクリックします。
変更の確認の画面が表示されたらOKボタンをクリックします。
ライセンスへの同意の画面が表示されたら「同意する」をクリックします。
続いて、先ほどインストールしたSystem.Runtime.Serialization.Jsonをプログラム内から使用できるようにするため、参照を追加します。メニューバーの「プロジェクト」から「参照の追加」をクリックします。
フレームワークの中にある「System.Runtime.Serialization」にチェックを入れ、OKボタンをクリックします。
Copyright © ITmedia, Inc. All Rights Reserved.