音声→テキスト変換のSpeech Recognition APIの使い方と、2017年4月におけるWatson、Google Cloud Speech APIとの違い:認識系API活用入門(4)(1/3 ページ)
コグニティブサービスのAPIを用いて、「現在のコグニティブサービスでどのようなことができるのか」「どのようにして利用できるのか」「どの程度の精度なのか」を検証していく連載。今回は、Speech Recognition APIの概要と使い方を解説し、他のサービスとの違いを3パターンで検証する。
※本稿は2017年4月12日の情報を元に作成しています。この記事内で使用している画面やコグニティブサービスの仕様は変更になっている場合があります。
本連載「認識系API活用入門」では、マイクロソフトのコグニティブサービスのAPIを用いて、「現在のコグニティブサービスでどのようなことができるのか」「どのようにして利用できるのか」「どの程度の精度なのか」を検証していきます。連載第1回の「Deep Learningの恩恵を手軽に活用できるコグニティブサービスとは」では、コグニティブサービスとは何かの概要とAPIを使うための準備の仕方を説明しました。
今回はSpeech Recognition APIを試します。
Speech Recognition APIとは
Speech Recognition APIは、前回のText To Speech APIの逆で、音声データをAPIに渡すとその音声データをテキストに変換して返してくれます。
使用できる言語
Speech Recognition APIで使用できる言語についての最新の対応状況は以下のサイトで確認できます。
活用シナリオ
アプリケーションの音声入力機能や、聴覚障がい者のための動画などのリアルタイム字幕に活用が見込まれます。
ドキュメント
Speech Recognition APIのドキュメントは以下のサイトにあります。
利用申し込み
Speech Recognition APIを使用するにはマイクロソフトのAzureサービス上で利用開始の手続きを行う必要があります。Speech Recognition APIは前回紹介したSpeech To Text APIと同じBing Speech APIの中の1つなので、既にBing Speech APIの利用申し込みを済ませている場合は必要ありません。
まだ申し込んでいない方は、前回のText To Speech APIの記事をご参照ください。そして前回と同様、Bing Speech APIにアクセスするために必要なキー(Ocp-Apim-Subscription-Key)を取得しておいてください。また、このキーの値は外部に知られることのないように大切に扱ってください。
作成するアプリケーションについて
今回作成するアプリケーションの画面は以下のようになります。英語か日本語かを選択し、録音開始ボタンを押して録音した音声ファイルをテキストに変換する、というアプリケーションです。
プロジェクトの作成
Visual Studioを起動し、新規プロジェクトを作成します。今回もC#のWPFアプリケーションを作成します。プロジェクト名は「SpeechRecognitionAPI」としています。
今回はSpeech Recognition APIの結果をJSON形式で受け取るので、JSONを取り扱えるようにするためライブラリを追加します。まず、メニューバーの「プロジェクト」から「NuGetパッケージの管理」をクリックします。
「参照」をクリックし、検索のテキストボックスに「Json」と入力すると、「System.Runtime.Serialization.Json」が検索結果として表示されます。これを選択して、画面右側の「インストール」ボタンをクリックします。
変更の確認の画面が表示されたらOKボタンをクリックします。
ライセンスへの同意の画面が表示されたら「同意する」をクリックします。
続いて、先ほどインストールしたSystem.Runtime.Serialization.Jsonをプログラム内から使用できるようにするため、参照を追加します。メニューバーの「プロジェクト」から「参照の追加」をクリックします。
フレームワークの中にある「System.Runtime.Serialization」にチェックを入れ、OKボタンをクリックします。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
- ボットにCognitive Servicesを組み込んでみる
マイクロソフトが提供するCognitive Servicesがどんなものかを、Text Analytics APIを使いながら見てみよう。 - 米IBMがビッグデータ分析基盤サービスを拡充、コグニティブコンピューティングの研究成果も搭載
米IBMは、センサ情報などの大量データを基に人間のように意思決定するコグニティブコンピューティングの研究成果を、実製品やサービスに取り込んでいくと発表した。SoftLayer環境も想定する。 - Google Cloud Vision APIのパブリックβ版が公開
米グーグルは2016年2月18日、「Google Cloud Vision API」のパブリックβ版を公開した。APIコールのみで画像の特徴的な要素や一般的なランドマークなどをラベル付けしたり、多様な言語の文字認識(OCR)機能を利用できる。