音声→テキスト変換のSpeech Recognition APIの使い方と、2017年4月におけるWatson、Google Cloud Speech APIとの違い：認識系API活用入門（4）（3/3 ページ）

» 2017年05月10日 05時00分公開

[岩本禎史，株式会社クロスキャット]

Speech Recognition APIの精度をWatson、Google Cloud Speech APIと3パターンで比較

　では続いて、実際にSpeech Recognition APIの精度がどの程度のものなのかを検証してみましょう。ビルドしたExeを起動します。

アプリケーションの画面

　特に操作に難しいところはありません。録音開始ボタンを押すとPCの既定のマイクを使用して録音を開始します。同時にボタンは「REC」のマークが表示され、録音終了に表示が変わります。再度ボタンをクリックすると録音を終了します。同時にSpeech Recognition APIに録音した音声データを送信し、音声データをテキスト化したJSON形式のデータを受信して、画面下側のテキストボックスに表示します。PCにマイクがない場合は録音できないので、APIはエラーで返ってきます。ご注意ください。

　IBM Watson、Google Cloud Speech APIはプログラムは作成せずに、それぞれ以下URLからブラウザを使ってテキスト変換を行いました。

【検証1】日本語音声を日本語テキストに変換1

　試しにインターネット上で公開されているフリーアナウンサーの音声サンプルを試してみます。フリーアナウンサーの音声サンプルなので、当然かなり滑舌は良く、聞き取りやすいです。

歴史とグルメの国イタリア。何百年も前からある美しい建物、それだけでもワクワクするのに、食べる料理はどれも絶品。日本人の心をつかんで離さない美食をめぐる旅に、さあ、出かけましょう。

フリーアナウンサーが実際にしゃべっている内容

歴史とグルメの国イタリヤ何百年前からある美しい食べ物それだけでもワクワクするのに食べる料理はどれも絶品日本人の心を掴んで離さない移植を巡る旅に出かけましょう

Speech Recognition APIが返してきた結果

　まず、句読点は付きません。なので、返ってきたデータは文章の区切りが分からず、人間による句読点の追加が必要です。また個人名などはかなり高い確率で誤認識します。

　「イタリア」なのか「イタリヤ」なのかは表記の揺れとして考えると難しいラインです。「建物」が「食べ物」と誤認識されているのは、文章が食べ物についての話だからという判断によるものなのでしょうか。その他に「美食」が「移植」と誤認識されています。また「さあ、出かけましょう」の「さあ」が抜けていますが、それ以外は正しく変換されて返ってきました。

　IBM WatsonのSpeech To Textの結果はどうでしょうか。

ネクストグルメの国イタリア。何百年も前からある美しい建物。それだけでもワクワクするのに食べる料理はどれも絶品。日本人の心を掴んで離さない利息を巡る旅に。さあ出かけましょう。

IBM Watson Speech To Textが返してきた結果

　「歴史と」が「ネクスト」になってしまいました。「美食」は「利息」と認識されてしまいました。コグニティブサービスには「美食」は難しい単語なのでしょうか。

　Google Cloud Speech APIの結果はどうでしょうか。

歴史とグルメの国イタリア何百年も前からある美しい建物それだけでもワクワクするのに食べる料理はどれも絶品日本人の心をつかんで離さないで食をめぐる旅に出かけましょう

Google Cloud Speech APIが返してきた結果

　やはり「美食」はうまく認識されていません。どうやらコグニティブサービスには「美食」は難しい単語のようです。

【検証2】日本語音声を日本語テキストに変換2

　もう1つ別のフリーアナウンサーによる音声サンプルも試してみます。

イスラム時代の城跡（しろあと）と古い教会が残る山の中腹に、白壁（しらかべ）の家がひしめきあっています。訪れたのは、スペインの南端、アンダルシアのカサレスという小さな村。村の中心にあるバルはいつも村人たちでいっぱいです。お目当てはマリアおばさんお手製のガスパチョ。お味はいかが？

フリーアナウンサーが実際にしゃべっている内容

イスラム時代のそれはとっても古い教会が残る山の中腹に渡部の家に向かっています訪れたのはスペインのねアンダルシアのリストに村村松市にあるガスの村人竹内まりやおばさんお手製の出すを忘れないでね

Speech Recognition APIが返してきた結果

　先ほどより誤認識が増えました。どうも認識できなかったところは飛ばしてしまうようです。ここまで誤認識が増えると文章だけ読んでも意味が分からないので、元となった音声を聞きながらの修正が必要となりそうです。

　IBM WatsonのSpeech To Textの結果はどうでしょうか。

お昼イスラム時代の水準はちょっと古い教会なのに山の中腹に。砂壁の家がひしめき合っています。訪れたのはスペインのね。アンダルシアの方ですという必須なので。ウラヌスリアルタイムは。いつも村人たちでいっぱいです。お目当てはなさんお手製のガス。同じないけんね。

IBM Watson Speech To Textが返してきた結果

　こちらも誤認識だらけです。コグニティブサービスには難しい文章なのでしょうか。

　Google Cloud Speech APIの結果はどうでしょうか。

youtube 3月がとっても古い携帯に残る山の中腹に白壁の家がひしめき合っています訪れたのはスペインのアンダルシアの風に吹か勇気小さな村村の中心の夜にはいつも村人対マリオレトルト声の出し方面白いゲーム

Google Cloud Speech APIが返してきた結果

　こうも三者三様に結果が異なるとは大変興味深いです。やはりこの文章はコグニティブサービスには大変難しいようです。「youtube」があるのはGoogleならではですね。

【検証3】英語音声を英語テキストに変換

　今度は英語のナレーターの音声サンプルを試してみましょう。

We offer high quality English transcription, native voice narration and multimedia services at reasonable rates with fastest delivery times. Our narration service can be used for various purposes like English teaching material, academic as well as corporate presentations, IVR, program localization and many more. Please feel free to contact us. We are happy to help you. Thank you for listening.

ナレーターが実際にしゃべっている内容

we on for high quality english translation native voice narration and multimedia services at a reasonable rate with fastest delivery times i went through this can be used for various purposes like english teaching material academic as well as corporate presentation i do you program localization and many more please feel free to contact us we're happy to help you thank you for listening

Speech Recognition APIが返してきた結果

　英語も句読点が付かないので、読みやすいようにするには人間が句読点を編集する必要があります。個人的には日本語よりは精度が高く全般的にうまく変換できていると思いますが、細かいところでは「offer」が「on for」になっていたり、「our narration service」が「i went through this」になっていたり、「IVR」が「I do you」になっていたりという誤変換はあります。

　IBM WatsonのSpeech To Textの結果はどうでしょうか。

We offer high quality English transcription native voice narration and multimedia services at reasonable rates with fastest delivery times. Narration service can be used for various purposes like English teaching material academic as well as corporate presentations IVR program localization and many more. Please feel free to contact us we're happy to help you thank you for listening.

IBM Watson Speech To Textが返してきた結果

　「Our narration」の「our」が消えてしまいましたが、それ以外は問題なく認識されているようです。

　Google Cloud Speech APIの結果はどうでしょうか。

we offer high-quality English transcription native voice narration and multimedia services at reasonable rates with fastest delivery times are narration service can be used for various purposes like English teaching material academic as well as corporate presentations ivr program localization and many more please feel free to contact us we are happy to help you thank you for listening

Google Cloud Speech APIが返してきた結果

　Googleでも句読点が付かないのは同じです。Watsonと同じ箇所、「Our narration」の「our」が「are」になる誤認識が1カ所ありますが、それ以外は問題なさそうです。

単語は変換精度が高い、自分の声でも試してみよう

　ここまではプロのアナウンサー／ナレーターによる、わりとはっきりとした聞き取りやすい音声で試してみましたが、実際の皆さんの声を録音して試してみてください。案外うまく認識してくれないことが多いのではないかと思います。

　次に、「こんにちは」「さようなら」「またあした」といったあいさつで試したところ、割と早口でしゃべってもどのサービスも問題なく変換してくれました。単語はどこで言葉を区切るか分かりやすいため、変換精度が高いのかもしれません。

　なお、音声認識機能自体とは少し話がそれるかもしれませんが、自分の声で試す場合は、あくまで静かな環境に限ります。周囲で人がしゃべっているとその声を拾ってしまうため、正しい変換結果にはなりません。これは文章の長短、サービスの違いとは関係なく、全ての場合に言えることです。

次回は、画像からのOCR機能

　今回は音声→テキスト変換のコグニィティブサービスを使ってみましたが、いかがでしたでしょうか。

　日本語についてはSpeech Recognition APIに限らず各社とも長い文章になってしまうとまだまだ精度が高いとはいえないですが、単語や比較的短いシンプルな文章であれば使える場面もありそうです。句読点がないのは用途によっては障壁となってしまうかもしれません。英語については日本語よりは精度が高そうです。

　また、実際の用途を考えると、周囲の音を拾わないようなデバイスの選択、感度・収音方向などの調整も必要となると思います。

　次回は画像からのOCR機能を試してみたいと思います。お楽しみに。

ボットにCognitive Servicesを組み込んでみる
マイクロソフトが提供するCognitive Servicesがどんなものかを、Text Analytics APIを使いながら見てみよう。
米IBMがビッグデータ分析基盤サービスを拡充、コグニティブコンピューティングの研究成果も搭載
米IBMは、センサ情報などの大量データを基に人間のように意思決定するコグニティブコンピューティングの研究成果を、実製品やサービスに取り込んでいくと発表した。SoftLayer環境も想定する。
Google Cloud Vision APIのパブリックβ版が公開
米グーグルは2016年2月18日、「Google Cloud Vision API」のパブリックβ版を公開した。APIコールのみで画像の特徴的な要素や一般的なランドマークなどをラベル付けしたり、多様な言語の文字認識（OCR）機能を利用できる。