では続いて、実際にSpeech Recognition APIの精度がどの程度のものなのかを検証してみましょう。ビルドしたExeを起動します。
特に操作に難しいところはありません。録音開始ボタンを押すとPCの既定のマイクを使用して録音を開始します。同時にボタンは「REC」のマークが表示され、録音終了に表示が変わります。再度ボタンをクリックすると録音を終了します。同時にSpeech Recognition APIに録音した音声データを送信し、音声データをテキスト化したJSON形式のデータを受信して、画面下側のテキストボックスに表示します。PCにマイクがない場合は録音できないので、APIはエラーで返ってきます。ご注意ください。
IBM Watson、Google Cloud Speech APIはプログラムは作成せずに、それぞれ以下URLからブラウザを使ってテキスト変換を行いました。
試しにインターネット上で公開されているフリーアナウンサーの音声サンプルを試してみます。フリーアナウンサーの音声サンプルなので、当然かなり滑舌は良く、聞き取りやすいです。
歴史とグルメの国イタリア。何百年も前からある美しい建物、それだけでもワクワクするのに、食べる料理はどれも絶品。日本人の心をつかんで離さない美食をめぐる旅に、さあ、出かけましょう。
歴史とグルメの国イタリヤ何百年前からある美しい食べ物それだけでもワクワクするのに食べる料理はどれも絶品日本人の心を掴んで離さない移植を巡る旅に出かけましょう
まず、句読点は付きません。なので、返ってきたデータは文章の区切りが分からず、人間による句読点の追加が必要です。また個人名などはかなり高い確率で誤認識します。
「イタリア」なのか「イタリヤ」なのかは表記の揺れとして考えると難しいラインです。「建物」が「食べ物」と誤認識されているのは、文章が食べ物についての話だからという判断によるものなのでしょうか。その他に「美食」が「移植」と誤認識されています。また「さあ、出かけましょう」の「さあ」が抜けていますが、それ以外は正しく変換されて返ってきました。
IBM WatsonのSpeech To Textの結果はどうでしょうか。
ネクストグルメの国イタリア。何百年も前からある美しい建物。それだけでもワクワクするのに食べる料理はどれも絶品。日本人の心を掴んで離さない利息を巡る旅に。さあ出かけましょう。
「歴史と」が「ネクスト」になってしまいました。「美食」は「利息」と認識されてしまいました。コグニティブサービスには「美食」は難しい単語なのでしょうか。
Google Cloud Speech APIの結果はどうでしょうか。
歴史とグルメの国イタリア何百年も前からある美しい建物それだけでもワクワクするのに食べる料理はどれも絶品日本人の心をつかんで離さないで食をめぐる旅に出かけましょう
やはり「美食」はうまく認識されていません。どうやらコグニティブサービスには「美食」は難しい単語のようです。
もう1つ別のフリーアナウンサーによる音声サンプルも試してみます。
イスラム時代の城跡(しろあと)と古い教会が残る山の中腹に、白壁(しらかべ)の家がひしめきあっています。訪れたのは、スペインの南端、アンダルシアのカサレスという小さな村。村の中心にあるバルはいつも村人たちでいっぱいです。お目当てはマリアおばさんお手製のガスパチョ。お味はいかが?
イスラム時代のそれはとっても古い教会が残る山の中腹に渡部の家に向かっています訪れたのはスペインのねアンダルシアのリストに村村松市にあるガスの村人竹内まりやおばさんお手製の出すを忘れないでね
先ほどより誤認識が増えました。どうも認識できなかったところは飛ばしてしまうようです。ここまで誤認識が増えると文章だけ読んでも意味が分からないので、元となった音声を聞きながらの修正が必要となりそうです。
IBM WatsonのSpeech To Textの結果はどうでしょうか。
お昼イスラム時代の水準はちょっと古い教会なのに山の中腹に。砂壁の家がひしめき合っています。訪れたのはスペインのね。アンダルシアの方ですという必須なので。ウラヌスリアルタイムは。いつも村人たちでいっぱいです。お目当てはなさんお手製のガス。同じないけんね。
こちらも誤認識だらけです。コグニティブサービスには難しい文章なのでしょうか。
Google Cloud Speech APIの結果はどうでしょうか。
youtube 3月がとっても古い携帯に残る山の中腹に白壁の家がひしめき合っています訪れたのはスペインのアンダルシアの風に吹か勇気小さな村村の中心の夜にはいつも村人対マリオレトルト声の出し方面白いゲーム
こうも三者三様に結果が異なるとは大変興味深いです。やはりこの文章はコグニティブサービスには大変難しいようです。「youtube」があるのはGoogleならではですね。
今度は英語のナレーターの音声サンプルを試してみましょう。
We offer high quality English transcription, native voice narration and multimedia services at reasonable rates with fastest delivery times. Our narration service can be used for various purposes like English teaching material, academic as well as corporate presentations, IVR, program localization and many more. Please feel free to contact us. We are happy to help you. Thank you for listening.
we on for high quality english translation native voice narration and multimedia services at a reasonable rate with fastest delivery times i went through this can be used for various purposes like english teaching material academic as well as corporate presentation i do you program localization and many more please feel free to contact us we're happy to help you thank you for listening
英語も句読点が付かないので、読みやすいようにするには人間が句読点を編集する必要があります。個人的には日本語よりは精度が高く全般的にうまく変換できていると思いますが、細かいところでは「offer」が「on for」になっていたり、「our narration service」が「i went through this」になっていたり、「IVR」が「I do you」になっていたりという誤変換はあります。
IBM WatsonのSpeech To Textの結果はどうでしょうか。
We offer high quality English transcription native voice narration and multimedia services at reasonable rates with fastest delivery times. Narration service can be used for various purposes like English teaching material academic as well as corporate presentations IVR program localization and many more. Please feel free to contact us we're happy to help you thank you for listening.
「Our narration」の「our」が消えてしまいましたが、それ以外は問題なく認識されているようです。
Google Cloud Speech APIの結果はどうでしょうか。
we offer high-quality English transcription native voice narration and multimedia services at reasonable rates with fastest delivery times are narration service can be used for various purposes like English teaching material academic as well as corporate presentations ivr program localization and many more please feel free to contact us we are happy to help you thank you for listening
Googleでも句読点が付かないのは同じです。Watsonと同じ箇所、「Our narration」の「our」が「are」になる誤認識が1カ所ありますが、それ以外は問題なさそうです。
ここまではプロのアナウンサー/ナレーターによる、わりとはっきりとした聞き取りやすい音声で試してみましたが、実際の皆さんの声を録音して試してみてください。案外うまく認識してくれないことが多いのではないかと思います。
次に、「こんにちは」「さようなら」「またあした」といったあいさつで試したところ、割と早口でしゃべってもどのサービスも問題なく変換してくれました。単語はどこで言葉を区切るか分かりやすいため、変換精度が高いのかもしれません。
なお、音声認識機能自体とは少し話がそれるかもしれませんが、自分の声で試す場合は、あくまで静かな環境に限ります。周囲で人がしゃべっているとその声を拾ってしまうため、正しい変換結果にはなりません。これは文章の長短、サービスの違いとは関係なく、全ての場合に言えることです。
今回は音声→テキスト変換のコグニィティブサービスを使ってみましたが、いかがでしたでしょうか。
日本語についてはSpeech Recognition APIに限らず各社とも長い文章になってしまうとまだまだ精度が高いとはいえないですが、単語や比較的短いシンプルな文章であれば使える場面もありそうです。句読点がないのは用途によっては障壁となってしまうかもしれません。英語については日本語よりは精度が高そうです。
また、実際の用途を考えると、周囲の音を拾わないようなデバイスの選択、感度・収音方向などの調整も必要となると思います。
次回は画像からのOCR機能を試してみたいと思います。お楽しみに。
Copyright © ITmedia, Inc. All Rights Reserved.