連載
» 2017年04月05日 05時00分 公開

テキスト→音声変換の「Text To Speech API」の使い方と、2017年3月現在のWatsonとの違い認識系API活用入門(3)(3/3 ページ)

[岩本禎史,株式会社クロスキャット]
前のページへ 1|2|3       

Text To Speech APIの精度をIBM Watsonと4パターンで比較

 実際にText To Speech APIの精度が、どの程度のものなのかを検証してみましょう。ビルドしたExeを起動します。

アプリケーションの画面

 特に操作に難しいところはありません。しゃべらせたい言葉を入力し、日本語か英語か、声の性別、音声ファイル形式を選択して「GO」ボタンをクリックします。音声ファイルのダウンロードが終わると自動的に音声ファイルの再生を開始しますので、スピーカーをONにしておいてください。

 それでは、マイクロソフトのコグニティブサービスのWebページの日本語をしゃべらせてみましょう。今回はマイクロソフトとIBM Watsonで比較してみます。

 IBM Watsonはプログラムを作成せずに、下記URLからブラウザを使って検証を行いました。

※GoogleはAPIサービスとして利用できるText To Speech APIがないようなので、今回は検証の対象には含めていません。ただし、Google翻訳のサイトには入力したテキストを発話する機能がありますので、試してみたい方は、そちらをどうぞ。

 なお現段階では、マイクロソフトのText To Speech APIとIBM WatsonのText To Speech APIでは、対応している言語に違いがあります。マイクロソフトの方が対応している言語は多いようです。またマイクロソフトのText To Speechでは、日本語でも男性の声と女性の声を選択できますが、IBM WatsonのText To Speech APIでは女性の声のみのようです。ただし、将来的に改善される可能性も十分あります。

【検証1】日本語テキストを日本語音声に変換

 まずはマイクロソフトのコグニティブサービスのページから文言を使います。言語はja-JPを指定します。

機械ベースのインテリジェンスを活用してユーザーエクスペリエンスを高めるツールにより、やり取りを自然かつ状況に応じて行えるようにします。視覚、音声、言語、および知識に関する、現在も拡大中の強力な人工知能アルゴリズムのコレクションを活用してください。
発話させた文章

 こればかりは実際に聞いていただくしかありません。日本語は少したどたどしくイントネーションも普段私たちがしゃべっているのとは異なっています。最先端の音声合成ソフトウェアと比較すると「もう一歩」という感じですが、何をしゃべっているのかは問題なく分かります。男性の声でも女性の声でも流暢さや聞き取りやすさといった点にほとんど差は感じませんでした。

 ちなみに男性のIchiroの声、しゃべり方は、お笑いコンビと女性アナウンサーの3人組が街を歩くモヤモヤな番組のナレーションにとてもよく似ていると評判です(あちらも音声合成ソフトウェアを使っているそうなので、親戚といえば親戚なのかもしれません)。

 Watsonも実際にやってみました。こちらも実際に聞いていただくしかないのですが、やはり日本語はたどたどしく、イントネーションも普段しゃべっているのとは異なっています。マイクロソフトもIBM Watson もほぼ互角という印象です。

【検証2】日本語の早口言葉テキストを日本語音声に変換

 では続いて早口言葉はどうでしょうか。

赤巻紙青巻紙黄巻紙。東京特許許可局。新人歌手新春シャンソンショー。
発話させた文章

 こちらもやはりイントネーションが違ったり、たどたどしさがあったりという点は変わりません。そして当たり前といえば当たり前ですが、一度も噛みません。何度やっても噛みません。ちゃんとしゃべってくれます。

 Watsonも同様に試してみましたが、やはりこちらも同じような感じでした。イントネーションはともかく、コグニティブサービスもWatsonも今回のサンプルではきちんと間違いなくしゃべってくれました。

 ただし、弱点もあります。まずは「漢字」です。

 例えば、「行った」は「いった」とも読むことができますし、「おこなった」とも読むことができます。マイクロソフトのText To Speech APIもWatsonも「東京に行った」をしゃべらせると「いった」と読んでくれますし、「作業を行った」をしゃべらせると「おこなった」と読んでくれます。どちらのサービスも文脈を解析して「いった」なのか「おこなった」なのかを判断してくれるようです。

 しかし「行った」だけをしゃべらせるとマイクロソフトのText To Speech APIは「おこなった」と読み、IBM Watsonは「いった」と読みました。これを意図する読み方で読ませたいのであれば、漢字ではなくひらがなでテキストを渡すしかないようです。

 2つ目は「記号」です。

 例えば「東京タワーの高さは333mです。」の「m」は人間が見れば「メートル」と読むことが分かりますが、マイクロソフトのText To Speech APIでは「エム」と読んでしまいました(IBM Watsonは「メートル」と読んでくれました)。「東京タワーの高さは333メートルです。」とテキストを渡してあげれば正しく読んでくれます。

 その他、「10kg」の「kg」はどちらも「キログラム」と読んでくれましたが、「10g」の「g」はマイクロソフトのText To Speech APIは「グラム」と読んでくれたのに対しIBM Watson は「ジー」と読んでしまうという結果になりました。このように、誤読を防ぐためにはこちら側がAPIにどのようにテキストを渡すかを考慮しなければならないケースがあります。

【検証3】英語テキストを英語音声に変換

 続いて、英語も試してみましょう。

 Speech To Text APIのドキュメントにある「Introduction」の文章をしゃべらせてみます。

With the Bing Text to Speech API your application can send HTTP requests to a cloud server, where text is instantly synthesized into human sounding speech, and returned as an audio file. The API can be used in many different contexts to provide real-time text to speech conversion in a variety of different voices and languages.
発話させた文章

 筆者はNative English Speakerではないので正確な判断はできませんが、非常に流暢にしゃべっています。日本語のような違和感はほとんど感じません。「The API」の「The」は「ザ」ではなく「ジ」の発音になっていますし、「returned as an audio file」「in a」などのlinkageも不自然な感じはなく普通にしゃべっています。何の前置きもなくこの音声を聞いたら、多くの方は本物の人間がしゃべっていると思うのではないでしょうか。

 Watsonも同様に試してみましたが、やはり非常に流暢にしゃべっています。ほぼ互角という印象です。

【検証4】英語の早口言葉テキストを英語音声に変換

 続いて英語の早口言葉をしゃべらせてみます。

She sells sea shells by the seashore. Peter Piper picked a peck of pickled peppers. A big black bug bit a big black bear. Vincent vowed vengeance very vehemently.
発話させた文章

 当たり前ですが、一度も噛みません。何度やっても噛みません。男性も女性も噛みません。恐ろしいくらい非常に流暢にしゃべります。Watsonもまったく同様で、非常に流暢にしゃべります。やはり互角という印象です。

次回は今回の逆、Speech To Textを試す

 今回はテキスト→音声変換APIを取り上げましたが、いかがでしたでしょうか。

 日本語については、まだ現時点では人間や最先端の音声合成ソフトウェアのように流暢にしゃべってくれるところまでは達していませんが、漢字や記号の誤読に気を付けさえすれば用途次第では必要十分という印象です。

 英語については、筆者には「もはや人間と変わりない」と思えるほどでした。音声合成ソフトウェアを使おうとすると、それなりにハードルは高いので、手軽に利用できるコグニティブサービスは有効な代替手段になるのではないでしょうか。

 Text To Speech APIもTranslator APIと同様、あっという間に進化を遂げてアナウンサーやナレーションのような仕事はコグニティブサービスが取って代わる時代が来るのではないか、という印象を受けました。さらには、英会話教室の講師もコグニティブサービスが行う時代が来るのかもしれません。

 次回は今回の逆、Speech Recognition API(Speech To Text)を試します。お楽しみに。

前のページへ 1|2|3       

Copyright © ITmedia, Inc. All Rights Reserved.

RSSについて

アイティメディアIDについて

メールマガジン登録

@ITのメールマガジンは、 もちろん、すべて無料です。ぜひメールマガジンをご購読ください。