Googleは、「Cloud Speech-to-Text」と「Cloud Text-to-Speech」を企業にとってより利用しやすくするため、機能の拡充、利用可能な音声の種類の追加、サポートする言語と国の追加、料金の値下げを行った。
この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。
Googleは2019年2月22日(米国時間)、機械学習(ML)によって音声をテキストに変換する「Cloud Speech-to-Text」と、MLによってテキストを音声に変換する「Cloud Text-to-Speech」の両クラウドサービスを企業にとってより利用しやすくするため、機能の拡充、利用可能な音声の種類の追加(ほぼ倍増)、サポートする言語と国の追加(50%増加)、料金の値下げ(最大50%)を行ったと発表した。
Googleは、Cloud Speech-to-Textが音声テキスト変換を行う際に使用する機械学習モデルとして、「拡張モデル」(enhanced phoneモデル)や「動画モデル」(videoモデル)を利用できる「プレミアムモデル」と、マルチチャンネル認識機能の正式提供を開始した。
正式提供開始に伴い、これらの機能は「Google Cloud Platform」のSLA(サービスレベル契約)など、エンタープライズレベルの保証の適用対象となった。
2018年からenhanced phoneモデルやvideoモデルのプレミアムモデルは、β版で提供されていた。enhanced phoneモデルでは、テキスト起こしのエラーが従来モデル比で62%減少(2018年比で54%改善)しており、videoモデルではエラーが64%減少している。videoモデルは、「YouTube」の自動キャプション機能と同様の技術に基づいており、会議やポッドキャストなど、複数の話者がいる場合にも効果的に機能する。
enhanced phoneモデルを指定できる機能はこれまで、オプトイン型のデータロギングプログラムに参加した顧客のみに提供されてきたが、正式提供開始に伴い、誰でも利用できるようになった。また、データロギングオプションを選択した顧客は、料金の割り引きが受けられるようになった。
「マルチチャンネル認識機能」は、複数の話者がそれぞれ異なるチャンネル(2チャンネルの電話、4チャンネルのビデオ会議など)で話している録音音声を、Cloud Speech-to-Textでチャンネル別に認識する。そして音声テキスト変換にアノテーションを付けて実際の会話と同じ順に表示できる。この機能は、通話分析や会議分析などのユースケースに非常に役立つ。
Cloud Speech-to-Textの料金は、以下のように値下げされた。
Cloud Text-to-Speechは2018年8月のアップデート以来、利用可能な音声、WaveNet音声およびWaveNet言語がほぼ倍増し、サポートする言語が約50%増加している。その概要は以下の通り。
またCloud Text-to-Speechでは、各種のハードウェア上でオーディオ再生を最適化するデバイスプロファイル機能も正式提供が開始された。
Copyright © ITmedia, Inc. All Rights Reserved.