「Cloud Speech-to-Text」と「Cloud Text-to-Speech」の機能強化と値下げを発表――Google：利用企業の裾野拡大を目指して

Googleは、「Cloud Speech-to-Text」と「Cloud Text-to-Speech」を企業にとってより利用しやすくするため、機能の拡充、利用可能な音声の種類の追加、サポートする言語と国の追加、料金の値下げを行った。

» 2019年02月25日 13時15分公開

[＠IT]

この記事は会員限定です。会員登録（無料）すると全てご覧いただけます。

　Googleは2019年2月22日（米国時間）、機械学習（ML）によって音声をテキストに変換する「Cloud Speech-to-Text」と、MLによってテキストを音声に変換する「Cloud Text-to-Speech」の両クラウドサービスを企業にとってより利用しやすくするため、機能の拡充、利用可能な音声の種類の追加（ほぼ倍増）、サポートする言語と国の追加（50％増加）、料金の値下げ（最大50％）を行ったと発表した。

Cloud Speech-to-Textの機能拡充と値下げ

　Googleは、Cloud Speech-to-Textが音声テキスト変換を行う際に使用する機械学習モデルとして、「拡張モデル」（enhanced phoneモデル）や「動画モデル」（videoモデル）を利用できる「プレミアムモデル」と、マルチチャンネル認識機能の正式提供を開始した。

　正式提供開始に伴い、これらの機能は「Google Cloud Platform」のSLA（サービスレベル契約）など、エンタープライズレベルの保証の適用対象となった。

　2018年からenhanced phoneモデルやvideoモデルのプレミアムモデルは、β版で提供されていた。enhanced phoneモデルでは、テキスト起こしのエラーが従来モデル比で62％減少（2018年比で54％改善）しており、videoモデルではエラーが64％減少している。videoモデルは、「YouTube」の自動キャプション機能と同様の技術に基づいており、会議やポッドキャストなど、複数の話者がいる場合にも効果的に機能する。

　enhanced phoneモデルを指定できる機能はこれまで、オプトイン型のデータロギングプログラムに参加した顧客のみに提供されてきたが、正式提供開始に伴い、誰でも利用できるようになった。また、データロギングオプションを選択した顧客は、料金の割り引きが受けられるようになった。

　「マルチチャンネル認識機能」は、複数の話者がそれぞれ異なるチャンネル（2チャンネルの電話、4チャンネルのビデオ会議など）で話している録音音声を、Cloud Speech-to-Textでチャンネル別に認識する。そして音声テキスト変換にアノテーションを付けて実際の会話と同じ順に表示できる。この機能は、通話分析や会議分析などのユースケースに非常に役立つ。

　Cloud Speech-to-Textの料金は、以下のように値下げされた。

データロギングプログラムに参加した顧客は、標準モデルとプレミアムモデルで、プログラムの対象となる使い方について、通常よりも33％安い料金が適用される
プレミアムモデルの料金は従来より25％値下げされた

Cloud Text-to-Speechの音声の種類、サポートする言語と国、機能の拡充

　Cloud Text-to-Speechは2018年8月のアップデート以来、利用可能な音声、WaveNet音声およびWaveNet言語がほぼ倍増し、サポートする言語が約50％増加している。その概要は以下の通り。

7つの新しい言語や方言をサポート：デンマーク語、ポルトガル語、ロシア語、ポーランド語、スロバキア語、ウクライナ語、ノルウェー語（ブークモール）。サポート対象言語は21となった
こうした新しい言語の31の新しいWaveNet音声（24の新しい標準音声）
WaveNet音声が使える言語や方言は、2018年8月時点の9つから20に増えた

　またCloud Text-to-Speechでは、各種のハードウェア上でオーディオ再生を最適化するデバイスプロファイル機能も正式提供が開始された。

Google Cloud Speech／Translation APIを使って翻訳アプリを作ってみよう
グーグルが提供するクラウドベースの2つのAPI（と関連ツール／パッケージ）を利用して、ほんのわずかなコードで日本語音声を英語テキストに翻訳してみよう！
音声→テキスト変換のSpeech Recognition APIの使い方と、2017年4月におけるWatson、Google Cloud Speech APIとの違い
コグニティブサービスのAPIを用いて、「現在のコグニティブサービスでどのようなことができるのか」「どのようにして利用できるのか」「どの程度の精度なのか」を検証していく連載。今回は、Speech Recognition APIの概要と使い方を解説し、他のサービスとの違いを3パターンで検証する。
Google、Cloud AutoMLでテキスト分析と翻訳に対応、認知系AIサービスも強化
Googleは2018年7月24日（米国時間）、年次イベント「Google Cloud Next ’18」で、GoogleCloud Platform（GCP）における認知系AIサービスの強化を発表した。Cloud AutoMLではテキスト分析と翻訳が追加。また、既存の認知系APIサービスにおける強化も発表された。