Meta、個別のトレーニングデータがなくても音声を生成できるAIモデル「Voicebox」を発表：英語、フランス語など6言語に対応

Metaは、個別のトレーニングデータがなくても音声を生成できる同社初の音声生成AIモデル「Voicebox」を発表した。

[＠IT] PC用表示関連情報

LINE

Hatena

　2023年6月16日（米国時間）、Metaは、個別のトレーニングデータがなくても音声を生成できる同社初の音声生成AI（人工知能）モデル「Voicebox」を発表した。

　Voiceboxは音声を生成することも、与えられたサンプル音声を変更することもできる。6つの言語（英語、フランス語、スペイン語、ドイツ語、ポーランド語、ポルトガル語）の音声を合成できる他、ノイズ除去、コンテンツ編集、スタイル変換などを実行できる。

　従来、音声生成AIには整備されたトレーニングデータを使用して、タスクごとに個別のトレーニングを行う必要があった。Voiceboxは、生の音声とその文字起こしだけから学習するアプローチを採用して開発された。拡散モデルよりも優れた結果を出す「フローマッチング」という手法に基づいている。同社によるとVoiceboxは、明瞭度（単語誤り率5.9％対1.9％）と音声の類似性（0.580対0.681）の両方の点で、最先端の音声生成モデル「VALL-E」を上回っており、20倍も高速だという。

Voiceboxは、単語誤り率においてVall-EやYourTTSを上回る結果を残した（提供：Meta）

　同社は「誤って使われるリスクが潜在的にある」とし、2023年6月の発表時点ではVoiceboxのモデルやコードを一般公開していない。「私たちは、AIコミュニティーに対してオープンであり、AIの最先端を前進させるために研究を共有することが重要であると信じているが、オープンさと責任の間の適切なバランスをとることも必要だ」（Meta）

　同社はVoiceboxの発表と同時に音声サンプル、開発のアプローチと結果を詳しく説明した研究論文を公開した。この論文では、本物の音声とVoiceboxで生成された音声を区別できる分類器を構築した方法についても詳しく説明しているという。

Voiceboxが実行できるタスク

　Voiceboxのトレーニングには、パブリックドメインのオーディオブックに収録された5万時間以上の録音音声とトランスクリプトが使われている。周囲の音声とセグメントのトランスクリプトが与えられたときに、音声セグメントを予測するようにトレーニングされているという。

　Voiceboxは次のようなタスクを実行できる。

コンテキスト内テキスト読み上げ合成

　2秒分の入力オーディオサンプルを使用して、Voiceboxはサンプルのオーディオスタイルに一致した、テキスト読み上げ音声を生成できる。将来的に、話すことができない人々に音声を提供したり、ノンプレイヤーキャラクターや仮想アシスタントが使用する音声をカスタマイズできるようにしたりすることで、この機能を構築できる可能性があるという。

言語間スタイルの転送

　英語、フランス語、ドイツ語、スペイン語、ポーランド語、またはポルトガル語の音声サンプルとテキストの一節が与えられると、Voiceboxはその言語でテキスト読み上げ音声を生成できる。

音声のノイズ除去と編集

　音声を生成してオーディオ録音内のセグメントをシームレスに編集できる。音声全体を再録音することなく、短時間のノイズによって破損した音声の部分を再合成したり、言い間違えた単語を置き換えたりすることができる。

多様な音声サンプリング

　さまざまな実際のデータを元にトレーニングしたVoiceboxは、人々の話し方を再現した音声を生成できる。将来的には、この機能を使用して合成データを生成し、音声アシスタントモデルのトレーニングを改善できる可能性があるという。