Meta、個別のトレーニングデータがなくても音声を生成できるAIモデル「Voicebox」を発表英語、フランス語など6言語に対応

Metaは、個別のトレーニングデータがなくても音声を生成できる同社初の音声生成AIモデル「Voicebox」を発表した。

» 2023年07月04日 08時00分 公開
[@IT]

この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。

 2023年6月16日(米国時間)、Metaは、個別のトレーニングデータがなくても音声を生成できる同社初の音声生成AI(人工知能)モデル「Voicebox」を発表した。

 Voiceboxは音声を生成することも、与えられたサンプル音声を変更することもできる。6つの言語(英語、フランス語、スペイン語、ドイツ語、ポーランド語、ポルトガル語)の音声を合成できる他、ノイズ除去、コンテンツ編集、スタイル変換などを実行できる。

 従来、音声生成AIには整備されたトレーニングデータを使用して、タスクごとに個別のトレーニングを行う必要があった。Voiceboxは、生の音声とその文字起こしだけから学習するアプローチを採用して開発された。拡散モデルよりも優れた結果を出す「フローマッチング」という手法に基づいている。同社によるとVoiceboxは、明瞭度(単語誤り率5.9%対1.9%)と音声の類似性(0.580対0.681)の両方の点で、最先端の音声生成モデル「VALL-E」を上回っており、20倍も高速だという。

Copyright © ITmedia, Inc. All Rights Reserved.

RSSについて

アイティメディアIDについて

メールマガジン登録

@ITのメールマガジンは、 もちろん、すべて無料です。ぜひメールマガジンをご購読ください。