Metaは、個別のトレーニングデータがなくても音声を生成できる同社初の音声生成AIモデル「Voicebox」を発表した。
この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。
2023年6月16日(米国時間)、Metaは、個別のトレーニングデータがなくても音声を生成できる同社初の音声生成AI(人工知能)モデル「Voicebox」を発表した。
Voiceboxは音声を生成することも、与えられたサンプル音声を変更することもできる。6つの言語(英語、フランス語、スペイン語、ドイツ語、ポーランド語、ポルトガル語)の音声を合成できる他、ノイズ除去、コンテンツ編集、スタイル変換などを実行できる。
従来、音声生成AIには整備されたトレーニングデータを使用して、タスクごとに個別のトレーニングを行う必要があった。Voiceboxは、生の音声とその文字起こしだけから学習するアプローチを採用して開発された。拡散モデルよりも優れた結果を出す「フローマッチング」という手法に基づいている。同社によるとVoiceboxは、明瞭度(単語誤り率5.9%対1.9%)と音声の類似性(0.580対0.681)の両方の点で、最先端の音声生成モデル「VALL-E」を上回っており、20倍も高速だという。
Copyright © ITmedia, Inc. All Rights Reserved.