ニュース
Meta、個別のトレーニングデータがなくても音声を生成できるAIモデル「Voicebox」を発表:英語、フランス語など6言語に対応
Metaは、個別のトレーニングデータがなくても音声を生成できる同社初の音声生成AIモデル「Voicebox」を発表した。
2023年6月16日(米国時間)、Metaは、個別のトレーニングデータがなくても音声を生成できる同社初の音声生成AI(人工知能)モデル「Voicebox」を発表した。
Voiceboxは音声を生成することも、与えられたサンプル音声を変更することもできる。6つの言語(英語、フランス語、スペイン語、ドイツ語、ポーランド語、ポルトガル語)の音声を合成できる他、ノイズ除去、コンテンツ編集、スタイル変換などを実行できる。
従来、音声生成AIには整備されたトレーニングデータを使用して、タスクごとに個別のトレーニングを行う必要があった。Voiceboxは、生の音声とその文字起こしだけから学習するアプローチを採用して開発された。拡散モデルよりも優れた結果を出す「フローマッチング」という手法に基づいている。同社によるとVoiceboxは、明瞭度(単語誤り率5.9%対1.9%)と音声の類似性(0.580対0.681)の両方の点で、最先端の音声生成モデル「VALL-E」を上回っており、20倍も高速だという。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
- Meta、1000以上の言語に対応する音声認識モデルなどを構築、オープンソースで公開
Metaは、音声技術の対応言語を拡大することを目指す「Massively Multilingual Speech」(MMS)プロジェクトの成果として、音声認識モデル、音声合成モデル、言語識別モデルとコードをGitHubで公開した。 - ggml.ai、GPUなしでチャットAIを動作させるライブラリ「GGML」開発中 Raspberry Pi上で音声認識モデルを実行可能
ggml.aiは、GPUなしでチャットAIを動作させる機械学習用のtensorライブラリ「GGML」を開発していると発表した。 - Google Cloud、MLプラットフォーム「Vertex AI」で生成AIアプリを構築可能に
Google Cloudは、機械学習プラットフォーム「Vertex AI」におけるジェネレーティブAIサポートの一般提供を開始し、顧客がカスタムジェネレーティブAIアプリケーションを構築、強化するためにGoogle Cloudの最新プラットフォーム機能にアクセスできるようにした。