OpenAIは音声生成モデル「Voice Engine」の小規模プレビューから得られた予備的な知見と結果を公表した。このプレビューから合成音声生成の持つ可能性と課題が浮き彫りとなった。
OpenAIは2024年3月29日(米国時間)、音声生成モデル「Voice Engine」の小規模プレビューから得られた予備的な知見と結果を公表した。このモデルは、テキスト入力と15秒間の音声サンプルを使用して、元の話し手に近い自然な音声を生成する。15秒のサンプル音声1つでも、感情的でリアルな音声を作成できる。
OpenAIは2022年後半にVoice Engineを開発し、音声合成APIで利用可能なプリセット音声や、「ChatGPT Voice」や「Read Aloud」などのテキストを音声で読み上げる機能を実現するために使用してきた。同時に、合成音声が悪用される可能性があるため、より広範なリリースには慎重なアプローチを取っている。OpenAIは、小規模プレビューの結果などに基づいて、この技術を大規模に展開するかどうかの決定を下すとしている。Voice Engineに関するOpenAIの説明は次の通り。
Copyright © ITmedia, Inc. All Rights Reserved.