OpenAIは音声生成モデル「Voice Engine」の小規模プレビューから得られた予備的な知見と結果を公表した。このプレビューから合成音声生成の持つ可能性と課題が浮き彫りとなった。
OpenAIは2024年3月29日(米国時間)、音声生成モデル「Voice Engine」の小規模プレビューから得られた予備的な知見と結果を公表した。このモデルは、テキスト入力と15秒間の音声サンプルを使用して、元の話し手に近い自然な音声を生成する。15秒のサンプル音声1つでも、感情的でリアルな音声を作成できる。
OpenAIは2022年後半にVoice Engineを開発し、音声合成APIで利用可能なプリセット音声や、「ChatGPT Voice」や「Read Aloud」などのテキストを音声で読み上げる機能を実現するために使用してきた。同時に、合成音声が悪用される可能性があるため、より広範なリリースには慎重なアプローチを取っている。OpenAIは、小規模プレビューの結果などに基づいて、この技術を大規模に展開するかどうかの決定を下すとしている。Voice Engineに関するOpenAIの説明は次の通り。
Voice Engineの使用例は以下の通り。
プリセットされた音声では不可能な、さまざまな話者による自然な音声による読み上げ支援が可能だ。教育テクノロジー企業Age of Learningでは、原稿に基づくナレーションを生成するためにVoice Engineを利用している。また、同社では、Voice EngineとGPT-4を使って、リアルタイムでパーソナライズされた応答を作成し、生徒とやりとりしている。
HeyGenは、AIビジュアルストーリーテリングプラットフォームで、さまざまなコンテンツ用にカスタムされたアバターを作成するツールを提供している。同社は動画翻訳にVoice Engineを使用しており、話者の声を多言語に翻訳し、世界中の視聴者に届けている。Voice Engineは翻訳の際、元の話者のネイティブアクセントを保持する。例えば、フランス語話者の音声サンプルを使用して英語を生成すると、フランス語アクセントの音声が生成される。
Voice Engineは必要不可欠なサービスを他の地域へ提供することも可能だ。Dimagiは、母乳育児の母親へのカウンセリングなど、さまざまな必要不可欠なサービスを提供する地域保健ワーカーのためのツールを構築している。DimagiはVoice EngineとGPT-4を使用して、スワヒリ語や、ケニアで普及している言語を含む、各医療従事者の主要言語でインタラクティブなフィードバックを提供し、スキル向上を支援している。
言語障害者のサポートもVoice Engineは可能だ。AI代替コミュニケーションアプリの「Livox」は、障害者のコミュニケーションを可能にするAAC(Augmentative & Alternative Communication)機器を支えている。Voice Engineの使用により、多くの言語にわたるユニークで非ロボット的な音声を提供できる。ユーザーは、自分を最もよく表す音声を選択できる。多言語ユーザーは、各言語で一貫した音声を維持できる。
人の声に似た音声の生成には重大なリスクがある。OpenAIでは、政府やメディアなど、さまざまな分野の米国内外のパートナーと協力し、彼らの意見を取り入れながらVoice Engineを構築している。
Voice Engineをテストしているパートナーは、同意や法的権利なしに他人や他組織になりすますことを禁止するOpenAIのポリシーに同意している。さらに、これらのパートナーとの規約では、元の話者からの明示的かつ十分な情報に基づいた同意が必要であり、開発者は個々のユーザーが独自の音声を生成できないようにしている。パートナーはまた、視聴者に対して、彼らが聞いている声がAIによって生成されたものであることを明確に開示しなければならない。
OpenAIはVoice Engineを広く展開するためには、人々がこの技術の方向性を理解するとともに、以下のようなステップが必要だと同社は訴えている。
Copyright © ITmedia, Inc. All Rights Reserved.