OpenAIが開発した音声生成モデル「Voice Engine」が見せた実力と課題：メリットも多いが、悪用リスクも

OpenAIは音声生成モデル「Voice Engine」の小規模プレビューから得られた予備的な知見と結果を公表した。このプレビューから合成音声生成の持つ可能性と課題が浮き彫りとなった。

[＠IT] PC用表示関連情報

LINE

Hatena

　OpenAIは2024年3月29日（米国時間）、音声生成モデル「Voice Engine」の小規模プレビューから得られた予備的な知見と結果を公表した。このモデルは、テキスト入力と15秒間の音声サンプルを使用して、元の話し手に近い自然な音声を生成する。15秒のサンプル音声1つでも、感情的でリアルな音声を作成できる。

　OpenAIは2022年後半にVoice Engineを開発し、音声合成APIで利用可能なプリセット音声や、「ChatGPT Voice」や「Read Aloud」などのテキストを音声で読み上げる機能を実現するために使用してきた。同時に、合成音声が悪用される可能性があるため、より広範なリリースには慎重なアプローチを取っている。OpenAIは、小規模プレビューの結果などに基づいて、この技術を大規模に展開するかどうかの決定を下すとしている。Voice Engineに関するOpenAIの説明は次の通り。

Voice Engineの使用例

　Voice Engineの使用例は以下の通り。

読み上げ支援

　プリセットされた音声では不可能な、さまざまな話者による自然な音声による読み上げ支援が可能だ。教育テクノロジー企業Age of Learningでは、原稿に基づくナレーションを生成するためにVoice Engineを利用している。また、同社では、Voice EngineとGPT-4を使って、リアルタイムでパーソナライズされた応答を作成し、生徒とやりとりしている。

動画の多言語翻訳

　HeyGenは、AIビジュアルストーリーテリングプラットフォームで、さまざまなコンテンツ用にカスタムされたアバターを作成するツールを提供している。同社は動画翻訳にVoice Engineを使用しており、話者の声を多言語に翻訳し、世界中の視聴者に届けている。Voice Engineは翻訳の際、元の話者のネイティブアクセントを保持する。例えば、フランス語話者の音声サンプルを使用して英語を生成すると、フランス語アクセントの音声が生成される。

あらゆる地域への必要不可欠なサービスの提供

　Voice Engineは必要不可欠なサービスを他の地域へ提供することも可能だ。Dimagiは、母乳育児の母親へのカウンセリングなど、さまざまな必要不可欠なサービスを提供する地域保健ワーカーのためのツールを構築している。DimagiはVoice EngineとGPT-4を使用して、スワヒリ語や、ケニアで普及している言語を含む、各医療従事者の主要言語でインタラクティブなフィードバックを提供し、スキル向上を支援している。

言語障害者のサポート

　言語障害者のサポートもVoice Engineは可能だ。AI代替コミュニケーションアプリの「Livox」は、障害者のコミュニケーションを可能にするAAC（Augmentative & Alternative Communication）機器を支えている。Voice Engineの使用により、多くの言語にわたるユニークで非ロボット的な音声を提供できる。ユーザーは、自分を最もよく表す音声を選択できる。多言語ユーザーは、各言語で一貫した音声を維持できる。

Voice Engineの構築

　人の声に似た音声の生成には重大なリスクがある。OpenAIでは、政府やメディアなど、さまざまな分野の米国内外のパートナーと協力し、彼らの意見を取り入れながらVoice Engineを構築している。

　Voice Engineをテストしているパートナーは、同意や法的権利なしに他人や他組織になりすますことを禁止するOpenAIのポリシーに同意している。さらに、これらのパートナーとの規約では、元の話者からの明示的かつ十分な情報に基づいた同意が必要であり、開発者は個々のユーザーが独自の音声を生成できないようにしている。パートナーはまた、視聴者に対して、彼らが聞いている声がAIによって生成されたものであることを明確に開示しなければならない。

今後の展望

　OpenAIはVoice Engineを広く展開するためには、人々がこの技術の方向性を理解するとともに、以下のようなステップが必要だと同社は訴えている。

銀行口座など機密情報にアクセスするセキュリティ対策として、音声ベース認証の段階的な廃止
AIで個人の声の使用を保護するための政策の検討
AI技術の能力と限界を理解するための一般市民への教育
音声の出どころを追跡する技術の開発と採用
やりとりする相手の明確化（人間なのかAIなのか）