OpenAIは、新しい音声認識モデル「gpt-4o-transcribe」と「gpt-4o-mini-transcribe」および音声合成モデル「gpt-4o-mini-tts」のAPIを提供開始した。
この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。
OpenAIは2025年3月20日(米国時間)、新しい音声認識(Speech-to-Text)モデルと音声合成(Text-to-Speech)モデルのAPIを提供開始した。開発者はより高度な音声エージェントを構築できるようになるという。
OpenAIはここ数カ月間に、テキストベースのエージェント(ユーザーに代わってタスクを自律的に実行するシステム)のインテリジェンス、能力、有用性の向上を目指し、「Operator」「Deep Research」「Computer-Using Agent」(CUA)モデル、Responses API(OpenAIが提供する組み込みツールを用いてエージェントを構築するためのAPI)などをリリースしてきた。
だが、「エージェントが真に有用であるためには、人々がテキストだけでなく、自然な話し言葉でエージェントとより深く、より直感的に対話できる必要がある」との認識から、これらの新しい音声モデルをリリースしたという。これらのモデルにより、開発者はより強力でカスタマイズ可能なインテリジェント音声エージェントを構築できるとしている。
新しい音声認識モデルであるgpt-4o-transcribeおよびgpt-4o-mini-transcribeは、OpenAIが提供する既存の「Whisper」モデルと比べて単語エラー率(WER)が改善され、言語認識や精度、信頼性が向上している。
特に、特殊なアクセント、ノイズの多い環境、さまざまな音声速度などを含む困難なシナリオにおいて、音声のニュアンスをより良く捉え、文字起こしの信頼性を高めることができるという。
「これらのモデルは、コールセンターや会議の議事録作成などのユースケースに特に適している」と、OpenAIは述べている。
新しい音声合成モデルであるgpt-4o-mini-ttsは、開発者が特定の話し方を指示可能な機能が備わっている。例えば、「親身な顧客サービス担当者のように話す」といった具合だ。そのため、このモデルは顧客サービスから、プレゼンテーションのためのストーリーテリングまで、幅広いユースケースに対応できる。なお、このモデルで使用できる音声は、人工的なプリセット音声に限定されている。
OpenAIによると、これらの音声モデルは、以下のようなイノベーションを通じて開発されたという。
新しい音声モデルは、「GPT-4o」および「GPT-4o-mini」アーキテクチャをベースにしており、音声に特化したデータセットで広範な事前トレーニングが行われている。このアプローチにより、新しい音声モデルは音声のニュアンスをより深く理解し、音声関連のタスク全体で卓越したパフォーマンスを実現する。
OpenAIは蒸留技術を強化し、最大規模の音声モデルから、より小規模で効率的なモデルへの知識伝達を可能にした。高度な自己再生手法を活用することで、蒸留データセットはリアルな会話のダイナミクスを効果的に捉え、ユーザーとアシスタントの本物のやりとりを再現する。これにより、OpenAIの小規模モデルは優れた会話品質と応答性を提供する。
音声認識モデルでは、強化学習(RL)を多用するパラダイムを統合し、文字起こし精度を最先端レベルに高めている。この手法により、精度が劇的に向上し、ハルシネーション(幻覚)が減少する。そのため、複雑な音声認識シナリオにおいて、OpenAIの音声認識ソリューションは優れた競争力を発揮する。
これらの新しい音声認識および音声合成モデルは、全ての開発者がそれぞれ音声認識APIと音声合成APIで利用できる。OpenAIは、これらのモデルと「Agents SDK」の統合により、音声エージェントの開発プロセスを簡素化する計画だ。
OpenAIは、今後も音声モデルの改良投資を継続し、開発者が独自のカスタム音声を持ち込み、安全基準に沿った方法で、よりパーソナライズされた体験を構築できるようにする予定だ。また、開発者がマルチモーダルなエージェント体験を構築できるように、ビデオなど他のモダリティ(データ種別)にも取り組むという。
Copyright © ITmedia, Inc. All Rights Reserved.
Smart & Social 記事ランキング