ニュース

2025年3月26日

OpenAI、音声エージェントを強化する新しい3つのモデルをAPIで提供開始　Whisperとは何が違う？：文字起こし精度が向上、特定の話し方を指示することも可能

OpenAIは、新しい音声認識モデル「gpt-4o-transcribe」と「gpt-4o-mini-transcribe」および音声合成モデル「gpt-4o-mini-tts」のAPIを提供開始した。

[＠IT] PC用表示関連情報

LINE

Hatena

　OpenAIは2025年3月20日（米国時間）、新しい音声認識（Speech-to-Text）モデルと音声合成（Text-to-Speech）モデルのAPIを提供開始した。開発者はより高度な音声エージェントを構築できるようになるという。

　OpenAIはここ数カ月間に、テキストベースのエージェント（ユーザーに代わってタスクを自律的に実行するシステム）のインテリジェンス、能力、有用性の向上を目指し、「Operator」「Deep Research」「Computer-Using Agent」（CUA）モデル、Responses API（OpenAIが提供する組み込みツールを用いてエージェントを構築するためのAPI）などをリリースしてきた。

　だが、「エージェントが真に有用であるためには、人々がテキストだけでなく、自然な話し言葉でエージェントとより深く、より直感的に対話できる必要がある」との認識から、これらの新しい音声モデルをリリースしたという。これらのモデルにより、開発者はより強力でカスタマイズ可能なインテリジェント音声エージェントを構築できるとしている。

3つの新たなモデルの特徴　OpenAIの「Whisper」とは何が違う？

新しい音声認識モデル「gpt-4o-transcribe」と「gpt-4o-mini-transcribe」

　新しい音声認識モデルであるgpt-4o-transcribeおよびgpt-4o-mini-transcribeは、OpenAIが提供する既存の「Whisper」モデルと比べて単語エラー率（WER）が改善され、言語認識や精度、信頼性が向上している。

　特に、特殊なアクセント、ノイズの多い環境、さまざまな音声速度などを含む困難なシナリオにおいて、音声のニュアンスをより良く捉え、文字起こしの信頼性を高めることができるという。

　「これらのモデルは、コールセンターや会議の議事録作成などのユースケースに特に適している」と、OpenAIは述べている。

新しい音声合成モデル「gpt-4o-mini-tts」

　新しい音声合成モデルであるgpt-4o-mini-ttsは、開発者が特定の話し方を指示可能な機能が備わっている。例えば、「親身な顧客サービス担当者のように話す」といった具合だ。そのため、このモデルは顧客サービスから、プレゼンテーションのためのストーリーテリングまで、幅広いユースケースに対応できる。なお、このモデルで使用できる音声は、人工的なプリセット音声に限定されている。

新しい音声モデルを支えるイノベーション

　OpenAIによると、これらの音声モデルは、以下のようなイノベーションを通じて開発されたという。

本物の音声データセットを用いた事前トレーニング

　新しい音声モデルは、「GPT-4o」および「GPT-4o-mini」アーキテクチャをベースにしており、音声に特化したデータセットで広範な事前トレーニングが行われている。このアプローチにより、新しい音声モデルは音声のニュアンスをより深く理解し、音声関連のタスク全体で卓越したパフォーマンスを実現する。

高度な蒸留手法

　OpenAIは蒸留技術を強化し、最大規模の音声モデルから、より小規模で効率的なモデルへの知識伝達を可能にした。高度な自己再生手法を活用することで、蒸留データセットはリアルな会話のダイナミクスを効果的に捉え、ユーザーとアシスタントの本物のやりとりを再現する。これにより、OpenAIの小規模モデルは優れた会話品質と応答性を提供する。

強化学習パラダイム

　音声認識モデルでは、強化学習（RL）を多用するパラダイムを統合し、文字起こし精度を最先端レベルに高めている。この手法により、精度が劇的に向上し、ハルシネーション（幻覚）が減少する。そのため、複雑な音声認識シナリオにおいて、OpenAIの音声認識ソリューションは優れた競争力を発揮する。

APIでの利用

　これらの新しい音声認識および音声合成モデルは、全ての開発者がそれぞれ音声認識APIと音声合成APIで利用できる。OpenAIは、これらのモデルと「Agents SDK」の統合により、音声エージェントの開発プロセスを簡素化する計画だ。

今後の計画

　OpenAIは、今後も音声モデルの改良投資を継続し、開発者が独自のカスタム音声を持ち込み、安全基準に沿った方法で、よりパーソナライズされた体験を構築できるようにする予定だ。また、開発者がマルチモーダルなエージェント体験を構築できるように、ビデオなど他のモダリティ（データ種別）にも取り組むという。

OpenAI、音声エージェントを強化する新しい3つのモデルをAPIで提供開始　Whisperとは何が違う？：文字起こし精度が向上、特定の話し方を指示することも可能

3つの新たなモデルの特徴　OpenAIの「Whisper」とは何が違う？

新しい音声認識モデル「gpt-4o-transcribe」と「gpt-4o-mini-transcribe」

新しい音声合成モデル「gpt-4o-mini-tts」

新しい音声モデルを支えるイノベーション

本物の音声データセットを用いた事前トレーニング

高度な蒸留手法

強化学習パラダイム

APIでの利用

今後の計画

関連記事

関連リンク

Smart & Social 記事ランキング

OpenAI、音声エージェントを強化する新しい3つのモデルをAPIで提供開始 Whisperとは何が違う？：文字起こし精度が向上、特定の話し方を指示することも可能

3つの新たなモデルの特徴 OpenAIの「Whisper」とは何が違う？

新しい音声認識モデル「gpt-4o-transcribe」と「gpt-4o-mini-transcribe」

新しい音声合成モデル「gpt-4o-mini-tts」

新しい音声モデルを支えるイノベーション

本物の音声データセットを用いた事前トレーニング

高度な蒸留手法

強化学習パラダイム

APIでの利用

今後の計画

関連記事

関連リンク

Smart & Social 記事ランキング

OpenAI、音声エージェントを強化する新しい3つのモデルをAPIで提供開始　Whisperとは何が違う？：文字起こし精度が向上、特定の話し方を指示することも可能

3つの新たなモデルの特徴　OpenAIの「Whisper」とは何が違う？