OpenAI、音声エージェントを強化する新しい3つのモデルをAPIで提供開始　Whisperとは何が違う？：文字起こし精度が向上、特定の話し方を指示することも可能

OpenAIは、新しい音声認識モデル「gpt-4o-transcribe」と「gpt-4o-mini-transcribe」および音声合成モデル「gpt-4o-mini-tts」のAPIを提供開始した。

» 2025年03月26日 08時00分公開

[＠IT]

この記事は会員限定です。会員登録（無料）すると全てご覧いただけます。

　OpenAIは2025年3月20日（米国時間）、新しい音声認識（Speech-to-Text）モデルと音声合成（Text-to-Speech）モデルのAPIを提供開始した。開発者はより高度な音声エージェントを構築できるようになるという。

　OpenAIはここ数カ月間に、テキストベースのエージェント（ユーザーに代わってタスクを自律的に実行するシステム）のインテリジェンス、能力、有用性の向上を目指し、「Operator」「Deep Research」「Computer-Using Agent」（CUA）モデル、Responses API（OpenAIが提供する組み込みツールを用いてエージェントを構築するためのAPI）などをリリースしてきた。

　だが、「エージェントが真に有用であるためには、人々がテキストだけでなく、自然な話し言葉でエージェントとより深く、より直感的に対話できる必要がある」との認識から、これらの新しい音声モデルをリリースしたという。これらのモデルにより、開発者はより強力でカスタマイズ可能なインテリジェント音声エージェントを構築できるとしている。

3つの新たなモデルの特徴　OpenAIの「Whisper」とは何が違う？

新しい音声認識モデル「gpt-4o-transcribe」と「gpt-4o-mini-transcribe」

　新しい音声認識モデルであるgpt-4o-transcribeおよびgpt-4o-mini-transcribeは、OpenAIが提供する既存の「Whisper」モデルと比べて単語エラー率（WER）が改善され、言語認識や精度、信頼性が向上している。

　特に、特殊なアクセント、ノイズの多い環境、さまざまな音声速度などを含む困難なシナリオにおいて、音声のニュアンスをより良く捉え、文字起こしの信頼性を高めることができるという。

　「これらのモデルは、コールセンターや会議の議事録作成などのユースケースに特に適している」と、OpenAIは述べている。

新しい音声合成モデル「gpt-4o-mini-tts」

　新しい音声合成モデルであるgpt-4o-mini-ttsは、開発者が特定の話し方を指示可能な機能が備わっている。例えば、「親身な顧客サービス担当者のように話す」といった具合だ。そのため、このモデルは顧客サービスから、プレゼンテーションのためのストーリーテリングまで、幅広いユースケースに対応できる。なお、このモデルで使用できる音声は、人工的なプリセット音声に限定されている。

新しい音声モデルを支えるイノベーション

　OpenAIによると、これらの音声モデルは、以下のようなイノベーションを通じて開発されたという。

本物の音声データセットを用いた事前トレーニング

　新しい音声モデルは、「GPT-4o」および「GPT-4o-mini」アーキテクチャをベースにしており、音声に特化したデータセットで広範な事前トレーニングが行われている。このアプローチにより、新しい音声モデルは音声のニュアンスをより深く理解し、音声関連のタスク全体で卓越したパフォーマンスを実現する。

高度な蒸留手法

　OpenAIは蒸留技術を強化し、最大規模の音声モデルから、より小規模で効率的なモデルへの知識伝達を可能にした。高度な自己再生手法を活用することで、蒸留データセットはリアルな会話のダイナミクスを効果的に捉え、ユーザーとアシスタントの本物のやりとりを再現する。これにより、OpenAIの小規模モデルは優れた会話品質と応答性を提供する。