OpenAI、音声エージェントを強化する新しい3つのモデルをAPIで提供開始 Whisperとは何が違う?:文字起こし精度が向上、特定の話し方を指示することも可能
OpenAIは、新しい音声認識モデル「gpt-4o-transcribe」と「gpt-4o-mini-transcribe」および音声合成モデル「gpt-4o-mini-tts」のAPIを提供開始した。
OpenAIは2025年3月20日(米国時間)、新しい音声認識(Speech-to-Text)モデルと音声合成(Text-to-Speech)モデルのAPIを提供開始した。開発者はより高度な音声エージェントを構築できるようになるという。
OpenAIはここ数カ月間に、テキストベースのエージェント(ユーザーに代わってタスクを自律的に実行するシステム)のインテリジェンス、能力、有用性の向上を目指し、「Operator」「Deep Research」「Computer-Using Agent」(CUA)モデル、Responses API(OpenAIが提供する組み込みツールを用いてエージェントを構築するためのAPI)などをリリースしてきた。
だが、「エージェントが真に有用であるためには、人々がテキストだけでなく、自然な話し言葉でエージェントとより深く、より直感的に対話できる必要がある」との認識から、これらの新しい音声モデルをリリースしたという。これらのモデルにより、開発者はより強力でカスタマイズ可能なインテリジェント音声エージェントを構築できるとしている。
3つの新たなモデルの特徴 OpenAIの「Whisper」とは何が違う?
新しい音声認識モデル「gpt-4o-transcribe」と「gpt-4o-mini-transcribe」
新しい音声認識モデルであるgpt-4o-transcribeおよびgpt-4o-mini-transcribeは、OpenAIが提供する既存の「Whisper」モデルと比べて単語エラー率(WER)が改善され、言語認識や精度、信頼性が向上している。
特に、特殊なアクセント、ノイズの多い環境、さまざまな音声速度などを含む困難なシナリオにおいて、音声のニュアンスをより良く捉え、文字起こしの信頼性を高めることができるという。
「これらのモデルは、コールセンターや会議の議事録作成などのユースケースに特に適している」と、OpenAIは述べている。
新しい音声合成モデル「gpt-4o-mini-tts」
新しい音声合成モデルであるgpt-4o-mini-ttsは、開発者が特定の話し方を指示可能な機能が備わっている。例えば、「親身な顧客サービス担当者のように話す」といった具合だ。そのため、このモデルは顧客サービスから、プレゼンテーションのためのストーリーテリングまで、幅広いユースケースに対応できる。なお、このモデルで使用できる音声は、人工的なプリセット音声に限定されている。
新しい音声モデルを支えるイノベーション
OpenAIによると、これらの音声モデルは、以下のようなイノベーションを通じて開発されたという。
本物の音声データセットを用いた事前トレーニング
新しい音声モデルは、「GPT-4o」および「GPT-4o-mini」アーキテクチャをベースにしており、音声に特化したデータセットで広範な事前トレーニングが行われている。このアプローチにより、新しい音声モデルは音声のニュアンスをより深く理解し、音声関連のタスク全体で卓越したパフォーマンスを実現する。
高度な蒸留手法
OpenAIは蒸留技術を強化し、最大規模の音声モデルから、より小規模で効率的なモデルへの知識伝達を可能にした。高度な自己再生手法を活用することで、蒸留データセットはリアルな会話のダイナミクスを効果的に捉え、ユーザーとアシスタントの本物のやりとりを再現する。これにより、OpenAIの小規模モデルは優れた会話品質と応答性を提供する。
強化学習パラダイム
音声認識モデルでは、強化学習(RL)を多用するパラダイムを統合し、文字起こし精度を最先端レベルに高めている。この手法により、精度が劇的に向上し、ハルシネーション(幻覚)が減少する。そのため、複雑な音声認識シナリオにおいて、OpenAIの音声認識ソリューションは優れた競争力を発揮する。
APIでの利用
これらの新しい音声認識および音声合成モデルは、全ての開発者がそれぞれ音声認識APIと音声合成APIで利用できる。OpenAIは、これらのモデルと「Agents SDK」の統合により、音声エージェントの開発プロセスを簡素化する計画だ。
今後の計画
OpenAIは、今後も音声モデルの改良投資を継続し、開発者が独自のカスタム音声を持ち込み、安全基準に沿った方法で、よりパーソナライズされた体験を構築できるようにする予定だ。また、開発者がマルチモーダルなエージェント体験を構築できるように、ビデオなど他のモダリティ(データ種別)にも取り組むという。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
OpenAI、最新モデル「GPT-4.5」のリサーチプレビューを公開 ハルシネーションはどれだけ少なくなる?
OpenAIは、これまでで最も大規模かつ高性能なチャット向けモデル「GPT-4.5」のリサーチプレビューを公開した。「ChatGPT Pro」プランのユーザーと開発者が利用できる。何時間もかかる調査作業を数十分で実行できるChatGPTの新機能「deep research」 これまでのAIモデルと性能はどう違う?
OpenAIは、人間が何時間もかかる調査作業を数十分で完了させる「ChatGPT」の新しいエージェント機能「deep research」を、ChatGPTの「Pro」プランのユーザー向けに提供開始した。ブラウザを操作してタスクを実行するAIエージェント「Operator」 基盤モデル「Computer-Using Agent」とは?
OpenAIは、Webにアクセスしてユーザーの代わりにタスクを実行するエージェント「Operator」のリサーチプレビュー版をリリースした。