OpenAI、音声エージェントを強化する新しい3つのモデルをAPIで提供開始 Whisperとは何が違う?文字起こし精度が向上、特定の話し方を指示することも可能

OpenAIは、新しい音声認識モデル「gpt-4o-transcribe」と「gpt-4o-mini-transcribe」および音声合成モデル「gpt-4o-mini-tts」のAPIを提供開始した。

» 2025年03月26日 08時00分 公開
[@IT]

この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。

 OpenAIは2025年3月20日(米国時間)、新しい音声認識(Speech-to-Text)モデルと音声合成(Text-to-Speech)モデルのAPIを提供開始した。開発者はより高度な音声エージェントを構築できるようになるという。

 OpenAIはここ数カ月間に、テキストベースのエージェント(ユーザーに代わってタスクを自律的に実行するシステム)のインテリジェンス、能力、有用性の向上を目指し、「Operator」「Deep Research」「Computer-Using Agent」(CUA)モデル、Responses API(OpenAIが提供する組み込みツールを用いてエージェントを構築するためのAPI)などをリリースしてきた。

 だが、「エージェントが真に有用であるためには、人々がテキストだけでなく、自然な話し言葉でエージェントとより深く、より直感的に対話できる必要がある」との認識から、これらの新しい音声モデルをリリースしたという。これらのモデルにより、開発者はより強力でカスタマイズ可能なインテリジェント音声エージェントを構築できるとしている。

3つの新たなモデルの特徴 OpenAIの「Whisper」とは何が違う?

新しい音声認識モデル「gpt-4o-transcribe」と「gpt-4o-mini-transcribe」

 新しい音声認識モデルであるgpt-4o-transcribeおよびgpt-4o-mini-transcribeは、OpenAIが提供する既存の「Whisper」モデルと比べて単語エラー率(WER)が改善され、言語認識や精度、信頼性が向上している。

 特に、特殊なアクセント、ノイズの多い環境、さまざまな音声速度などを含む困難なシナリオにおいて、音声のニュアンスをより良く捉え、文字起こしの信頼性を高めることができるという。

 「これらのモデルは、コールセンターや会議の議事録作成などのユースケースに特に適している」と、OpenAIは述べている。

新しい音声合成モデル「gpt-4o-mini-tts」

 新しい音声合成モデルであるgpt-4o-mini-ttsは、開発者が特定の話し方を指示可能な機能が備わっている。例えば、「親身な顧客サービス担当者のように話す」といった具合だ。そのため、このモデルは顧客サービスから、プレゼンテーションのためのストーリーテリングまで、幅広いユースケースに対応できる。なお、このモデルで使用できる音声は、人工的なプリセット音声に限定されている。

新しい音声モデルを支えるイノベーション

 OpenAIによると、これらの音声モデルは、以下のようなイノベーションを通じて開発されたという。

本物の音声データセットを用いた事前トレーニング

 新しい音声モデルは、「GPT-4o」および「GPT-4o-mini」アーキテクチャをベースにしており、音声に特化したデータセットで広範な事前トレーニングが行われている。このアプローチにより、新しい音声モデルは音声のニュアンスをより深く理解し、音声関連のタスク全体で卓越したパフォーマンスを実現する。

高度な蒸留手法

 OpenAIは蒸留技術を強化し、最大規模の音声モデルから、より小規模で効率的なモデルへの知識伝達を可能にした。高度な自己再生手法を活用することで、蒸留データセットはリアルな会話のダイナミクスを効果的に捉え、ユーザーとアシスタントの本物のやりとりを再現する。これにより、OpenAIの小規模モデルは優れた会話品質と応答性を提供する。

強化学習パラダイム

 音声認識モデルでは、強化学習(RL)を多用するパラダイムを統合し、文字起こし精度を最先端レベルに高めている。この手法により、精度が劇的に向上し、ハルシネーション(幻覚)が減少する。そのため、複雑な音声認識シナリオにおいて、OpenAIの音声認識ソリューションは優れた競争力を発揮する。

APIでの利用

 これらの新しい音声認識および音声合成モデルは、全ての開発者がそれぞれ音声認識APIと音声合成APIで利用できる。OpenAIは、これらのモデルと「Agents SDK」の統合により、音声エージェントの開発プロセスを簡素化する計画だ。

今後の計画

 OpenAIは、今後も音声モデルの改良投資を継続し、開発者が独自のカスタム音声を持ち込み、安全基準に沿った方法で、よりパーソナライズされた体験を構築できるようにする予定だ。また、開発者がマルチモーダルなエージェント体験を構築できるように、ビデオなど他のモダリティ(データ種別)にも取り組むという。

Copyright © ITmedia, Inc. All Rights Reserved.

スポンサーからのお知らせPR

Smart & Social 記事ランキング

本日月間

注目のテーマ

4AI by @IT - AIを作り、動かし、守り、生かす
Microsoft & Windows最前線2025
AI for エンジニアリング
ローコード/ノーコード セントラル by @IT - ITエンジニアがビジネスの中心で活躍する組織へ
Cloud Native Central by @IT - スケーラブルな能力を組織に
システム開発ノウハウ 【発注ナビ】PR
あなたにおすすめの記事PR

RSSについて

アイティメディアIDについて

メールマガジン登録

@ITのメールマガジンは、 もちろん、すべて無料です。ぜひメールマガジンをご購読ください。