OpenAIは、対話に特化した言語モデル「ChatGPT」と音声認識モデル「Whisper」をAPIで利用できるようにした。
この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。
AI関連技術を開発する非営利組織OpenAIは2023年3月1日(米国時間)、対話に特化した言語モデル「ChatGPT」と汎用(はんよう)の音声認識モデル「Whisper」をAPIで利用できるようにしたと発表した。APIの公開に合わせて、利用規約を開発者ニーズにより良く対応できるように改訂したことも明らかにした。
ChatGPTは、OpenAIの自然言語処理モデル「GPT-3.5」を、対話に適したモデルへと微調整したものだ。OpenAIは、GPT-3.5ファミリーとして最も高性能で費用対効果が高いモデル「gpt-3.5-turbo」をリリースした。gpt-3.5-turboは、既存の「text-davinci-003」の10分の1の料金(1000トークン当たり0.002ドル〈※〉)で利用でき、チャット以外のさまざまなユースケースにも適している。さらにOpenAIは、ChatGPTモデルを操作するための新しいエンドポイントを作成したことも明らかにした。
※OpenAIのモデルでは、テキストをトークンに分解して理解し、処理する。トークンは単語、または文字の連なりを指す(例えば、「hamburger」は、「ham」「bur」「ger」というトークンに分割され、「pear」のような短い一般的な単語は、1つのトークンになる)。APIリクエストで処理されるトークンの数は、入力と出力の両方の長さに依存する。
ドキュメントによると、OpenAIのAPIを使えば、gpt-3.5-turboを用いて以下のような機能を提供するアプリケーションを作成できる。
OpenAIは、ChatGPTモデルを継続的に改良しており、gpt-3.5-turboモデルを使用する開発者は、OpenAIが推奨する安定したモデルを常に入手できる。一方で、特定のモデルバージョンを柔軟に選択することも可能だ。gpt-3.5-turboの2023年3月1日のスナップショットである「gpt-3.5-turbo-0301」は、更新が行われず、6月1日までの3カ月間だけサポートされる。gpt-3.5-turboは、2023年4月に新しい安定版リリースに更新される予定としている。
OpenAIは、特定のモデルのバージョンとシステムのパフォーマンスを深く制御したいユーザー向けに、専用インスタンスの提供も開始した。既定の設定では、リクエストは、他のユーザーと共有される計算インフラで実行され、ユーザーはリクエスト単位で料金を支払う。OpenAIのAPIは「Microsoft Azure」上で動作し、専用インスタンスを使用する場合、開発者は、リクエストの処理用に確保された計算インフラの割当時間に応じて料金を支払う。
開発者は各種の機能やオプションを利用して、インスタンスの負荷を完全に制御できる。
専用インスタンスは、1日当たり4億5000万トークン以上の処理を行う開発者にとって、コスト面で合理的だ。さらに、開発者のワークロードをハードウェア性能に対して直接最適化するため、共有インフラに比べてコストを大幅に削減できるとOpenAIは説明している。
OpenAIが2022年9月にオープンソース化した音声認識モデルであるWhisperは、開発者コミュニティーから好評を得ているが、運用が難しい場合もある。OpenAIは、Whisper Large-V2モデルをAPIで利用できるようにし、1分当たり0.006ドルの料金で便利なオンデマンドアクセスを実現したとしている。高度に最適化された配信スタックにより、他のサービスよりも高速なパフォーマンスを保証しているという。
Whisper APIは、音声からの文字起こしや翻訳(英語)に利用でき、さまざまなフォーマット(m4a、mp3、mp4、mpeg、mpga、wav、webm)に対応している。
OpenAIは6カ月間にわたって、APIを利用する顧客からのフィードバックを収集、検討し、APIの利用規約改訂など、以下のようなサービス向上策を実施した。
Copyright © ITmedia, Inc. All Rights Reserved.