OpenAIは対話型生成AI「ChatGPT」に音声機能と画像機能を導入すると発表した。有料プランの「Plus」と「Enterprise」のユーザーに、今後2週間以内に提供開始予定だ。
この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。
OpenAIは2023年9月25日(米国時間)、対話型生成AI(人工知能)の「ChatGPT」に音声機能と画像機能を導入すると発表した。ChatGPTと音声で会話したり、画像を見せながら話したりできるようになる。
OpenAIは有料プランの「ChatGPT Plus」と「ChatGPT Enterprise」のユーザーに、これらの機能を2週間以内に提供開始する。開発者など他のユーザーグループにも、その後すぐに提供するとしている。
新しい音声機能を使うには、モバイルアプリの設定画面から有効にする必要がある。ChatGPTの声は5種類用意されており、その中から好みのものを選ぶ。
新しい音声機能では、テキストと数秒間のサンプル音声から人間のような音声を生成できる新しい音声合成モデルに基づいている。5種類の声は、プロの声優との協力によって作成された。また新機能では、OpenAIのオープンソース音声認識システム「Whisper」を使って、ユーザーが話す言葉をテキストに変換できる。
新しい画像機能では、ChatGPTに1つ以上の画像を見せることができる。OpenAIは「グリルが作動しないトラブルを解決する」「冷蔵庫にあるものから献立を決める」「仕事関連のデータの複雑なグラフを分析する」といった利用例を挙げている。ChatGPTのモバイルアプリの描画ツールを使用して、画像の特定の部分に焦点を当てることもできる。
新しい画像機能を使うには、写真ボタンをタップして画像をキャプチャーするか、選択する。
ChatGPTによる画像認識は、OpenAIのマルチモーダル基盤モデルである「GPT-3.5」と「GPT-4」に基づいて行われる。これらのモデルは、自身の言語推論スキルを幅広い画像(写真、スクリーンショット、テキストと画像の両方を含むドキュメントなど)に適用する。
OpenAIは、安全で有益なAGI(Artificial General Intelligence:汎用《はんよう》人工知能)の構築を目標に掲げており、新しい音声機能と画像機能の展開においても、安全性を考慮した以下のような措置を講じている。
Copyright © ITmedia, Inc. All Rights Reserved.