「ChatGPT」が音声と画像に対応　音声を生成したり、「冷蔵庫内の写真」から献立を決めたりできる：「Plus」と「Enterprise」のユーザーは2週間以内に利用可能に

OpenAIは対話型生成AI「ChatGPT」に音声機能と画像機能を導入すると発表した。有料プランの「Plus」と「Enterprise」のユーザーに、今後2週間以内に提供開始予定だ。

» 2023年09月28日 08時00分公開

[＠IT]

この記事は会員限定です。会員登録（無料）すると全てご覧いただけます。

　OpenAIは2023年9月25日（米国時間）、対話型生成AI（人工知能）の「ChatGPT」に音声機能と画像機能を導入すると発表した。ChatGPTと音声で会話したり、画像を見せながら話したりできるようになる。

　OpenAIは有料プランの「ChatGPT Plus」と「ChatGPT Enterprise」のユーザーに、これらの機能を2週間以内に提供開始する。開発者など他のユーザーグループにも、その後すぐに提供するとしている。

ChatGPTと音声で会話できる

　新しい音声機能を使うには、モバイルアプリの設定画面から有効にする必要がある。ChatGPTの声は5種類用意されており、その中から好みのものを選ぶ。

　新しい音声機能では、テキストと数秒間のサンプル音声から人間のような音声を生成できる新しい音声合成モデルに基づいている。5種類の声は、プロの声優との協力によって作成された。また新機能では、OpenAIのオープンソース音声認識システム「Whisper」を使って、ユーザーが話す言葉をテキストに変換できる。

画像の内容も認識

　新しい画像機能では、ChatGPTに1つ以上の画像を見せることができる。OpenAIは「グリルが作動しないトラブルを解決する」「冷蔵庫にあるものから献立を決める」「仕事関連のデータの複雑なグラフを分析する」といった利用例を挙げている。ChatGPTのモバイルアプリの描画ツールを使用して、画像の特定の部分に焦点を当てることもできる。

　新しい画像機能を使うには、写真ボタンをタップして画像をキャプチャーするか、選択する。

　ChatGPTによる画像認識は、OpenAIのマルチモーダル基盤モデルである「GPT-3.5」と「GPT-4」に基づいて行われる。これらのモデルは、自身の言語推論スキルを幅広い画像（写真、スクリーンショット、テキストと画像の両方を含むドキュメントなど）に適用する。

安全性への配慮

　OpenAIは、安全で有益なAGI（Artificial General Intelligence：汎用《はんよう》人工知能）の構築を目標に掲げており、新しい音声機能と画像機能の展開においても、安全性を考慮した以下のような措置を講じている。

音声：新しい音声機能のベースにある高度な音声合成モデルは、わずか数秒の実際の音声からリアルな合成音声を作り出せるため、公人へのなりすましや、詐欺に悪用されるリスクもある。そこでOpenAIは、この技術を特定のユースケース（音声チャット）に限定して利用し、プロの声優の声を基にChatGPTの音声を作成した
画像：視覚ベースのモデルには、人物に関するハルシネーションから、モデルの画像解釈への依存まで、新たな課題がある。そのため、新機能の本格導入に先立って、レッドチーム演習を実施し、多様なテスターの協力を得てαテストを実施した
視覚：ChatGPTは常に正確であるとは限らないことと、こうしたシステムは個人のプライバシーを尊重する必要があることから、ChatGPTが人物を分析し、直接的に発言する機能を大幅に制限している
機能的な限界：OpenAIは、ChatGPTの限界について透明性確保に努め、適切な検証なしにリスクの高いユースケースに適用しないよう推奨している。英語のテキスト変換は得意だが、他の言語、特にローマ字以外を使う言語では、パフォーマンスが低いとして注意を促している

OpenAI、画像生成AIの最新版「DALL-E 3」を発表
OpenAIは、画像生成AIの最新版「DALL-E 3」を発表した。テキストに忠実な画像を生成する能力が飛躍的に向上している。
ハルシネーション（Hallucination）とは？
ハルシネーションとは、チャットAIなどが、もっともらしい誤情報（＝事実とは異なる内容や、文脈と無関係な内容）を生成することを指す。AIから返答を受け取った人間が「本当かどうか」の判断に困るという問題がある。この問題を回避する方法として、独自の情報源を付与するRAGや、Webアクセスを含める機能などがある。
ChatGPTのAPIを使ってみよう：コンソールで対話するコードとは？
2023年3月にリリースされたChatGPTのAPIの使い方、APIの振る舞い、対話をどのように管理するのか、コンソールでAPIを介して対話をするコードなどを紹介します。