「GPT-4o」の新たな画像生成機能は、OpenAIが開発してきた画像生成AI「DALL-E」と何が違うのか：日本語にも対応、SNSで話題に

OpenAIは「GPT-4o」の新しい画像生成機能を発表し、一般提供を開始した。チャット上で画像の仕様や表現した内容を指示すると、最大1分程度で詳細な画像が生成される。

» 2025年04月22日 08時00分公開

[＠IT]

印刷

この記事は会員限定です。会員登録（無料）すると全てご覧いただけます。

　OpenAIは2025年3月25日（米国時間、以下同）、「GPT-4o」に組み込まれた新たな画像生成機能を発表した。同日より、ChatGPTのデフォルト（既定）の画像生成機能として「Free」「Plus」「Pro」「Team」プランのユーザーに提供を開始している。

　ChatGPTでGPT-4oを選択し、チャット上で画像の作成やカスタマイズを指示できる。画像のアスペクト比、16進コードを使用した色の指定、背景の透過など、画像の仕様とともに画像で表現したい内容をチャットで指示すると、最大1分程度で詳細な画像が生成される。

　同機能を使って生成した画像は、4月16日に追加された「Image Library」から確認することもできる。

OpenAIが開発してきた画像生成AI「DALL-E」とは何が違うのか

　OpenAIはこれまで、「DALL-E」と呼ばれる画像生成AIモデルをユーザーに提供してきた。OpenAIが公開した「System Card」によると、DALL-Eが拡散モデル（diffusion model）に基づいていたのに対し、GPT-4oの新たな画像生成機能は自己回帰モデル（autoregressive model）に基づいている。そのため、新たな画像生成機能では、以下のような強みを持つという。

画像対画像変換への対応：GPT-4oは一つまたは複数の画像を入力として受け取り、関連する画像や変更を加えた画像を出力できる
写真のようにリアルな表現：GPT-4oの画像生成は高度な写実性を持つ
指示への追従（Instruction Following）：GPT-4oの画像生成は詳細なプロンプトの指示に従い、テキストや指示図をレンダリングできる
マルチターン生成：画像生成機能はGPT-4oでネイティブに実行されるため、自然な対話を通して画像を洗練させることができる。プロンプトの指示に応じて改良や実験を何度実行しても、一貫性を保つように設計されている

　「GPT-4oの画像生成は、テキストを正確にレンダリングし、プロンプトに正確に従い、4o固有のナレッジベースとチャット上のコンテキストを活用することに優れている。これらの機能により、ユーザーはイメージ通りの画像を簡単に作成でき、ビジュアルを通してより効果的なコミュニケーションを支援し、画像生成を正確でパワフルな実用的ツールへと進化させる」と、OpenAIは述べている。

GPT-4oによるテキストレンダリングのイメージ（提供：OpenAI）

3D描画用JavaScriptライブラリ「Three.js」を利用したJavaScriptコードでの画像生成にも対応（提供：OpenAI）

　OpenAIは、モデルスペックに沿って、価値あるユースケースへの利用をサポートする一方、同社が定めた安全基準に違反するプロンプトをブロックするなど、以下のような安全性の確保にも取り組んでいるという。

安全性への取り組み

C2PAによる来歴証明と検索

　生成された全ての画像には、GPT-4oにより生成された画像であることを示すC2PA（The Coalition for Content Provenance and Authenticity）メタデータが付与され、透明性を提供する。またコンテンツがGPT-4oモデルで生成されたものであるかどうかを確認するのに役立つ、内部検索ツールを構築している。

不適切なコンテンツのブロック

　児童ポルノの素材や性的なディープフェイクなど、コンテンツポリシーに違反する可能性のある生成画像のリクエストを引き続きブロックしている。実在の人物を撮影した画像については、ヌードや生々しい暴力表現など、特に強固なセーフガードを設けて、厳しく制限した。

リーズニングモデルで安全性を高める

　人間が記述し解釈可能な安全仕様に基づいたリーズニングモデルを構築し、同モデルを用いて、ポリシー内の曖昧さを特定し対処するのに役立てている。マルチモーダルの進歩や、ChatGPTおよびSora向けに開発された既存の安全技術と組み合わせることで、入力テキストと出力画像の両方を、OpenAIのポリシーに基づいてモデレートする。