「GPT-4o」の新たな画像生成機能は、OpenAIが開発してきた画像生成AI「DALL-E」と何が違うのか:日本語にも対応、SNSで話題に
OpenAIは「GPT-4o」の新しい画像生成機能を発表し、一般提供を開始した。チャット上で画像の仕様や表現した内容を指示すると、最大1分程度で詳細な画像が生成される。
OpenAIは2025年3月25日(米国時間、以下同)、「GPT-4o」に組み込まれた新たな画像生成機能を発表した。同日より、ChatGPTのデフォルト(既定)の画像生成機能として「Free」「Plus」「Pro」「Team」プランのユーザーに提供を開始している。
ChatGPTでGPT-4oを選択し、チャット上で画像の作成やカスタマイズを指示できる。画像のアスペクト比、16進コードを使用した色の指定、背景の透過など、画像の仕様とともに画像で表現したい内容をチャットで指示すると、最大1分程度で詳細な画像が生成される。
同機能を使って生成した画像は、4月16日に追加された「Image Library」から確認することもできる。
OpenAIが開発してきた画像生成AI「DALL-E」とは何が違うのか
OpenAIはこれまで、「DALL-E」と呼ばれる画像生成AIモデルをユーザーに提供してきた。OpenAIが公開した「System Card」によると、DALL-Eが拡散モデル(diffusion model)に基づいていたのに対し、GPT-4oの新たな画像生成機能は自己回帰モデル(autoregressive model)に基づいている。そのため、新たな画像生成機能では、以下のような強みを持つという。
- 画像対画像変換への対応:GPT-4oは一つまたは複数の画像を入力として受け取り、関連する画像や変更を加えた画像を出力できる
- 写真のようにリアルな表現:GPT-4oの画像生成は高度な写実性を持つ
- 指示への追従(Instruction Following):GPT-4oの画像生成は詳細なプロンプトの指示に従い、テキストや指示図をレンダリングできる
- マルチターン生成:画像生成機能はGPT-4oでネイティブに実行されるため、自然な対話を通して画像を洗練させることができる。プロンプトの指示に応じて改良や実験を何度実行しても、一貫性を保つように設計されている
「GPT-4oの画像生成は、テキストを正確にレンダリングし、プロンプトに正確に従い、4o固有のナレッジベースとチャット上のコンテキストを活用することに優れている。これらの機能により、ユーザーはイメージ通りの画像を簡単に作成でき、ビジュアルを通してより効果的なコミュニケーションを支援し、画像生成を正確でパワフルな実用的ツールへと進化させる」と、OpenAIは述べている。
OpenAIは、モデルスペックに沿って、価値あるユースケースへの利用をサポートする一方、同社が定めた安全基準に違反するプロンプトをブロックするなど、以下のような安全性の確保にも取り組んでいるという。
安全性への取り組み
C2PAによる来歴証明と検索
生成された全ての画像には、GPT-4oにより生成された画像であることを示すC2PA(The Coalition for Content Provenance and Authenticity)メタデータが付与され、透明性を提供する。またコンテンツがGPT-4oモデルで生成されたものであるかどうかを確認するのに役立つ、内部検索ツールを構築している。
不適切なコンテンツのブロック
児童ポルノの素材や性的なディープフェイクなど、コンテンツポリシーに違反する可能性のある生成画像のリクエストを引き続きブロックしている。実在の人物を撮影した画像については、ヌードや生々しい暴力表現など、特に強固なセーフガードを設けて、厳しく制限した。
リーズニングモデルで安全性を高める
人間が記述し解釈可能な安全仕様に基づいたリーズニングモデルを構築し、同モデルを用いて、ポリシー内の曖昧さを特定し対処するのに役立てている。マルチモーダルの進歩や、ChatGPTおよびSora向けに開発された既存の安全技術と組み合わせることで、入力テキストと出力画像の両方を、OpenAIのポリシーに基づいてモデレートする。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
全ユーザーが使える「ChatGPT」デスクトップアプリ公開 リアルタイムの会話や画像生成が可能に
OpenAIは、WindowsとmacOS向けの「ChatGPT」デスクトップアプリを有料無料問わず全てのユーザーに向けて公開した。ChatGPTでファイルをアップロードしたり、新しい画像を生成したり、新しい会話を開始したりできるコンパニオンチャット機能などを利用できる。テキストや画像から商用可の動画を生成できるモデル「Veo」をGoogle Cloudが公開、どんな動画が作れる?
Google Cloudは、動画生成モデル「Google Veo」と高品質な画像生成モデル「Imagen 3」について、Google Cloudのフルマネージド統合AI開発プラットフォーム「Vertex AI」上での提供開始を発表した。Stability AI、「Stable Diffusion 3」の先行プレビュー版を発表
Stability AIは、同社の画像生成モデル「Stable Diffusion」の最新版となる「Stable Diffusion 3」を発表した。