OpenAIは「GPT-4o」の新しい画像生成機能を発表し、一般提供を開始した。チャット上で画像の仕様や表現した内容を指示すると、最大1分程度で詳細な画像が生成される。
この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。
OpenAIは2025年3月25日(米国時間、以下同)、「GPT-4o」に組み込まれた新たな画像生成機能を発表した。同日より、ChatGPTのデフォルト(既定)の画像生成機能として「Free」「Plus」「Pro」「Team」プランのユーザーに提供を開始している。
ChatGPTでGPT-4oを選択し、チャット上で画像の作成やカスタマイズを指示できる。画像のアスペクト比、16進コードを使用した色の指定、背景の透過など、画像の仕様とともに画像で表現したい内容をチャットで指示すると、最大1分程度で詳細な画像が生成される。
同機能を使って生成した画像は、4月16日に追加された「Image Library」から確認することもできる。
OpenAIはこれまで、「DALL-E」と呼ばれる画像生成AIモデルをユーザーに提供してきた。OpenAIが公開した「System Card」によると、DALL-Eが拡散モデル(diffusion model)に基づいていたのに対し、GPT-4oの新たな画像生成機能は自己回帰モデル(autoregressive model)に基づいている。そのため、新たな画像生成機能では、以下のような強みを持つという。
「GPT-4oの画像生成は、テキストを正確にレンダリングし、プロンプトに正確に従い、4o固有のナレッジベースとチャット上のコンテキストを活用することに優れている。これらの機能により、ユーザーはイメージ通りの画像を簡単に作成でき、ビジュアルを通してより効果的なコミュニケーションを支援し、画像生成を正確でパワフルな実用的ツールへと進化させる」と、OpenAIは述べている。
OpenAIは、モデルスペックに沿って、価値あるユースケースへの利用をサポートする一方、同社が定めた安全基準に違反するプロンプトをブロックするなど、以下のような安全性の確保にも取り組んでいるという。
生成された全ての画像には、GPT-4oにより生成された画像であることを示すC2PA(The Coalition for Content Provenance and Authenticity)メタデータが付与され、透明性を提供する。またコンテンツがGPT-4oモデルで生成されたものであるかどうかを確認するのに役立つ、内部検索ツールを構築している。
児童ポルノの素材や性的なディープフェイクなど、コンテンツポリシーに違反する可能性のある生成画像のリクエストを引き続きブロックしている。実在の人物を撮影した画像については、ヌードや生々しい暴力表現など、特に強固なセーフガードを設けて、厳しく制限した。
人間が記述し解釈可能な安全仕様に基づいたリーズニングモデルを構築し、同モデルを用いて、ポリシー内の曖昧さを特定し対処するのに役立てている。マルチモーダルの進歩や、ChatGPTおよびSora向けに開発された既存の安全技術と組み合わせることで、入力テキストと出力画像の両方を、OpenAIのポリシーに基づいてモデレートする。
Copyright © ITmedia, Inc. All Rights Reserved.
Smart & Social 記事ランキング