Metaは、最近発表した画像生成のための基盤モデル「Emu」に基づく2つの研究成果を発表した。拡散モデルに基づいてテキストから動画を生成するモデル「Emu Video」と、マルチタスク画像編集モデル「Emu Edit」だ。
この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。
Metaは2023年11月16日(米国時間)、9月開催の「Meta Connectカンファレンス」で発表した画像生成のための基盤モデル「Emu」(Expressive Media Universe)に基づく2つの研究成果を発表した。拡散モデルに基づいてテキストから動画を生成するモデル「Emu Video」と、マルチタスク画像編集モデル「Emu Edit」だ。
Emu Videoは、まずテキストプロンプトから画像を生成し、次にテキストと生成された画像から動画を生成する。この2段階アプローチにより、高品質の動画生成モデルを効率的にトレーニングできる。毎秒16フレームで512×512ピクセルの4秒間の動画を生成することが可能だ。
Copyright © ITmedia, Inc. All Rights Reserved.