検索
ニュース

Meta、テキストからの動画生成モデル「Emu Video」とマルチタスク画像編集モデル「Emu Edit」を発表画像生成基盤モデル「Emu」がベース

Metaは、最近発表した画像生成のための基盤モデル「Emu」に基づく2つの研究成果を発表した。拡散モデルに基づいてテキストから動画を生成するモデル「Emu Video」と、マルチタスク画像編集モデル「Emu Edit」だ。

Share
Tweet
LINE
Hatena

 Metaは2023年11月16日(米国時間)、9月開催の「Meta Connectカンファレンス」で発表した画像生成のための基盤モデル「Emu」(Expressive Media Universe)に基づく2つの研究成果を発表した。拡散モデルに基づいてテキストから動画を生成するモデル「Emu Video」と、マルチタスク画像編集モデル「Emu Edit」だ。

Emu Video:2ステップでテキストから動画を生成

 Emu Videoは、まずテキストプロンプトから画像を生成し、次にテキストと生成された画像から動画を生成する。この2段階アプローチにより、高品質の動画生成モデルを効率的にトレーニングできる。毎秒16フレームで512×512ピクセルの4秒間の動画を生成することが可能だ。

Copyright © ITmedia, Inc. All Rights Reserved.

ページトップに戻る