ニュース
Microsoft、1枚の写真と音声から本当に話しているかのような動画を生成するAIモデル「VASA-1」を発表:AI倫理の観点から当面は製品化せず
Microsoftは、1枚の顔の静止画像と音声クリップから、その顔の人物が本当に話しているかのような動画を生成できるAIモデル「VASA-1」を発表した。
Microsoft Research Asiaは2024年4月16日(米国時間)、1枚の顔の静止画像と音声クリップから、その顔の人物が本当に話しているかのような動画を生成できるAI(人工知能)モデル「VASA-1」を発表した。
VASA-1は、音声と唇の動きの正確な同期だけでなく、表情のニュアンスや自然な頭の動きなどさまざまな要素を通じて、全体としてリアルで生き生きとしながら話している顔の動画を生成できる。
Microsoft Research Asiaは、VASA-1について「人間の会話行動をエミュレートした人間そっくりのアバターとのリアルタイムのエンゲージメントに道を開く」と述べ、VASA-1のプロジェクトWebページで、さまざまな動画生成例を示しながら紹介している。これらの動画はいずれも、「StyleGAN2」または「DALL-E-3」によって生成された、存在しない人物の顔画像に基づいている。
VASA-1の特徴
任意の長さの音声クリップから動画を生成
VASA-1は、任意の長さの音声クリップから、シームレスな動画を安定して出力できる。
Copyright © ITmedia, Inc. All Rights Reserved.