Microsoft、1枚の写真と音声から本当に話しているかのような動画を生成するAIモデル「VASA-1」を発表AI倫理の観点から当面は製品化せず

Microsoftは、1枚の顔の静止画像と音声クリップから、その顔の人物が本当に話しているかのような動画を生成できるAIモデル「VASA-1」を発表した。

» 2024年04月25日 08時00分 公開
[@IT]

この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。

 Microsoft Research Asiaは2024年4月16日(米国時間)、1枚の顔の静止画像と音声クリップから、その顔の人物が本当に話しているかのような動画を生成できるAI(人工知能)モデル「VASA-1」を発表した。

 VASA-1は、音声と唇の動きの正確な同期だけでなく、表情のニュアンスや自然な頭の動きなどさまざまな要素を通じて、全体としてリアルで生き生きとしながら話している顔の動画を生成できる。

VASA-1(提供:Microsoft Research Asia) VASA-1(提供:Microsoft Research Asia)

 Microsoft Research Asiaは、VASA-1について「人間の会話行動をエミュレートした人間そっくりのアバターとのリアルタイムのエンゲージメントに道を開く」と述べ、VASA-1のプロジェクトWebページで、さまざまな動画生成例を示しながら紹介している。これらの動画はいずれも、「StyleGAN2」または「DALL-E-3」によって生成された、存在しない人物の顔画像に基づいている。

VASA-1の特徴

任意の長さの音声クリップから動画を生成

 VASA-1は、任意の長さの音声クリップから、シームレスな動画を安定して出力できる。

Copyright © ITmedia, Inc. All Rights Reserved.

RSSについて

アイティメディアIDについて

メールマガジン登録

@ITのメールマガジンは、 もちろん、すべて無料です。ぜひメールマガジンをご購読ください。