Microsoft、1枚の写真と音声から本当に話しているかのような動画を生成するAIモデル「VASA-1」を発表：AI倫理の観点から当面は製品化せず

Microsoftは、1枚の顔の静止画像と音声クリップから、その顔の人物が本当に話しているかのような動画を生成できるAIモデル「VASA-1」を発表した。

[＠IT] PC用表示関連情報

LINE

Hatena

　Microsoft Research Asiaは2024年4月16日（米国時間）、1枚の顔の静止画像と音声クリップから、その顔の人物が本当に話しているかのような動画を生成できるAI（人工知能）モデル「VASA-1」を発表した。

　VASA-1は、音声と唇の動きの正確な同期だけでなく、表情のニュアンスや自然な頭の動きなどさまざまな要素を通じて、全体としてリアルで生き生きとしながら話している顔の動画を生成できる。

VASA-1（提供：Microsoft Research Asia）

　Microsoft Research Asiaは、VASA-1について「人間の会話行動をエミュレートした人間そっくりのアバターとのリアルタイムのエンゲージメントに道を開く」と述べ、VASA-1のプロジェクトWebページで、さまざまな動画生成例を示しながら紹介している。これらの動画はいずれも、「StyleGAN2」または「DALL-E-3」によって生成された、存在しない人物の顔画像に基づいている。

VASA-1の特徴

任意の長さの音声クリップから動画を生成

　VASA-1は、任意の長さの音声クリップから、シームレスな動画を安定して出力できる。

生成の制御

　VASA-1は、さまざまな視線の向き、頭部の遠近感、感情の表れといった任意の制御信号を動画の生成条件として受け付ける。

視線の向きを変更（上）頭部の遠近感を変更（中）感情を変更（下）（提供：Microsoft Research Asia）

分布外汎化（はんか）

　VASA-1は、学習分布にない写真や音声の入力も扱える。VASA-1のトレーニングセットには、アートなどの写真、歌声、英語以外の音声は含まれていなかったが、VASA-1はこれらの入力から動画を生成できる。

分離

　VASA-1は、外見、頭のポーズ、顔の動きなどを分離することで、生成するコンテンツの属性ごとの制御と編集が可能になっている。

異なる写真で同じモーションシーケンス（提供：Microsoft Research Asia）《クリックで動画を再生》

ポーズと表情の編集（生の生成結果、ポーズのみ、表情のみ、表情と回転ポーズ）（提供：Microsoft Research Asia）《クリックで動画を再生》

リアルタイム効率

　VASA-1は、オフラインのバッチ処理モードでは、512×512ピクセルで45fps（frames per second）のビデオフレームを生成し、オンラインストリーミングモードでは、わずか170ミリ秒のレイテンシで最大40fpsをサポートする。これは、NVIDIA RTX 4090 GPU 1個を搭載したデスクトップPCでの数字だ。

リアルタイムデモ（提供：Microsoft Research Asia）《クリックで動画を再生》

責任あるAIへの配慮

　Microsoft Research Asiaは「VASA-1の研究は、仮想AIアバターの生成に焦点を当てているが、他のコンテンツ生成技術と同様に、現時点では悪用される可能性がある」との認識を示す。その上で、このAIモデルの建設的な可能性の実現に向けて、責任を持って研究に取り組むと述べている。

　Microsoftは、VASA-1が責任を持って適切な規制に従って使用されることを確信するまで、このAIモデルのオンラインデモ、API、製品、実装のさらなる詳細情報、関連製品やサービスはリリースしない方針だ。