写真やイラストのキャラクターを自然な3D動画に合成できる「MIMO」はどこがすごいのか？：Alibabaの研究所が発表した、制御可能なキャラクタービデオ合成モデル

Alibaba Groupのインテリジェントコンピューティング研究所は、キャラクタービデオ合成モデル「MIMO」を発表した。本物のようなシーンの中で、キャラクターのアニメーションが可能になる。

[＠IT] PC用表示関連情報

LINE

Hatena

　Alibaba Groupのインテリジェントコンピューティング研究所は2024年9月25日（中国時間）、キャラクタービデオ合成モデル「MIMO」（Mimic anyone anywhere in complex Motions with Object interactions）を発表した。キャラクタービデオ合成とは、実写映像にアニメーションキャラクターや3DCG（コンピューターグラフィックス）キャラクターを組み合わせる映像制作技術。MIMOを使うと、キャラクタービデオの柔軟性や制御性を大幅に向上できるという。

（提供：Alibaba Group）

MIMOのどこがすごいのか？

　基本的な課題として、3D作品は通常、ケースごとの学習のためにマルチビューキャプチャーを必要としている。このため、任意のキャラクターのモデリングを短時間で行うことができない。近年の2D手法は、事前に訓練された拡散モデルによってこの制限をクリアしているが、ポーズの一般性やシーンとの相互作用に苦戦している。

　このため、当社はMIMOという新しい一般化可能なモデルを開発した。

　MIMOは、シンプルなユーザー入力によって属性（キャラクター、モーション、シーン）を制御可能なキャラクター動画を合成できる。それだけでなく、任意のキャラクターへの高度なスケーラビリティ、新しい3Dモーションへの一般性、そしてインタラクティブな実世界シーンへの適用性を、統一的なフレームワークに基づいて同時に達成できる。

核となるアイデア

　2Dビデオが本来持つ3D的性質を考慮し、コンパクトな空間コードに符号化することが、開発におけるアイデアのコアとなっている。具体的には、単眼深度推定器を用いて2Dフレームピクセルを3D化し、3D深度に基づいてビデオクリップを階層的に3つの空間構成要素（メインの人物、基礎シーン、浮遊オクルージョン）に分解する。

　これらのコンポーネントは標準的なアイデンティティーコード、構造化されたモーションコード、完全なシーンコードにエンコードされ、合成プロセスの制御信号に利用される。この空間分解戦略により、柔軟なユーザー制御、空間的な動き表現およびシーンインタラクションのための3Dを考慮した合成が可能になる。実験結果は、提案手法の有効性と説得力を実証している。

（提供：Alibaba Group）

　ユーザーは、複数の入力（例えば、キャラクター用の単一画像、モーション用のポーズシーケンス、シーン用の単一ビデオ／画像）をそれぞれ入力するか、動作を制御する動画を直接入力して、目的の属性を提供できる。MIMOは、ターゲット属性を潜在空間に埋め込んでターゲット符号を構成し、走行映像を空間認識分解して空間符号として符号化することで、潜在符号を特定の順序で自由に統合し、合成による直感的な属性制御を可能にする。

フレームワークの概要

（提供：Alibaba Group）

　ビデオクリップには、3D深度に基づく階層的なレイヤーがあり、3つの空間コンポーネント（メインの人物、基礎シーン、浮遊オクルージョン）に分解される。人物コンポーネントは、標準化な外見転送と構造化されたボディーコードを介して、アイデンティティーとモーションの特性について分離され、アイデンティティーコード「Cid」とモーションコード「Cmo」に符号化される。シーン成分とオクルージョン成分は共有VAEエンコーダーで埋め込まれ、フルシーンコード「Cso」として再組織化される。これらの潜在符号は映像再構成の条件として拡散ベースのデコーダーに挿入される。

MIMOが出力できるもの

任意のキャラクター制御

　1枚の画像から人間、漫画、擬人化されたものをアニメーション化できる。

（提供：Alibaba Group）

新しい3Dモーションコントロール

　実世界の動画から複雑な動きを再現できる。

データベースからの空間3Dモーション

（提供：Alibaba Group）

インタラクティブなシーン制御

　遮蔽（しゃへい）のある物体相互作用を伴う複雑な実世界を表現したシーンを作成できる。

（提供：Alibaba Group）

写真やイラストのキャラクターを自然な3D動画に合成できる「MIMO」はどこがすごいのか？：Alibabaの研究所が発表した、制御可能なキャラクタービデオ合成モデル

MIMOのどこがすごいのか？

核となるアイデア

フレームワークの概要

MIMOが出力できるもの

任意のキャラクター制御

新しい3Dモーションコントロール

インタラクティブなシーン制御

関連記事

関連リンク

Smart & Social 記事ランキング