スタンフォード大学などの研究者のチームが、話者の動画を容易に編集する手法を編み出した。人物の肩から上の映像を使うだけで、口にしていない単語を埋め込み、修正できる。修正方法は文字起こししたテキストを編集するだけという手軽さだ。
この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。
スタンフォード大学とマックスプランクインフォマティクス研究所、プリンストン大学、Adobe Researchの研究者のチームは、人物が話している肩から上の映像を手軽に編集できるアルゴリズムを開発した。
話者の音声を文字起こししたテキストを用意し、これを編集するだけで、対応する動画が自動的に変化する。
このアルゴリズムを使ったアプリケーションにはさまざまな使い道がある。例えば映像の中に話者の言い間違いなど、変更したい部分があった場合、文字起こしテキストを編集すれば、アプリケーションが機械学習を基に、映像内の他の場面(と、そこで話された音声)の一部や断片を組み合わせて、唇の動きと音声が同期する形で、テキストを編集した通りに映像を編集する。
映像が自然に見えるように、アルゴリズムはインテリジェントスムージングをモーションパラメーターに適用し、目指す結果の3Dアニメーションバージョンをレンダリングする。だが、レンダリング後の顔はリアルさに欠けている。そこで最終ステップとして、ニューラルレンダリングという機械学習技術を用いて、忠実度の低いデジタルモデルを、写真のようにリアルな映像に変換する。完成した動画では唇の動きと音声の同期が取れている。
機械学習の入力情報として使うため、こうした映像編集を実現するには、40分間以上の長さの映像が必要だ。
Copyright © ITmedia, Inc. All Rights Reserved.