1枚の写真から動画を作成するディープラーニング手法を開発、ワシントン大：滝、煙、雲など、任意の流体をアニメーション化可能

ワシントン大学の研究チームが、1枚の滝の写真から、滝が流れ落ちる様子の動画を作成できるディープラーニング手法を開発した。数千の流体の動画でニューラルネットワークをトレーニングし、流れの動きを予測できるようにした。

» 2021年06月30日 16時30分公開

[＠IT]

この記事は会員限定です。会員登録（無料）すると全てご覧いただけます。

　ワシントン大学は2021年6月14日（米国時間、以下同）、1枚の滝の写真から、滝が流れ落ちる様子の動画を作成できるディープラーニング手法を開発したことを発表した。

　この手法を使うと滝や煙、雲など、任意の流体をアニメーション化できる。作成した短い動画はシームレスにループし、流体がずっと動き続けているような印象を与える。ワシントン大学とFacebookに所属する研究者は2021年6月22日、「Conference on Computer Vision and Pattern Recognition」（CVPR 2021）で、このアプローチについてのプレゼンテーションを行った。

開発した手法でワシントン州のスノコルミー滝を動画化した　滝の高さは81メートルある（出典：Sarah McQuate、ワシントン大学、クリックで再生）

　「写真はある瞬間を捉えるが、静止画では多くの情報が失われる。例えば、何がその瞬間をもたらしたか、物がどのように変わりつつあるかといった情報だ」（アレクサンダー・ホリンスキ氏）。ホリンスキ氏はこのディープラーニング手法に関する研究論文の主著者で、ワシントン大学ポール G. アレンスクールオブコンピュータサイエンス＆エンジニアリングの博士課程の学生だ。

　さらに同氏はこう説明する。「われわれの手法は、ユーザーの入力や追加の情報を必要としないという点が特徴だ。写真さえあれば、シームレスにループする高精細の動画を出力できる。多くの場合、本物の動画のように見えるものだ」

　1枚の写真から本物のような動画を作成する手法の開発は、この分野の研究では困難だとされていた。「実質的に未来を予測する必要があるからだ。だが、実世界では、この手法には無限に近い可能性がある」（ホリンスキ氏）

どのように動画を作成するのか

　開発した手法はまず、写真が撮られたときに物がどのように動こうとしていたのかを予測し、情報を使ってアニメーションを作成する。

　チームは動きを予測させるために、滝や川、海、流体などの数千本の動画でニューラルネットワークをトレーニングした。トレーニングプロセスでは、最初のフレームだけが与えられた時点でニューラルネットワークに動画の動きを予測させた。ニューラルネットワークは、その予測と実際の動画を比較して、流れのさざ波など、動きを予測するための手掛かりを特定していった。さらに、その情報を使って、個々のピクセルが移動するかどうか、どのように移動するのかを判断する。

開発した手法でワシントン州のパルース滝を動画化した　滝を落ちた後の川の流れも動画化できている（出典：Sarah McQuate、ワシントン大学、クリックで再生）

ピクセルの移動処理だけでは不十分

　研究チームは写真をアニメーション化するために、「スプラッティング」という手法を使おうとした。この手法は、予測された動きに従って各ピクセルを動かすというものだが、問題もあった。

　「滝の流れを例に取ると、流れに沿ってピクセルを下に動かすと、動画の数フレーム後には、上部のピクセルがなくなってしまう」と、ホリンスキ氏は説明する。

　そこで研究チームは、「シンメトリックスプラッティング」という手法を編み出した。この手法は基本的に、画像から未来と過去の動きを推測し、それらを組み合わせて1つのアニメーションを作成するというものだ。

　「滝の例では、過去の動きを予測して、ピクセルを滝の上方に移動する。すると下部に穴が見え始める。未来と過去の両方のアニメーション情報を統合し、作成する動画に大きな穴が発生しないようにしている」（ホリンスキ氏）

過去と未来の動きを予想した後、シンメトリックスプラッティング法で統合することにより動画に穴が生じないようにした（出典：Holynski他、CVPR 2021、クリックで再生）

　もう1つの工夫はシームレス化だ。研究チームは、アニメーションがシームレスにループし、動き続けているように見せようとした。アニメーションを生成するネットワークは、フレームの異なる部分を異なるタイミングで遷移させたり、各ピクセルを周囲の環境に応じて、速く、または遅く組み合わせたりといったテクニックを用いて、スムーズな動きを実現している。

　今回の手法は、予測可能な動きを示す流体に対して最も有効に機能する。現在、水に映る影の動きや、水中の物体の外観を水がどのようにゆがめるかといった困難な予測に取り組んでおり、こうした予測の改善を通して、より洗練された手法になるよう研究を進めている。

　「滝を見れば、水がどのように振る舞うべきかが分かる。炎や煙も同じだ。これらの動きは同じ物理法則に従っており、通常、画像の中にどのように動くべきかを示す手掛かりがある。今後は、風になびく人の髪の毛をアニメーション化するなど、より幅広い対象物に対応できるようにしていきたい。われわれが友人や家族と共有する写真も、いずれは静止画ではなく、今回の手法で作られたようなダイナミックなものになっていのではないだろうか」（ホリンスキ氏）

複数のスマホで撮影したビデオから「4D映像」を生成、カーネギーメロン大
カーネギーメロン大学の研究チームが、スタジオや特殊なカメラを使わなくても、「4D映像」を生成できる手法を開発した。複数の「iPhone」で撮影したビデオ映像を組み合わせ、さまざまな角度から動きを見たり、視線を一時的に遮る人や物体を消去したりできる。
ディープラーニングで生成された「ディープフェイク画像」を周波数領域で見破る　ルール大学
ルール大学の研究チームが、ディープラーニング技術を用いて生成されたフェイク画像を識別する方法を開発した。
MIT研究チーム、コピー＆ペーストでGANモデルを編集できるツールを開発
マサチューセッツ工科大学（MIT）の研究チームが、Generative Adversarial Network（GAN：敵対的生成ネットワーク）モデルの条件を操作できるツールを開発した。