ワシントン大学の研究チームが、1枚の滝の写真から、滝が流れ落ちる様子の動画を作成できるディープラーニング手法を開発した。数千の流体の動画でニューラルネットワークをトレーニングし、流れの動きを予測できるようにした。
この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。
ワシントン大学は2021年6月14日(米国時間、以下同)、1枚の滝の写真から、滝が流れ落ちる様子の動画を作成できるディープラーニング手法を開発したことを発表した。
この手法を使うと滝や煙、雲など、任意の流体をアニメーション化できる。作成した短い動画はシームレスにループし、流体がずっと動き続けているような印象を与える。ワシントン大学とFacebookに所属する研究者は2021年6月22日、「Conference on Computer Vision and Pattern Recognition」(CVPR 2021)で、このアプローチについてのプレゼンテーションを行った。
「写真はある瞬間を捉えるが、静止画では多くの情報が失われる。例えば、何がその瞬間をもたらしたか、物がどのように変わりつつあるかといった情報だ」(アレクサンダー・ホリンスキ氏)。ホリンスキ氏はこのディープラーニング手法に関する研究論文の主著者で、ワシントン大学ポール G. アレン スクールオブコンピュータサイエンス&エンジニアリングの博士課程の学生だ。
さらに同氏はこう説明する。「われわれの手法は、ユーザーの入力や追加の情報を必要としないという点が特徴だ。写真さえあれば、シームレスにループする高精細の動画を出力できる。多くの場合、本物の動画のように見えるものだ」
1枚の写真から本物のような動画を作成する手法の開発は、この分野の研究では困難だとされていた。「実質的に未来を予測する必要があるからだ。だが、実世界では、この手法には無限に近い可能性がある」(ホリンスキ氏)
開発した手法はまず、写真が撮られたときに物がどのように動こうとしていたのかを予測し、情報を使ってアニメーションを作成する。
チームは動きを予測させるために、滝や川、海、流体などの数千本の動画でニューラルネットワークをトレーニングした。トレーニングプロセスでは、最初のフレームだけが与えられた時点でニューラルネットワークに動画の動きを予測させた。ニューラルネットワークは、その予測と実際の動画を比較して、流れのさざ波など、動きを予測するための手掛かりを特定していった。さらに、その情報を使って、個々のピクセルが移動するかどうか、どのように移動するのかを判断する。
研究チームは写真をアニメーション化するために、「スプラッティング」という手法を使おうとした。この手法は、予測された動きに従って各ピクセルを動かすというものだが、問題もあった。
「滝の流れを例に取ると、流れに沿ってピクセルを下に動かすと、動画の数フレーム後には、上部のピクセルがなくなってしまう」と、ホリンスキ氏は説明する。
そこで研究チームは、「シンメトリックスプラッティング」という手法を編み出した。この手法は基本的に、画像から未来と過去の動きを推測し、それらを組み合わせて1つのアニメーションを作成するというものだ。
「滝の例では、過去の動きを予測して、ピクセルを滝の上方に移動する。すると下部に穴が見え始める。未来と過去の両方のアニメーション情報を統合し、作成する動画に大きな穴が発生しないようにしている」(ホリンスキ氏)
もう1つの工夫はシームレス化だ。研究チームは、アニメーションがシームレスにループし、動き続けているように見せようとした。アニメーションを生成するネットワークは、フレームの異なる部分を異なるタイミングで遷移させたり、各ピクセルを周囲の環境に応じて、速く、または遅く組み合わせたりといったテクニックを用いて、スムーズな動きを実現している。
今回の手法は、予測可能な動きを示す流体に対して最も有効に機能する。現在、水に映る影の動きや、水中の物体の外観を水がどのようにゆがめるかといった困難な予測に取り組んでおり、こうした予測の改善を通して、より洗練された手法になるよう研究を進めている。
「滝を見れば、水がどのように振る舞うべきかが分かる。炎や煙も同じだ。これらの動きは同じ物理法則に従っており、通常、画像の中にどのように動くべきかを示す手掛かりがある。今後は、風になびく人の髪の毛をアニメーション化するなど、より幅広い対象物に対応できるようにしていきたい。われわれが友人や家族と共有する写真も、いずれは静止画ではなく、今回の手法で作られたようなダイナミックなものになっていのではないだろうか」(ホリンスキ氏)
Copyright © ITmedia, Inc. All Rights Reserved.