動画内の人物の動作タイミングを後処理で変更可能に、Googleが「オムニマット」を開発：後処理だけで動画内のリタイミングが可能に

Googleは動画編集を容易にする新手法「オムニマット」を開発した。動画を自動で複数のレイヤーに分離する際、被写体に付随する影や反射といった「シーン」の処理が容易になる。動画を複数のオムニマットに分離すれば、各レイヤーの再生速度を独立して変更する後処理だけで、普通に撮影した動画のリタイミングが可能になる。

» 2021年09月06日 17時00分公開

[＠IT]

この記事は会員限定です。会員登録（無料）すると全てご覧いただけます。

　Googleは2021年8月31日（米国時間）、動画編集を容易にする手法「オムニマット」について発表した。2021年6月にバーチャルで開催された「CVPR 2021」において開発者がオムニマットについてプレゼンテーションを行っており、今回はその内容を一般に解説した形だ。

　これまでの動画分離モデルでは、シーン内の被写体について「マット」を生成することで前景と背景を分離し、合成被写界深度の生成や画像の編集、画像からの背景の除去などを処理している。なお、マットとは、画像や動画の編集において、前景と背景の分離を定義する画像を指す。

　しかし、これまでの手法には、被写体に関連する影などのシーンエフェクトをうまく処理できないという限界があった。オムニマットを用いると、被写体に関連するシーンエフェクトを被写体と同時に、分離して抽出できる。

　動画を複数のレイヤーからなるオムニマットに分離する際には、同社が開発したレイヤードナチュラルレンダリングを利用した。

「MaskRCNN」などの従来の手法は、入力動画（左）から人と犬のマスクを生成できる（中央）。だが、関連するエフェクトは省かれている。Googleの新アプローチは、被写体に加えて影も含むマットを生成できる（右）（出典：Google、クリックで再生）

　オムニマットが従来の分離マスクと異なるもう一つの点は、反射やしぶき、タイヤの煙など部分的に透明なソフトエフェクトを扱えることだ。

　オムニマットは従来のマットと同様にRGBにアルファチャネルを追加したRGBAカラーモデルに従った画像であるため、従来の画像動画編集ツールを使って操作できる。そのため、たなびく煙の下の背景にテキストを挿入するといった用途に利用しやすい。

入力動画とオムニマットを用いた出力動画の一例（出典：Google、クリックで再生）

動画のレイヤー分離にCNNを利用した

　オムニマットを生成するには、まず入力動画を一連のレイヤーに分離しなければならない。動いている各被写体のレイヤーと、静止した背景オブジェクトのレイヤーだ。正確なオムニマットを生成するには、各被写体のレイヤーが、その被写体のエフェクトだけを捉えるようにする必要がある。

入力動画を背景レイヤーと動く各被写体のレイヤーに分離したところ（出典：Google、クリックで再生）

　Googleはこの課題を解決するため、開発済みのレイヤードナチュラルレンダリングのアプローチを応用し、被写体の分離マスクと背景ノイズ画像をオムニマットとしてマッピングするように畳み込みニューラルネットワーク（CNN）をトレーニングした。

　CNNはその構造から、画像エフェクト間の相関を自然に学習する傾向があり、相関が強いほど、CNNにとって学習がしやすい。例えば、上に挙げた入力動画では、人と影、犬と影の空間的な関係はそれぞれ、人と犬が右から左に歩いていく過程で、同じように推移する。これに対し、人と犬の影、犬と人の影の空間的な関係は大きく変化し、相関が弱い。CNNは強い相関を優先して学習するため、正確な分離が可能になる。

オムニマットによる処理の流れ

　オムニマットの処理の流れは、下図のようになっている。

オムニマットシステム（出典：Google）

　まず、プリプロセスでユーザーが被写体を選択し、それぞれのレイヤーを指定する。次にMaskRCNNなど既存の分離ネットワークを使って各被写体の分離マスクを抽出する。さらに一般的なカメラ安定化ツールを使って、背景に関連するカメラ変換を特定する。

　その後、背景参照フレームでランダムノイズ画像を定義し、カメラ変換を用いてサンプリングし、フレームごとにノイズ画像を生成する。ノイズ画像はランダムだが、時間とともに一貫して背景を追跡する画像特徴量を提供する。これはCNNが学習し、背景色を再構築するための自然入力となる。

　レンダリングを処理するCNNは、分離マスクとフレームごとのノイズ画像を入力として取り、RGBカラー画像と各レイヤーの透明度を表すアルファマップを生成する。

　最後にこれらの出力を従来のアルファブレンディングを用いてマージし、出力フレームの生成に至る。

　処理の流れの中でCNNの果たす役割は大きい。マスクに含まれていない影や反射、煙などのエフェクトを発見し、与えられた前景レイヤーと関連付けることで、入力フレームを再構築し、被写体のアルファに分離マスクを大まかに含めるように、一からトレーニングされる。

　前景レイヤーが前景の要素のみを含み、静止した背景の要素を一切含まないように、前景アルファにはスパーシティロスも適用される。

　新しいレンダリングネットワークは、動画ごとにトレーニングされる。1つの入力動画を再構築するためにのみ必要であるため、下に示した例のように、各被写体のエフェクトを分離できるだけでなく、微細な構造や速い動きを捉えることもできる。

（左から）オリジナル、入力マスク、オムニマット（アルファ）、オムニマット（RGBA）、背景（出典：Google、クリックで再生）

　基本モデルは良好に動作している。さらにオプティカルフローやテクスチャの座標のような追加バッファを用いることでCNNの入力を拡張し、結果を改善できるという。

生成されたオムニマットにはどのような用途があるのか

　オムニマットを利用すれば例えば、テニスやサッカーの動画のように、特定のオブジェクトのレイヤー削除することで、動画からオブジェクトを削除できる。

　下の例のように、レイヤーを反復することで、オブジェクトを複製することもできる。この例では地面や障害物に映る馬の影も正確に捉えている。

ストロボ風に編集された結果（出典：Google、クリックで再生）

　より精密で強力なアプリケーションもある。被写体のリタイミングだ。動画を複数のオムニマットに分離すれば、各レイヤーの再生速度を独立して変更する後処理だけで、普通に撮影した動画のリタイミングが可能になる。オムニマットは一般的なRGBA画像であるため、このリタイミング編集には、従来の動画編集ソフトウェアを利用できる。

　次の2つの動画は、元の動画を3人の子どもごとに3つのレイヤーに分離し、編集した結果を示している。

元の動画（左）では、子どもは別々のタイミングで飛び込んでいる。編集後の動画（右）では、全員が一斉に飛び込んでいる。（出典：Google、クリックで再生）

Googleは今後、何に取り組むのか

　Googleは実務レベルと理論レベルのそれぞれで、オムニマットの品質を高める方法を挙げた。実務レベルの課題はこうだ。オムニマットシステムは現在、位置が固定されたカメラで撮影されて、パノラマとしてモデリングできる背景しかサポートしていない。部屋の中や街を移動しながら撮影した動画などに対応するには、3D背景モデルが必要になるという。

　理論レベルにも課題がある。「CNNが画像の相関を学習する機能は強力だが、まだ不明な部分があり、期待されたレイヤー分離が得られるとは限らない」と研究者は述べている。この機能の能力と限界を十分に理解できれば、レイヤー分離に加え、ノイズ除去や修復など、さまざまな動画編集機能を改善できる可能性があるという。

　なお、Googleはオムニマットアプローチを、同社の「AIの原則」に基づいて開発した。こうした新しい動画操作手法は、偽情報や誤解を招く情報の作成に使われる恐れがあるため、責任を持って開発、利用する必要があると、注意を促している。