複数のスマホで撮影したビデオから「4D映像」を生成、カーネギーメロン大：スタジオや特殊なカメラは不要

カーネギーメロン大学の研究チームが、スタジオや特殊なカメラを使わなくても、「4D映像」を生成できる手法を開発した。複数の「iPhone」で撮影したビデオ映像を組み合わせ、さまざまな角度から動きを見たり、視線を一時的に遮る人や物体を消去したりできる。

[＠IT] PC用表示関連情報

LINE

Hatena

　カーネギーメロン大学（CMU）の研究チームが、特殊な設備を使わなくても「4D映像」を生成できる手法を開発した。複数の「iPhone」で撮影したビデオ映像を組み合わせ、視聴者がさまざまな角度から動きを見たり、視線を一時的に遮る人や物体を消去したりできる

複数のカメラで撮影されたビデオ映像を組み合わせ、「4Dビジュアライゼーション」を実現する。撮影されたシーンをさまざまな角度から見たり、映っている人を消したりできる（出典：カーネギーメロン大学）

　このような研究の背景には、iPhoneのようなスマホが広く普及し、ビデオ撮影がごく気軽にできる環境が当たり前になったことがある。結婚式や誕生パーティーでよくあるように、さまざまな視点から独立した映像を簡単に手に入れられると、CMUロボティクス研究所の博士課程の学生であるアーユシュ・バンサル氏は語る。

　それぞれの映像が全く同じ角度から撮影されることはあまりないだろう。そうなると、単純な応用として、ある場面で撮影した人の映像を別の場面の映像に挿入する下地が整ったことになる。研究ではこれ以上の可能性も実証できた。

　「われわれはカメラの数にしか制限されない。組み合わせて使えるビデオ映像の数は無制限だ」（バンサル氏）

　バンサル氏を含む研究チームは、2020年6月に開催された仮想カンファレンス「Computer Vision and Pattern Recognition」で、4D映像を生成する「4Dビジュアライゼーション」の手法についてプレゼンテーションを行った。

スタジオの代わりにディープラーニングを利用

　このような映像は新しいものではないが、これまでは、スタジオの設備に制約されていた。複数の独立したハンドヘルドカメラで撮影した実世界の映像のビジュアル情報を融合し、ダイナミックな3Dシーンを再構築できる、1つの包括的なモデルを作成することは不可能だった。

　研究チームはこの制限を乗り越えるため、折り畳みニューラルネットワーク（CNN）を使用した。CNNはディープラーニングの一手法であり、ビジュアルデータの分析に優れている。研究チームは、シーンに固有のCNNが、シーンのさまざまな部分を作成するのに使えることを発見した。

　研究チームは、最大15台のiPhoneを使ってさまざまなシーンを撮影し、4Dビジュアライゼーション手法を実証した。撮影されたシーンにはダンス、マーシャルアーツ、ピッツバーグ国立鳥園のフラミンゴなどが含まれる。

　「iPhoneを使ったのは、誰もがこのシステムを使えることを示すためだった」（バンサル氏）

生成した映像の例を紹介

研究チームによるさまざまな映像の実例

　この手法は、映画産業や消費者向けデバイスにおけるさまざまなアプリケーションの可能性を開いた。仮想現実ヘッドセットの人気が上昇を続けていることは、こうした分野で新アプリケーションが求められていることを示している。

　この手法では、必ずしもシーン全体をフル3Dで詳細に撮影するとは限らない。映像ソースが不完全な場合は、完全には再構築できなかった部分がユーザーには見えないように、3Dイメージの錯覚を壊さないように、再生角度を制限できる。

複数のスマホで撮影したビデオから「4D映像」を生成、カーネギーメロン大：スタジオや特殊なカメラは不要

スタジオの代わりにディープラーニングを利用

生成した映像の例を紹介

関連記事

関連リンク

Smart & Social 記事ランキング