複数のスマホで撮影したビデオから「4D映像」を生成、カーネギーメロン大:スタジオや特殊なカメラは不要
カーネギーメロン大学の研究チームが、スタジオや特殊なカメラを使わなくても、「4D映像」を生成できる手法を開発した。複数の「iPhone」で撮影したビデオ映像を組み合わせ、さまざまな角度から動きを見たり、視線を一時的に遮る人や物体を消去したりできる。
カーネギーメロン大学(CMU)の研究チームが、特殊な設備を使わなくても「4D映像」を生成できる手法を開発した。複数の「iPhone」で撮影したビデオ映像を組み合わせ、視聴者がさまざまな角度から動きを見たり、視線を一時的に遮る人や物体を消去したりできる
このような研究の背景には、iPhoneのようなスマホが広く普及し、ビデオ撮影がごく気軽にできる環境が当たり前になったことがある。結婚式や誕生パーティーでよくあるように、さまざまな視点から独立した映像を簡単に手に入れられると、CMUロボティクス研究所の博士課程の学生であるアーユシュ・バンサル氏は語る。
それぞれの映像が全く同じ角度から撮影されることはあまりないだろう。そうなると、単純な応用として、ある場面で撮影した人の映像を別の場面の映像に挿入する下地が整ったことになる。研究ではこれ以上の可能性も実証できた。
「われわれはカメラの数にしか制限されない。組み合わせて使えるビデオ映像の数は無制限だ」(バンサル氏)
バンサル氏を含む研究チームは、2020年6月に開催された仮想カンファレンス「Computer Vision and Pattern Recognition」で、4D映像を生成する「4Dビジュアライゼーション」の手法についてプレゼンテーションを行った。
スタジオの代わりにディープラーニングを利用
このような映像は新しいものではないが、これまでは、スタジオの設備に制約されていた。複数の独立したハンドヘルドカメラで撮影した実世界の映像のビジュアル情報を融合し、ダイナミックな3Dシーンを再構築できる、1つの包括的なモデルを作成することは不可能だった。
研究チームはこの制限を乗り越えるため、折り畳みニューラルネットワーク(CNN)を使用した。CNNはディープラーニングの一手法であり、ビジュアルデータの分析に優れている。研究チームは、シーンに固有のCNNが、シーンのさまざまな部分を作成するのに使えることを発見した。
研究チームは、最大15台のiPhoneを使ってさまざまなシーンを撮影し、4Dビジュアライゼーション手法を実証した。撮影されたシーンにはダンス、マーシャルアーツ、ピッツバーグ国立鳥園のフラミンゴなどが含まれる。
「iPhoneを使ったのは、誰もがこのシステムを使えることを示すためだった」(バンサル氏)
生成した映像の例を紹介
この手法は、映画産業や消費者向けデバイスにおけるさまざまなアプリケーションの可能性を開いた。仮想現実ヘッドセットの人気が上昇を続けていることは、こうした分野で新アプリケーションが求められていることを示している。
この手法では、必ずしもシーン全体をフル3Dで詳細に撮影するとは限らない。映像ソースが不完全な場合は、完全には再構築できなかった部分がユーザーには見えないように、3Dイメージの錯覚を壊さないように、再生角度を制限できる。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
- CNNなんて怖くない! その基本を見てみよう
画像認識などでよく使われるCNN(畳み込みニューラルネットワーク)ではどんなことが行われているのでしょう。図を見ながら、CNNの基本を理解しましょう。 - 機械学習概論〜ディープラーニングGAN、本格的に学べる全20時間の大学講義が無償公開
機械学習概論、単回帰、重回帰から、k-means、主成分分析、ニュートラルネットワーク、CNN/RNN/GANまで、全20回の講義概要と目次を紹介。本稿独自に考察した、難易度や前提知識、お勧めの学習方法、注意点についても示す。 - AIで1枚の景観画像からタイムラプス動画を自動生成 筑波大と豊橋技術科学大のグループ
筑波大学システム情報系で助教を務める遠藤結城氏らは、1枚の景観画像から、時間が経過していく様子の動画を自動生成するAIを開発した。変化が速い雲などの動きと、変化が遅い日没などによる色の移り変わりを、異なるニューラルネットワークに学習させた。