入力テキストを基に「動画モンタージュ」を作成するツール、国際大学チームが開発:一貫したストーリーを作りやすい
清華大学と北京航空航天大学、ハーバード大学、IDCヘルズリヤ大学のコンピュータ科学者のチームが、特定のテーマに関するテキストを入力するだけで一つながりの動画モンタージュを作成する新ツール「Write-A-Video」を開発した。
中国の清華大学と北京航空航天大学、米国のハーバード大学、イスラエルのIDCヘルズリヤ大学のコンピュータ科学者からなる研究チームが、特定のテーマに関するテキストに基づいて動画を作成するツール「Write-A-Video」を開発した。
Write-A-Videoは、ユーザーがテキストを入力すると、動画リポジトリから、テキストに応じたシーンやショットを自動的に選択し、動画を作成する。そのため、動画編集の初心者でも、シンプルでユーザーフレンドリーな方法で良質な動画モンタージュを作成できる。
現代はスマートフォンに大量の動画をため込んでいるユーザーも珍しくない。このようなユーザーに適したツールなのだという。
GUI操作ではなく、表現したい内容を記述すればよい
既存の動画編集ツールは、動画の処理や編集の知識がないユーザーには使いこなすことが難しい。
動画編集ツールの典型的な操作画面では、複数の動画ごとに始点から終点までのタイムラインが用意されている。ユーザーは元動画の内容を確認しながら、必要な部分を何カ所か選択し、その後、1本の動画にまとめ上げなければならない。動画をいったん視聴しなければならない上に、細かいコマ送り操作をしながら適切な開始点と終了点に印を付けていく操作が必要だ。
開発チームがアップロードした動作例では、短い英文を打ち込むだけで、キリンの特徴を表す動画を作り出した(※1)。
※1 "The giraffe is the world's tallest animal, and well known for its long legs and neck. It has a brown mane on the neck, and its head has two hairy horns. And it is quite interesting that they fight using their long necks." 「キリンは世界で最も背の高い動物で、長い脚と首でよく知られている。茶色のたてがみが首にあり、頭には2本の毛深い角がある。そして、長い首を使って戦うのは非常に興味深い」
Write-A-Videoの動作は大きく3段階に分かれる。まずユーザーが入力した短文からキーワードや慣用句を抜き出す。次にビジュアルセマンティックマッチング技術を用いてビデオリポジトリから必要な動画を選び出す。最後にテキストの流れと合うように動画をつなぎ合わせる。
単なる動画検索エンジンではない
Write-A-Videoの動作は動的で、例えば、テキストを追加、削除したり、文章を移動したりすると、それに応じた動画編集操作(意味的に一致するショットの検索と挿入、カット、再配置など)が進み、動画モンタージュを作成していく。
「Write-A-Videoは、動画の自動理解についての最新技術をユニークなユーザーインタフェースを通じて利用することで、より自然な動画作成を可能にする」(IDCヘルズリヤ大学のエリアル・シャミール教授)
Write-A-Videoは、主にテキスト編集という形で行われるユーザーの入力に応じて、意味的に一致する候補ショットを動画リポジトリから選択するだけでなく、ショットの美的評価も行い、明るさやフォーカス、安定感などの面で最も適したものを選択する。
「ユーザーはいつでも動画をレンダリングし、対応する音声ナレーションとともに動画モンタージュ結果をプレビューできる」(清華大学のシンミン・フー教授)
Write-A-Videoは、人間の能力とアルゴリズムを組み合わせたインテリジェントデジタルツールが、ユーザーの創造的プロセスを支援できることを示している。
「われわれの研究成果は、イディオムに基づくコンピュータ編集におけるビジュアルセマンティックマッチングの可能性を実証しており、非専門家にとっての動画作成のハードルを下げるインテリジェントな方法を提供する」(シャミール教授)
Write-A-Videoの開発過程では、さまざまなテーマに関するテキストと動画リポジトリを使ってユーザーテストを実施し、定量的評価を進めた。動画編集の経験がないユーザーもWrite-A-Videoを使って、満足のいく動画を作成できた他、専門家がフレームベースの動画編集ソフトウェアを使った場合よりも、迅速に作成できた場合もあった。
4大学のコンピュータ科学者チームはWrite-A-Videoを、2019年11月17〜20日にオーストラリアのブリスベンで開催中の「ACM SIGGRAPH Asia」に出展した。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
- AIで1枚の景観画像からタイムラプス動画を自動生成 筑波大と豊橋技術科学大のグループ
筑波大学システム情報系で助教を務める遠藤結城氏らは、1枚の景観画像から、時間が経過していく様子の動画を自動生成するAIを開発した。変化が速い雲などの動きと、変化が遅い日没などによる色の移り変わりを、異なるニューラルネットワークに学習させた。 - 話者の動画を与えると単語を容易に修正できる手法を開発、スタンフォード大などの研究チーム
スタンフォード大学などの研究者のチームが、話者の動画を容易に編集する手法を編み出した。人物の肩から上の映像を使うだけで、口にしていない単語を埋め込み、修正できる。修正方法は文字起こししたテキストを編集するだけという手軽さだ。 - ヤフーがAI技術をOSSで公開、単語間の関係性を短時間で学習
ヤフーは、分散表現の学習時間を短縮するAI技術「yskip」を、オープンソースソフトウェアとして公開した。分散表現はテキストに含まれる単語間の関係性を学習させ、単語同士の意味の相違を推定する際に利用する技術。既存の技術と同等の精度を保ちつつ、学習時間を短縮できた。