テキストから動画を生成できる動画生成AI「Gen-3 Alpha」を提供開始 Runway:映画のワンシーンのような動画を生成できる
Runwayは同社の動画生成AIの最新モデルとなる「Gen-3 Alpha」の提供を開始した。前世代モデルよりも忠実度、一貫性、動きの表現が大きく改善されているという。
スタートアップ企業のRunwayは2024年7月1日(米国時間、以下同)、6月17日に発表した同社の動画生成モデル「Gen-3 Alpha」の提供を開始した。
動画や画像データに基づきトレーニングされたGen-3 Alphaは、同社の前世代モデルである「Gen-2」よりも忠実度、一貫性、動きの表現が大きく改善されているという。
RunwayはGen-3 Alphaについて、同社が「General World Model(汎用世界モデル)」と呼ぶAIシステムの構築に向けた、大きな一歩になるとしている。
汎用世界モデルとは、ある環境の内部表現を構築し、環境内での将来の出来事をシミュレートするAIシステムのことだ。これまでの世界モデルの研究が、ビデオゲームのようなおもちゃのシミュレーションや、運転用の世界モデルの開発といった限定的な環境に焦点を当てていたのに対し、汎用世界モデルでは、現実世界で遭遇するような幅広い状況や相互作用を表現し、シミュレートすることを目的としている。
Runwayは「動画生成モデルは、汎用世界モデルのごく初期の限定された形と考えることができる。現実的な短い動画を生成するために、Gen-2では物理学と運動についてある程度の理解を深めてきたが、機能はまだ非常に限られており、とりわけ複雑なカメラや物体の動きに苦労している。汎用世界モデル構築のために、環境の状況を把握し、それに基づいて行動したり、行動を調整したりするようなモデルの構築を目指している」と述べている。
Gen-3 Alphaの特徴(7つの生成動画例)
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
- Microsoft、1枚の写真と音声から本当に話しているかのような動画を生成するAIモデル「VASA-1」を発表
Microsoftは、1枚の顔の静止画像と音声クリップから、その顔の人物が本当に話しているかのような動画を生成できるAIモデル「VASA-1」を発表した。 - OpenAI、動画生成AI「Sora」を発表 技術レポートで明かされる開発ビジョン、学習の仕組み、課題とは
OpenAIは、テキストから最大60秒の動画を生成するAIモデル「Sora」を発表した。 - テキストからCADデータを自動生成する「Text-to-CAD」α版公開 Zoo
ZooはテキストデータからCADファイルを自動生成する「Text-to-CAD」のα版を公開した。