1枚の物体画像から3D動画や3Dメッシュを生成する「Stable Video 3D」発表 Stability AI:Hugging Faceでモデルを公開
Stability AIは、1枚の物体画像から3D動画や3Dメッシュを生成する「Stable Video 3D」を発表した。
Stability AIは2024年3月19日(米国時間)、1枚の物体画像から3D動画や3Dメッシュを生成する「Stable Video 3D」(以下、SV3D)を発表した。
SV3Dは動画生成AI(人工知能)モデル「Stable Video Diffusion」に基づいて構築されており、物体のマルチビュー画像や3Dメッシュにおいて一貫性や品質の向上を実現させていると、Stability AIは述べている。
SV3Dは、1枚の物体画像を入力するだけで、360度どの角度からでもその物体を中心にして見ることができるマルチビュー画像を生成する「SV3D_u」と、それを元に3Dメッシュを作成する「SV3D_p」という2つのモデルで構成されている。非商用利用の場合は、Hugging Faceを通じてダウンロードもできる。
Stability AIは、SV3Dの特徴を次のように解説している。
外観の一貫性を確保
SV3Dは、1枚の画像から3Dオブジェクトを生成する「新規ビュー合成」(NVS:Novel View Synthesis)において進歩をもたらす。従来のアプローチが外観の不一致などの課題を生むのに対し、任意の角度から一貫した外観を提供できる。
3D生成の品質を向上
一貫した外観を提供できるというSV3Dの特徴を生かして、画像生成技術のNeRF(Neural Radiance Fields)による物体の3D形状推定やメッシュ表現を最適化し、3Dメッシュの品質を向上させている。また異なる照明環境下で物体が自然に見えなくなるという3Dモデル特有の問題を軽減するために、3D形状やテクスチャとともに最適化される分離照明モデルを採用した。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
- 生成AIの用語10選 〜 一般ユーザーが知っておくべき基礎知識
生成AI時代を生きる社会人に必須の基礎知識を身に付けよう。生成AIに関する用語として「生成系AI」「大規模言語モデル(LLM)」「プロンプトエンジニアリング」「ハルシネーション」「埋め込み表現」「ベクトル検索」「ベクトルデータベース」「RAG(検索拡張生成)」「事前学習」「ファインチューニング」の10語を紹介する。代表的なチャットAIやLLM、画像生成AIについても触れる。 - Stability AI、データベースクエリ、コード変換など幅広いコーディングタスクに対応する生成AI「Stable Code Instruct 3B」を発表
Stability AIは、同社のコーディング用生成AI「Stable Code 3B」をベースにした指示学習済みの大規模言語モデル「Stable Code Instruct 3B」を発表した。 - Stability AI、動画生成AI「Stable Video Diffusion」のAPIを公開
Stability AIは、同社が提供するDeveloper Platformで「Stable Video Diffusion」のAPIを公開した。