ニュース
Meta、6種類のデータを処理できるマルチモーダルAI「ImageBind」をオープンソースで公開:画像、音声、テキスト、深度、熱、慣性に対応
Metaは、明示的な監視を必要とせずに、6つのモダリティ(データ種別)のデータを一度に結合できる初のAIモデル「ImageBind」を開発し、オープンソースとして公開した。
Metaは2023年5月9日(米国時間)、明示的な監視(生のデータを整理してラベル付けするプロセス)を必要とせずに、6つのモダリティ(データ種別)のデータを一度に結合できる初のAI(人工知能)モデル「ImageBind」を開発し、オープンソースとして公開したと発表した。
ImageBindは、画像/ビデオ、音声、テキスト、深度(3D)、熱(赤外線)、慣性測定単位(IMU:動きや位置を計算する)といったモダリティについて、単一の埋め込み(共有表現空間)を学習することで、これらのモダリティ間の関係を認識できる。
Metaは、人間のように、異なる種類のデータを総合的に分析できる機械を開発するための重要な一歩だと述べている。写真の中の物体が、「どのような音を出すか」「どのような3D形状か」「温かいか、冷たいか」「どのように動くか」を一度に全体的に理解できる機械を開発できる可能性がある。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
- マルチモーダルAI(Multimodal AI)とは?
用語「マルチモーダルAI」について説明。テキスト/画像/音声/数値など複数の種類のモダリティー(データ種別)を一度に処理できる統合されたAIモデルを指す。 - Meta、画像や動画内のあらゆるオブジェクトを識別できるAIモデルを発表
Metaは画像や動画内のあらゆる物体を識別できる「Segment Anything Model」(SAM)とデータセットの「Segment Anything 1-Billion mask dataset(SA-1B)」を公開した。 - 大規模なインフラを自由に使えないAI研究者向けに、Metaが「小規模で高性能な言語モデル」を公開
Metaは、同社開発した言語モデル「LLaMA」(Large Language Model Meta AI)を研究者向けに公開した。「人間の文章生成に似た方法で文章を生成できる」という。