Meta、6種類のデータを処理できるマルチモーダルAI「ImageBind」をオープンソースで公開画像、音声、テキスト、深度、熱、慣性に対応

Metaは、明示的な監視を必要とせずに、6つのモダリティ(データ種別)のデータを一度に結合できる初のAIモデル「ImageBind」を開発し、オープンソースとして公開した。

» 2023年05月15日 08時00分 公開
[@IT]

この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。

 Metaは2023年5月9日(米国時間)、明示的な監視(生のデータを整理してラベル付けするプロセス)を必要とせずに、6つのモダリティ(データ種別)のデータを一度に結合できる初のAI(人工知能)モデル「ImageBind」を開発し、オープンソースとして公開したと発表した。

 ImageBindは、画像/ビデオ、音声、テキスト、深度(3D)、熱(赤外線)、慣性測定単位(IMU:動きや位置を計算する)といったモダリティについて、単一の埋め込み(共有表現空間)を学習することで、これらのモダリティ間の関係を認識できる。

6つのモダリティのデータを一度に結合できるImageBind(提供:Meta) 6つのモダリティのデータを一度に結合できるImageBind(提供:Meta)

 Metaは、人間のように、異なる種類のデータを総合的に分析できる機械を開発するための重要な一歩だと述べている。写真の中の物体が、「どのような音を出すか」「どのような3D形状か」「温かいか、冷たいか」「どのように動くか」を一度に全体的に理解できる機械を開発できる可能性がある。

Copyright © ITmedia, Inc. All Rights Reserved.

RSSについて

アイティメディアIDについて

メールマガジン登録

@ITのメールマガジンは、 もちろん、すべて無料です。ぜひメールマガジンをご購読ください。