Meta、6種類のデータを処理できるマルチモーダルAI「ImageBind」をオープンソースで公開画像、音声、テキスト、深度、熱、慣性に対応

Metaは、明示的な監視を必要とせずに、6つのモダリティ(データ種別)のデータを一度に結合できる初のAIモデル「ImageBind」を開発し、オープンソースとして公開した。

» 2023年05月15日 08時00分 公開
[@IT]

この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。

 Metaは2023年5月9日(米国時間)、明示的な監視(生のデータを整理してラベル付けするプロセス)を必要とせずに、6つのモダリティ(データ種別)のデータを一度に結合できる初のAI(人工知能)モデル「ImageBind」を開発し、オープンソースとして公開したと発表した。

 ImageBindは、画像/ビデオ、音声、テキスト、深度(3D)、熱(赤外線)、慣性測定単位(IMU:動きや位置を計算する)といったモダリティについて、単一の埋め込み(共有表現空間)を学習することで、これらのモダリティ間の関係を認識できる。

6つのモダリティのデータを一度に結合できるImageBind(提供:Meta) 6つのモダリティのデータを一度に結合できるImageBind(提供:Meta)

 Metaは、人間のように、異なる種類のデータを総合的に分析できる機械を開発するための重要な一歩だと述べている。写真の中の物体が、「どのような音を出すか」「どのような3D形状か」「温かいか、冷たいか」「どのように動くか」を一度に全体的に理解できる機械を開発できる可能性がある。

Copyright © ITmedia, Inc. All Rights Reserved.

スポンサーからのお知らせPR

注目のテーマ

AI for エンジニアリング
「サプライチェーン攻撃」対策
1P情シスのための脆弱性管理/対策の現実解
OSSのサプライチェーン管理、取るべきアクションとは
Microsoft & Windows最前線2024
システム開発ノウハウ 【発注ナビ】PR
あなたにおすすめの記事PR

RSSについて

アイティメディアIDについて

メールマガジン登録

@ITのメールマガジンは、 もちろん、すべて無料です。ぜひメールマガジンをご購読ください。