マルチモーダルAI(Multimodal AI)とは?AI・機械学習の用語辞典

用語「マルチモーダルAI」について説明。テキスト/画像/音声/数値など複数の種類のモダリティー(データ種別)を一度に処理できる統合されたAIモデルを指す。

» 2024年01月15日 05時00分 公開
[一色政彦デジタルアドバンテージ]
「AI・機械学習の用語辞典」のインデックス

連載目次

用語解説

 マルチモーダルAIMultimodal Artificial Intelligence)とは、テキスト/画像/音声/数値など複数の種類のデータ(=モダリティーModality*1)を一度に処理できる統合されたAIモデル(基本的にはニューラルネットワークのモデル)を指す(図1)。また、複数のモダリティーから学習することはマルチモーダル学習Multimodal Learning)とも呼ばれる。

*1 モード(Mode)と呼ばれる場合もあるが、統計学の最頻値もModeと呼ぶので、Modalityと呼ぶ方が分かりやすいだろう。


図1 「マルチモーダルAI」のイメージ 図1 「マルチモーダルAI」のイメージ

 マルチモーダルAIの代表例としては、例えば大規模言語モデル(LLM)に画像の入力を追加してマルチモーダルLLMへと進化したOpenAIのGPT-4などが挙げられる。このような、特に自然言語とコンピュータビジョンのモダリティーを取り扱うマルチモーダルAIが2021年頃から盛り上がってきており、次々と革新が生まれるホットな分野となっている。

 マルチモーダルAIに対して、従来通りに1つのモダリティーのみを処理するAIモデルは、シングルモーダルAISingle modal AI)もしくはユニモーダルAIUnimodal AI)などと呼ばれる。

 マルチモーダルAIは、人工知能の長期的かつ究極の目標である汎用(はんよう)型AI(AGI)に向けた重要なステップと見なされている。人間のような知能を実現するためには、複数のモダリティーを理解して、複数のタスク(=マルチタスクMulti-task)を処理する能力が不可欠だからである。近年、マルチモーダルでマルチタスクなAIに真剣に取り組む企業が増えてきており、その一つにテキスト/画像/動画/オーディオ/コードといったマルチモダリティーで構築されたGoogle DeepMindのGeminiなどがある。

「AI・機械学習の用語辞典」のインデックス

AI・機械学習の用語辞典

ここを更新しました(2024年1月15日)

定義をより分かりやすく書き直しました。2024年1月の最新情報に合わせて書き直しました。

Copyright© Digital Advantage Corp. All Rights Reserved.

RSSについて

アイティメディアIDについて

メールマガジン登録

@ITのメールマガジンは、 もちろん、すべて無料です。ぜひメールマガジンをご購読ください。