マルチモーダルAI(Multimodal AI)とは?AI・機械学習の用語辞典

用語「マルチモーダルAI」について説明。テキスト/画像/音声/数値など複数の種類のモダリティー(データ種別)を一度に処理できる統合されたAIモデルを指す。

» 2024年05月17日 05時00分 公開
[一色政彦デジタルアドバンテージ]
「AI・機械学習の用語辞典」のインデックス

連載目次

用語解説

 マルチモーダルAIMultimodal Artificial Intelligence)とは、テキスト/画像/音声/数値など複数の種類のデータ(=モダリティーModality*1)を一度に処理できる統合されたAIモデル(基本的にはニューラルネットワークのモデル)を指す(図1)。また、複数のモダリティーから学習することはマルチモーダル学習Multimodal Learning)とも呼ばれる。

*1 モード(Mode)と呼ばれる場合もあるが、統計学の最頻値もModeと呼ぶので、Modalityと呼ぶ方が分かりやすいだろう。


図1 「マルチモーダルAI」のイメージ 図1 「マルチモーダルAI」のイメージ
テキスト/数値/音声/画像/動画などの異なるモダリティーを同時に処理する様子を示している。このように統合された処理により、マルチモーダルAIはより複雑でより多様な情報を理解し、分析できる。

 マルチモーダルAIの代表例としては、例えば大規模言語モデル(LLM)に画像の入力を追加してマルチモーダルLLMへと進化したOpenAIのGPT-4(2023年3月発表)や、テキストやコードと画像や動画に加えて音声の入出力にも対応したGPT-4o(2024年5月発表)などが挙げられる。このような、特に自然言語とコンピュータビジョンのモダリティーを取り扱うマルチモーダルAIが2021年頃から盛り上がってきており、次々と革新が生まれるホットな分野となっている。

 マルチモーダルAIは、医療診断や、自動運転、ロボット制御など、さまざまな分野で応用されている。例えば医療分野では、画像診断と患者の病歴データを統合することで、より正確な診断が可能になる。ロボット制御では、視覚情報と音声情報を組み合わせて、ロボットが周囲の環境を認識し、適切な行動を取れるようになる、といった応用例がある。

 マルチモーダルAIに対して、従来通りに1つのモダリティーのみを処理するAIモデルは、シングルモーダルAISingle modal AI)もしくはユニモーダルAIUnimodal AI)などと呼ばれる。

 マルチモーダルAIは、人工知能の長期的かつ究極の目標である汎用(はんよう)型AI(AGI)に向けた重要なステップと見なされている。人間のような知能を実現するためには、複数のモダリティーを理解して、複数のタスク(=マルチタスクMulti-task)を処理する能力が不可欠だからである。近年、マルチモーダルでマルチタスクなAIに真剣に取り組む企業が増えてきており、その一つにテキスト/画像/動画/オーディオ/コードといったマルチモダリティーで構築されたGoogle DeepMindのGemini 1.5(2024年2月発表)などがある。

「AI・機械学習の用語辞典」のインデックス

AI・機械学習の用語辞典

ここを更新しました(2024年5月17日)

2024年5月の最新情報に合わせて、GPT-4oとGemini 1.5について追記しました。図1の下に図の内容に関する説明文を追加しまいた。各分野でのマルチモーダルAIの応用例を追記しました。

Copyright© Digital Advantage Corp. All Rights Reserved.

RSSについて

アイティメディアIDについて

メールマガジン登録

@ITのメールマガジンは、 もちろん、すべて無料です。ぜひメールマガジンをご購読ください。