マルチモーダルAI（Multimodal AI）とは？：AI・機械学習の用語辞典

用語「マルチモーダルAI」について説明。テキスト／画像／音声／数値など複数の種類のモダリティー（データ種別）を一度に処理できる統合されたAIモデルを指す。

[一色政彦，デジタルアドバンテージ] PC用表示関連情報

LINE

Hatena

連載目次

用語解説

　マルチモーダルAI（Multimodal Artificial Intelligence）とは、テキスト／画像／音声／数値など複数の種類のデータ（＝モダリティー：Modality*1）を一度に処理できる統合されたAIモデル（基本的にはニューラルネットワークのモデル）を指す（図1）。また、複数のモダリティーから学習することはマルチモーダル学習（Multimodal Learning）とも呼ばれる。

*1　モード（Mode）と呼ばれる場合もあるが、統計学の最頻値もModeと呼ぶので、Modalityと呼ぶ方が分かりやすいだろう。

図1　「マルチモーダルAI」のイメージ
テキスト／数値／音声／画像／動画などの異なるモダリティーを同時に処理する様子を示している。このように統合された処理により、マルチモーダルAIはより複雑でより多様な情報を理解し、分析できる。

　マルチモーダルAIの代表例としては、例えば大規模言語モデル（LLM）に画像の入力を追加してマルチモーダルLLMへと進化したOpenAIのGPT-4（2023年3月発表）や、テキストやコードと画像や動画に加えて音声の入出力にも対応したGPT-4o（2024年5月発表）などが挙げられる。このような、特に自然言語とコンピュータビジョンのモダリティーを取り扱うマルチモーダルAIが2021年頃から盛り上がってきており、次々と革新が生まれるホットな分野となっている。

　マルチモーダルAIは、医療診断や、自動運転、ロボット制御など、さまざまな分野で応用されている。例えば医療分野では、画像診断と患者の病歴データを統合することで、より正確な診断が可能になる。ロボット制御では、視覚情報と音声情報を組み合わせて、ロボットが周囲の環境を認識し、適切な行動を取れるようになる、といった応用例がある。

　マルチモーダルAIに対して、従来通りに1つのモダリティーのみを処理するAIモデルは、シングルモーダルAI（Single modal AI）もしくはユニモーダルAI（Unimodal AI）などと呼ばれる。

　マルチモーダルAIは、人工知能の長期的かつ究極の目標である汎用（はんよう）型AI（AGI）に向けた重要なステップと見なされている。人間のような知能を実現するためには、複数のモダリティーを理解して、複数のタスク（＝マルチタスク：Multi-task）を処理する能力が不可欠だからである。近年、マルチモーダルでマルチタスクなAIに真剣に取り組む企業が増えてきており、その一つにテキスト／画像／動画／オーディオ／コードといったマルチモダリティーで構築されたGoogle DeepMindのGemini 1.5（2024年2月発表）などがある。

「AI・機械学習の用語辞典」

ここを更新しました（2024年5月17日）

2024年5月の最新情報に合わせて、GPT-4oとGemini 1.5について追記しました。図1の下に図の内容に関する説明文を追加しまいた。各分野でのマルチモーダルAIの応用例を追記しました。