連載
» 2022年07月04日 05時00分 公開

マルチモーダルAI(Multimodal AI)とは?AI・機械学習の用語辞典

用語「マルチモーダルAI」について説明。数値/画像/テキスト/音声など複数のモダリティー(データ種別)を組み合わせて、もしくは関連付けて処理できる単一のAIモデルを指す。

[一色政彦,デジタルアドバンテージ]
「AI・機械学習の用語辞典」のインデックス

連載目次

用語解説

 マルチモーダルAIMultimodal Artificial Intelligence)とは、数値/画像/テキスト/音声など複数種類のデータ(=モダリティーModality*1)を組み合わせて、もしくは関連付けて処理できる単一のAIモデル(基本的にはニューラルネットワークのモデル)を指す(図1)。また、複数のモダリティーから学習することはマルチモーダル学習Multimodal Learning)とも呼ばれる。

*1 モード(Mode)と呼ばれる場合もあるが、統計学の最頻値もModeと呼ぶので、Modalityと呼ぶ方が分かりやすいだろう。


図1 「マルチモーダルAI」のイメージ 図1 「マルチモーダルAI」のイメージ

 マルチモーダルAI/マルチモーダル学習の代表例としては、例えばテキストから画像を生成するDALL·E 2などが挙げられる(参考:OpenAIによるマルチモーダルAI研究)。このような、特に自然言語とコンピュータビジョンのモダリティーを取り扱うマルチモーダルAIが近年(2021年頃から)盛り上がってきており、次々と革新が生まれそうなホットな分野となっている。

 マルチモーダルAIに対して、従来通りに1つのモダリティーのみを処理する単一のAIモデルは、シングルモーダルAISingle modal AI)もしくはユニモーダルAIUnimodal AI)などと呼ばれる。

 マルチモーダルAIは、「人工知能に関する長期的で究極の目標」と言える汎用(はんよう)型AI(AGI)に近づくための一つのアプローチと見なせる。なおAGIを実現するためには、単一のAIモデルで複数のタスク(=マルチタスクMulti-task)を処理する必要もあるだろう。近年、マルチモーダルでマルチタスクな単一のAIに真剣に取り組む企業が増えてきており、例えばグーグル(Google)は次世代AIアーキテクチャー「Pathways」や、そのシステムで訓練されたTransformer言語モデル「PaLM:Pathways Language Model」を発表している。

「AI・機械学習の用語辞典」のインデックス

AI・機械学習の用語辞典

Copyright© Digital Advantage Corp. All Rights Reserved.

RSSについて

アイティメディアIDについて

メールマガジン登録

@ITのメールマガジンは、 もちろん、すべて無料です。ぜひメールマガジンをご購読ください。