用語「マルチモーダルAI」について説明。テキスト/画像/音声/数値など複数の種類のモダリティー(データ種別)を一度に処理できる統合されたAIモデルを指す。
マルチモーダルAI(Multimodal Artificial Intelligence)とは、テキスト/画像/音声/数値など複数の種類のデータ(=モダリティー:Modality*1)を一度に処理できる統合されたAIモデル(基本的にはニューラルネットワークのモデル)を指す(図1)。また、複数のモダリティーから学習することはマルチモーダル学習(Multimodal Learning)とも呼ばれる。
*1 モード(Mode)と呼ばれる場合もあるが、統計学の最頻値もModeと呼ぶので、Modalityと呼ぶ方が分かりやすいだろう。
マルチモーダルAIの代表例としては、例えば大規模言語モデル(LLM)に画像の入力を追加してマルチモーダルLLMへと進化したOpenAIのGPT-4(2023年3月発表)や、テキストやコードと画像や動画に加えて音声の入出力にも対応したGPT-4o(2024年5月発表)などが挙げられる。このような、特に自然言語とコンピュータビジョンのモダリティーを取り扱うマルチモーダルAIが2021年頃から盛り上がってきており、次々と革新が生まれるホットな分野となっている。
マルチモーダルAIは、医療診断や、自動運転、ロボット制御など、さまざまな分野で応用されている。例えば医療分野では、画像診断と患者の病歴データを統合することで、より正確な診断が可能になる。ロボット制御では、視覚情報と音声情報を組み合わせて、ロボットが周囲の環境を認識し、適切な行動を取れるようになる、といった応用例がある。
マルチモーダルAIに対して、従来通りに1つのモダリティーのみを処理するAIモデルは、シングルモーダルAI(Single modal AI)もしくはユニモーダルAI(Unimodal AI)などと呼ばれる。
マルチモーダルAIは、人工知能の長期的かつ究極の目標である汎用(はんよう)型AI(AGI)に向けた重要なステップと見なされている。人間のような知能を実現するためには、複数のモダリティーを理解して、複数のタスク(=マルチタスク:Multi-task)を処理する能力が不可欠だからである。近年、マルチモーダルでマルチタスクなAIに真剣に取り組む企業が増えてきており、その一つにテキスト/画像/動画/オーディオ/コードといったマルチモダリティーで構築されたGoogle DeepMindのGemini 1.5(2024年2月発表)などがある。
2024年5月の最新情報に合わせて、GPT-4oとGemini 1.5について追記しました。図1の下に図の内容に関する説明文を追加しまいた。各分野でのマルチモーダルAIの応用例を追記しました。
Copyright© Digital Advantage Corp. All Rights Reserved.