用語「マルチモーダルAI」について説明。テキスト/画像/音声/数値など複数の種類のモダリティー(データ種別)を一度に処理できる統合されたAIモデルを指す。
マルチモーダルAI(Multimodal Artificial Intelligence)とは、テキスト/画像/音声/数値など複数の種類のデータ(=モダリティー:Modality*1)を一度に処理できる統合されたAIモデル(基本的にはニューラルネットワークのモデル)を指す(図1)。また、複数のモダリティーから学習することはマルチモーダル学習(Multimodal Learning)とも呼ばれる。
*1 モード(Mode)と呼ばれる場合もあるが、統計学の最頻値もModeと呼ぶので、Modalityと呼ぶ方が分かりやすいだろう。
マルチモーダルAIの代表例としては、例えば大規模言語モデル(LLM)に画像の入力を追加してマルチモーダルLLMへと進化したOpenAIのGPT-4などが挙げられる。このような、特に自然言語とコンピュータビジョンのモダリティーを取り扱うマルチモーダルAIが2021年頃から盛り上がってきており、次々と革新が生まれるホットな分野となっている。
マルチモーダルAIに対して、従来通りに1つのモダリティーのみを処理するAIモデルは、シングルモーダルAI(Single modal AI)もしくはユニモーダルAI(Unimodal AI)などと呼ばれる。
マルチモーダルAIは、人工知能の長期的かつ究極の目標である汎用(はんよう)型AI(AGI)に向けた重要なステップと見なされている。人間のような知能を実現するためには、複数のモダリティーを理解して、複数のタスク(=マルチタスク:Multi-task)を処理する能力が不可欠だからである。近年、マルチモーダルでマルチタスクなAIに真剣に取り組む企業が増えてきており、その一つにテキスト/画像/動画/オーディオ/コードといったマルチモダリティーで構築されたGoogle DeepMindのGeminiなどがある。
定義をより分かりやすく書き直しました。2024年1月の最新情報に合わせて書き直しました。
Copyright© Digital Advantage Corp. All Rights Reserved.