アレン人工知能研究所は、オープンマルチモーダルAI「Molmo」を発表した。最初のリリースとして、4つのモデルを公開した。
この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。
アレン人工知能研究所は2024年9月25日(米国時間)、オープンマルチモーダルAI(人工知能)モデル「Molmo」を発表した。
アレン人工知能研究所は「今日、最も先進的なマルチモーダルモデルは依然としてプロプライエタリで独占的なものだ。オープンデータを活用して視覚言語モデル(VLM)を構築する研究は、最先端のマルチモーダルモデルに大きく後れを取っている。昨今の強力なオープンウェイトモデルも、既存のVLMからの合成データに依存している。つまり、クローズドなモデルからの蒸留に頼っている」とし、「Molmoは最先端のオープンなマルチモーダルAIモデルファミリーであり、さまざまな学術ベンチマークや人間による評価において、オープンなAIとプロプライエタリなAIのギャップを埋めるものだ」と述べている。
Molmoは、「CLIP(Contrastive Language-Image Pre-Training)」ベースの事前学習済みビジョンエンコーダーと大規模言語モデル(LLM)を使用して構築されている。そして、VLMパイプライン(ウェイト、コード、データ、評価)はオープンであり、他のVLMの蒸留はしていない。
Molmoの最初のリリースには、次のモデルがある。全てのウェイト、キャプション/ファインチューニングデータ、ソースコードをリリースするという。
アレン人工知能研究所は、Molmoのオープン性を、既存のVLMと次のように比較している。
アレン人工知能研究所によると、Molmoの革新的な部分は、既存のVLMを使わずに収集された詳細なデータセット「PixMo」にあるという。PixMoは、マルチモーダルの事前学習用の密なキャプションデータと、質疑応答、文書の読み取り、点群データなどを含む、幅広いユーザーインタラクションを可能にするための教師付きファインチューニングデータから構成されている。
キャプションデータについてアレン人工知能研究所は、「既存のVLMを使用せずに、人間のアノテーターに最大90秒間、画像のキャプションになる説明(空間的な位置関係を含む)をしてもらい、71万2000枚分の高品質なキャプションデータを得られた」と述べている。
アレン人工知能研究所は、11の学術的ベンチマークと870人以上のアノテーターによる評価に基づき、Molmoの性能を次のようにまとめている。
アレン人工知能研究所は2024年内に、技術レポートの詳細版や、追加のモデルウェイト、PixMoのデータセットファミリーをリリースする計画だ。
Copyright © ITmedia, Inc. All Rights Reserved.