ニュース
オープンマルチモーダルAI「Molmo」リリース 公開された4つのモデルのパフォーマンス、既存モデルとの違いとは?:「オープンなAIとプロプライエタリなAIのギャップを埋める」
アレン人工知能研究所は、オープンマルチモーダルAI「Molmo」を発表した。最初のリリースとして、4つのモデルを公開した。
アレン人工知能研究所は2024年9月25日(米国時間)、オープンマルチモーダルAI(人工知能)モデル「Molmo」を発表した。
アレン人工知能研究所は「今日、最も先進的なマルチモーダルモデルは依然としてプロプライエタリで独占的なものだ。オープンデータを活用して視覚言語モデル(VLM)を構築する研究は、最先端のマルチモーダルモデルに大きく後れを取っている。昨今の強力なオープンウェイトモデルも、既存のVLMからの合成データに依存している。つまり、クローズドなモデルからの蒸留に頼っている」とし、「Molmoは最先端のオープンなマルチモーダルAIモデルファミリーであり、さまざまな学術ベンチマークや人間による評価において、オープンなAIとプロプライエタリなAIのギャップを埋めるものだ」と述べている。
4つのモデルをリリース、既存モデルとの違いとは?
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
- OpenAI、AIモデルのマルチモーダル対応やファインチューニング機能強化を発表 無料でどこまで使える?
OpenAIは、同社のAIモデル向けの「Realtime API」(パブリックβ版)、「Chat Completions API」の音声入出力サポート、「ビジョンファインチューニング」機能、「Model Distillation」スイート、「プロンプトキャッシング」を発表した。 - Gartnerが生成AIのハイプ・サイクルを発表 RAGなどが「過度な期待のピーク」に、幻滅期に入ったのは?
Gartnerは、2027年までに生成AIソリューションの40%がマルチモーダルになり、テキスト、画像、音声、動画、数値など、複数種類のデータを一度に処理できるようになるとの見通しを明らかにした。 - UIとインフォグラフィックスの理解に特化した視覚言語モデル「ScreenAI」 Googleが開発
Googleは、UIとインフォグラフィックスの理解に特化した視覚言語モデル「ScreenAI」を公式ブログで紹介した。