ニュース
Alibaba Cloud、「DeepSeek V3」「GPT-4o」超えをうたうMoE LLM「Qwen2.5-Max」を提供開始 モデルを試す方法は?:「ほとんどのベンチマークで優れた性能を発揮」
Alibaba Cloudは、Mixture of Expertアーキテクチャを採用した同社の大規模言語モデル「Qwen2.5-Max」のAPI提供を開始した。
Alibaba Cloudは2025年1月28日(中国時間)、「Mixture of Expert」(MoE:混合エキスパート)アーキテクチャを採用した大規模言語モデル(LLM)「Qwen2.5-Max」を発表し、同モデルのAPIをAlibaba Cloudで提供開始した。
Qwen2.5-Maxは、20兆以上のトークンで事前トレーニングされ、教師ありファインチューニング(SFT)と人間のフィードバックによる強化学習(RLHF:Reinforcement Learning from Human Feedback)で事後トレーニングされている。
DeepSeek V3やGPT-4oを超えるパフォーマンスをうたう
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
- 中国の新興AI企業の高性能オープンソースLLM「DeepSeek-R1」登場 注目の理由は?
中国のAIスタートアップであるDeepSeekは、大規模言語モデル「DeepSeek-R1」と「DeepSeek-R1-Zero」およびDeepSeek-R1から蒸留した6つの小型モデルをオープンソースとして公開した。 - Alibaba Cloud、推論能力に焦点を当てたAIモデル「QwQ-32B-Preview」を発表 4つのベンチマークを公開
Alibaba CloudのQwenチームは、推論能力の向上に焦点を当てた実験的AIモデル「QwQ-32B-Preview」を発表した。 - 中国の零一万物(01.AI)、コーディング用LLM「Yi-Coder」をオープンソースとして公開
中国のAIスタートアップ零一万物(01.AI)は、コーディング用大規模言語モデル(LLM)「Yi-Coder」をオープンソースとして公開した。