検索
ニュース

Alibaba Cloud、「DeepSeek V3」「GPT-4o」超えをうたうMoE LLM「Qwen2.5-Max」を提供開始 モデルを試す方法は?「ほとんどのベンチマークで優れた性能を発揮」

Alibaba Cloudは、Mixture of Expertアーキテクチャを採用した同社の大規模言語モデル「Qwen2.5-Max」のAPI提供を開始した。

Share
Tweet
LINE
Hatena

 Alibaba Cloudは2025年1月28日(中国時間)、「Mixture of Expert」(MoE:混合エキスパート)アーキテクチャを採用した大規模言語モデル(LLM)「Qwen2.5-Max」を発表し、同モデルのAPIをAlibaba Cloudで提供開始した。

 Qwen2.5-Maxは、20兆以上のトークンで事前トレーニングされ、教師ありファインチューニング(SFT)と人間のフィードバックによる強化学習(RLHF:Reinforcement Learning from Human Feedback)で事後トレーニングされている。

DeepSeek V3やGPT-4oを超えるパフォーマンスをうたう

Copyright © ITmedia, Inc. All Rights Reserved.

ページトップに戻る