中国の新興AI企業の高性能オープンソースLLM「DeepSeek-R1」登場　注目の理由は？：OpenAIの「o1」に匹敵する性能とAPI料金の安さが売り

中国のAIスタートアップであるDeepSeekは、大規模言語モデル「DeepSeek-R1」と「DeepSeek-R1-Zero」およびDeepSeek-R1から蒸留した6つの小型モデルをオープンソースとして公開した。

» 2025年01月29日 12時00分公開

[＠IT]

この記事は会員限定です。会員登録（無料）すると全てご覧いただけます。

　中国のAIスタートアップ（新興企業）であるDeepSeekは2025年1月20日（中国時間）、大規模言語モデル（LLM）「DeepSeek-R1」と「DeepSeek-R1-Zero」およびDeepSeek-R1から蒸留した6つの小型モデルをオープンソースとして公開したと発表した。

　DeepSeek-R1は、数学、コーディング、推論タスクにおいて、OpenAIの「o1」と同等の性能を達成しており、6つの蒸留モデルのうち「DeepSeek-R1-Distill-Qwen-32B」は、さまざまなベンチマークでOpenAIの「o1-mini」を上回っている。

DeepSeek-R1モデル（提供：DeepSeek）

　DeepSeek-R1とDeepSeek-R1-Zeroは、DeepSeekの既存モデル「DeepSeek-V3-Base」をベースにトレーニングされている。

DeepSeek-R1蒸留モデル（提供：DeepSeek）

従来手法よりも効率的、「蒸留」を用いたDeepSeekの強み

#CmsMembersControl .CmsMembersControlIn {width:100%;background:url(https://image.itmedia.co.jp/images/spacer.gif) #DDD;opacity:0.05;filter:progid:DXImageTransform.Microsoft.Alpha(Enabled=1,Style=0,Opacity=5);z-index:1;}

続きを閲覧するには、ブラウザの JavaScript の設定を有効にする必要があります。

Alibaba Cloud、推論能力に焦点を当てたAIモデル「QwQ-32B-Preview」を発表　4つのベンチマークを公開
Alibaba CloudのQwenチームは、推論能力の向上に焦点を当てた実験的AIモデル「QwQ-32B-Preview」を発表した。
中国の零一万物（01.AI）、コーディング用LLM「Yi-Coder」をオープンソースとして公開
中国のAIスタートアップ零一万物（01.AI）は、コーディング用大規模言語モデル（LLM）「Yi-Coder」をオープンソースとして公開した。
AWSが“民主化”する生成AIトレンド「蒸留」とは
AWSは生成AIにおけるモデルの蒸留を容易にできるサービス、「Amazon Bedrock Model Distillation」を、2024年12月に発表した。あらためて、蒸留とは何なのだろうか？　AWSのアプローチは他社とどう違うのだろうか？