検索
連載

新AIモデル「DeepSeek-V3.1」登場 8400億トークンで強化、思考と即答を両搭載、より長い文章に対応Deep Insider Brief ― 技術の“今”にひと言コメント

DeepSeekがLLMの新バージョン「V3.1」を発表。思考と即答の2モードを搭載したハイブリッドモデルに進化し、精度とエージェント機能が強化された。さらにAPIの更新と価格改定も実施された。

Share
Tweet
LINE
Hatena
「Deep Insider Brief ― 技術の“今”にひと言コメント」のインデックス

連載目次

 中国のAI開発企業「DeepSeek」は2025年8月21日、最新のオープンウェイトLLM「DeepSeek-V3.1」を発表した。2025年1月には株式市場を揺るがした「DeepSeekショック」で世界的に注目を集めた同社だが、低コストで知られるそのモデルが機能と性能を高めてアップデートされた。

 今回の新バージョン「V3.1」は、前世代のリーズニング(reasoning=思考過程)特化モデル「DeepSeek-R1」の2025年5月公開版「R1-0528」と比較しても、出力がより短くなりつつ精度は向上しており、効率化が進んだといえる。

DeepSeek-V3.1の推論効率比較(公式発表資料より引用)
DeepSeek-V3.1の推論効率比較(公式発表資料より引用)
横軸は各種ベンチマーク(数学/知識/コード)、縦軸は出力トークン数(少ないほど効率的)。括弧内は正答率を示し、V3.1は前世代R1-0528より短い出力で高い精度を実現している。

 今回のアップデートで注目すべきは、1つのモデルで2つのモードを扱えるハイブリッド推論である。複雑な課題には「思考モード(Thinking Mode)」、日常的な応答には高速な「即答モード(Non-thinking Mode)」を選べるようになった。この柔軟性により、開発者が「回答の深さ」と「回答の速度」のバランスをうまく調整すれば、AIが自律的にタスクを実行する「AIエージェント」の効率性をより高められるだろう。

 各種ベンチマークでも性能向上が示されている。ソフトウェア開発(SWE-bench)で旧版(R1-0528やV3-0324)の約1.5倍、コマンド操作(Terminal-Bench)では旧版の最大5倍以上と、スコアを大幅に向上させた。これは、AIがプログラミングやPC操作といった「ツール」をより正確かつ効率的に扱えるようになったことを意味する。

DeepSeek-V3.1の各種能力比較(公式発表資料より引用)
DeepSeek-V3.1の各種能力比較(公式発表資料より引用)
SWE-bench(ソフトウェア開発能力)やTerminal-Bench(コマンド操作能力)などのベンチマークにおけるスコア比較。数値は高いほど優秀であり、V3.1は旧版R1-0528やV3-0324を大きく上回っている。

 このように今回のリリースは、ハイブリッド推論とツール利用能力の大幅な強化が特徴である。AIエージェント時代を見据えたアップデートといえる。


Deep Insider

 Deep Insider編集長の一色です。こんにちは。

 ここ最近「DeepSeekは失速するのでは」という声を少し耳にしました。米国政府によるGPU輸出規制で開発が難航しているとか、利用者が減っているとか、そんな話もあったのです。「このままフェイドアウトしてしまうのか」と思っていた矢先に、まさかの新バージョン投入。これは意外でした。

 しかもパラメーター数は「671B」(=6710億)。例えば、OpenAIが2025年8月6日に公開したオープンウェイトLLM「gpt-oss-120b」(117B)と比べても5倍以上という、まさに圧倒的な規模の巨大モデルです。もちろんそのままでは一般的なPCのGPUには収まりません。

 「量子化」などの軽量化テクニックを使えば(精度が低下してしまうケースも少なくないのですが)、ローカルLLMとして動かすこともできます。既にUnslothで軽量化版が提供されているので、実際に試してみた方はぜひSNSなどで感想を共有していただけると筆者もうれしいです(笑)。


 今回のリリース内容には、より多くの機能や更新内容が含まれていた。全てを丁寧に解説すると長くなるので、残りは以下に箇条書きでまとめておく。

その他の新機能とアップデート内容

モデル強化

  • 840B(8400億)トークンのデータでV3に追加事前学習し、長文処理性能を強化
  • トークナイザとチャットテンプレートを更新

ツール/エージェント機能

  • 複雑な検索タスクでの多段推論能力を強化
検索&QA関連のベンチマーク結果(公式発表資料より引用)
検索&QA関連のベンチマーク結果(公式発表資料より引用)
Browsecomp(英語)やBrowsecomp_zh(中国語)はブラウザでの検索能力、HLEは長文読解と高度な推論力、xbench-DeepSearchは複雑な検索クエリへの対応力、Framesは文脈理解と会話能力、SimpleQAは基礎的な質問応答、Seal0は知識とセキュリティ分野を評価するベンチマークである。いずれも数値は高いほど良く、V3.1がR1-0528を大きく上回った。

API関連アップデート

  • deepseek-chat → Non-Think(非思考=即答)モード
  • deepseek-reasoner → Think(思考=リーズニング/論理的推論)モード
  • 両モードとも128Kトークンという非常に長いコンテキストに対応(1トークン=1語とは限らないが、簡易計算で12万語以上と考えるとよい)
  • Anthropic API形式をサポート: Claudeシリーズと同じAPI形式に対応し、既存アプリケーションからの移行が容易になった
  • Strict Function Calling(関数呼び出し仕様)をベータ実装: AIが外部プログラムやAPIを正確に呼び出すための機能が試験的に利用可能になった

API価格の改定

 今回のアップデートに伴い、日本時間で2025年9月6日の1時よりAPIの利用料金が改定される。モデルが1つになったことで、シンプルで分かりやすくなった。

2025年9月6日から適用されるDeepSeek-V3.1 APIの新価格(公式発表資料より引用)
2025年9月6日から適用されるDeepSeek-V3.1 APIの新価格(公式発表資料より引用)

  • 新価格の詳細(100万トークン当たり):
    • 入力(キャッシュヒット時): 0.07ドル
    • 入力(キャッシュミス時): 0.56ドル
    • 出力: 1.68ドル
    • キャッシュとは一度処理した内容を保存しておく仕組みで、キャッシュヒット時は再利用により低価格で処理できる

 価格については変更される可能性もあるので、厳密には公式の「DeepSeek APIドキュメント:Models & Pricing」を参照してほしい。

モデルの公開場所


 「DeepSeekショック」から約半年、DeepSeekはV3.1で技術力をあらためて示した。膨大なパラメーターと柔軟なハイブリッド推論を持つ新モデルが、実利用の現場をどう変えるのか注目される。

「Deep Insider Brief ― 技術の“今”にひと言コメント」のインデックス

Deep Insider Brief ― 技術の“今”にひと言コメント

Copyright© Digital Advantage Corp. All Rights Reserved.

[an error occurred while processing this directive]
ページトップに戻る