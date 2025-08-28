新AIモデル「DeepSeek-V3.1」登場　8400億トークンで強化、思考と即答を両搭載、より長い文章に対応Deep Insider Brief ― 技術の“今”にひと言コメント

DeepSeekがLLMの新バージョン「V3.1」を発表。思考と即答の2モードを搭載したハイブリッドモデルに進化し、精度とエージェント機能が強化された。さらにAPIの更新と価格改定も実施された。

　中国のAI開発企業「DeepSeek」は2025年8月21日、最新のオープンウェイトLLM「DeepSeek-V3.1」を発表した。2025年1月には株式市場を揺るがした「DeepSeekショック」で世界的に注目を集めた同社だが、低コストで知られるそのモデルが機能と性能を高めてアップデートされた。

　今回の新バージョン「V3.1」は、前世代のリーズニング（reasoning＝思考過程）特化モデル「DeepSeek-R1」の2025年5月公開版「R1-0528」と比較しても、出力がより短くなりつつ精度は向上しており、効率化が進んだといえる。

DeepSeek-V3.1の推論効率比較（公式発表資料より引用） DeepSeek-V3.1の推論効率比較（公式発表資料より引用）
横軸は各種ベンチマーク（数学／知識／コード）、縦軸は出力トークン数（少ないほど効率的）。括弧内は正答率を示し、V3.1は前世代R1-0528より短い出力で高い精度を実現している。

　今回のアップデートで注目すべきは、1つのモデルで2つのモードを扱えるハイブリッド推論である。複雑な課題には「思考モード（Thinking Mode）」、日常的な応答には高速な「即答モード（Non-thinking Mode）」を選べるようになった。この柔軟性により、開発者が「回答の深さ」と「回答の速度」のバランスをうまく調整すれば、AIが自律的にタスクを実行する「AIエージェント」の効率性をより高められるだろう。

　各種ベンチマークでも性能向上が示されている。ソフトウェア開発（SWE-bench）で旧版（R1-0528やV3-0324）の約1.5倍、コマンド操作（Terminal-Bench）では旧版の最大5倍以上と、スコアを大幅に向上させた。これは、AIがプログラミングやPC操作といった「ツール」をより正確かつ効率的に扱えるようになったことを意味する。

DeepSeek-V3.1の各種能力比較（公式発表資料より引用） DeepSeek-V3.1の各種能力比較（公式発表資料より引用）
SWE-bench（ソフトウェア開発能力）やTerminal-Bench（コマンド操作能力）などのベンチマークにおけるスコア比較。数値は高いほど優秀であり、V3.1は旧版R1-0528やV3-0324を大きく上回っている。

　このように今回のリリースは、ハイブリッド推論とツール利用能力の大幅な強化が特徴である。AIエージェント時代を見据えたアップデートといえる。


Deep Insider

　Deep Insider編集長の一色です。こんにちは。

　ここ最近「DeepSeekは失速するのでは」という声を少し耳にしました。米国政府によるGPU輸出規制で開発が難航しているとか、利用者が減っているとか、そんな話もあったのです。「このままフェイドアウトしてしまうのか」と思っていた矢先に、まさかの新バージョン投入。これは意外でした。

　しかもパラメーター数は「671B」（＝6710億）。例えば、OpenAIが2025年8月6日に公開したオープンウェイトLLM「gpt-oss-120b」（117B）と比べても5倍以上という、まさに圧倒的な規模の巨大モデルです。もちろんそのままでは一般的なPCのGPUには収まりません。

　「量子化」などの軽量化テクニックを使えば（精度が低下してしまうケースも少なくないのですが）、ローカルLLMとして動かすこともできます。既にUnslothで軽量化版が提供されているので、実際に試してみた方はぜひSNSなどで感想を共有していただけると筆者もうれしいです（笑）。


　今回のリリース内容には、より多くの機能や更新内容が含まれていた。全てを丁寧に解説すると長くなるので、残りは以下に箇条書きでまとめておく。

その他の新機能とアップデート内容

モデル強化

  • 840B（8400億）トークンのデータでV3に追加事前学習し、長文処理性能を強化
  • トークナイザとチャットテンプレートを更新

ツール／エージェント機能

  • 複雑な検索タスクでの多段推論能力を強化
検索＆QA関連のベンチマーク結果（公式発表資料より引用） 検索＆QA関連のベンチマーク結果（公式発表資料より引用）
Browsecomp（英語）やBrowsecomp_zh（中国語）はブラウザでの検索能力、HLEは長文読解と高度な推論力、xbench-DeepSearchは複雑な検索クエリへの対応力、Framesは文脈理解と会話能力、SimpleQAは基礎的な質問応答、Seal0は知識とセキュリティ分野を評価するベンチマークである。いずれも数値は高いほど良く、V3.1がR1-0528を大きく上回った。

API関連アップデート

  • deepseek-chat → Non-Think（非思考＝即答）モード
  • deepseek-reasoner → Think（思考＝リーズニング／論理的推論）モード
  • 両モードとも128Kトークンという非常に長いコンテキストに対応（1トークン＝1語とは限らないが、簡易計算で12万語以上と考えるとよい）
  • Anthropic API形式をサポート： Claudeシリーズと同じAPI形式に対応し、既存アプリケーションからの移行が容易になった
  • Strict Function Calling（関数呼び出し仕様）をベータ実装： AIが外部プログラムやAPIを正確に呼び出すための機能が試験的に利用可能になった

API価格の改定

　今回のアップデートに伴い、日本時間で2025年9月6日の1時よりAPIの利用料金が改定される。モデルが1つになったことで、シンプルで分かりやすくなった。

2025年9月6日から適用されるDeepSeek-V3.1 APIの新価格（公式発表資料より引用） 2025年9月6日から適用されるDeepSeek-V3.1 APIの新価格（公式発表資料より引用）

  • 新価格の詳細（100万トークン当たり）：
    • 入力（キャッシュヒット時）： 0.07ドル
    • 入力（キャッシュミス時）： 0.56ドル
    • 出力： 1.68ドル
    • キャッシュとは一度処理した内容を保存しておく仕組みで、キャッシュヒット時は再利用により低価格で処理できる

　価格については変更される可能性もあるので、厳密には公式の「DeepSeek APIドキュメント：Models & Pricing」を参照してほしい。

モデルの公開場所

　「DeepSeekショック」から約半年、DeepSeekはV3.1で技術力をあらためて示した。膨大なパラメーターと柔軟なハイブリッド推論を持つ新モデルが、実利用の現場をどう変えるのか注目される。

