🔷 DeepSeek V4 技术档案

基于 DeepSeek 2026-04-24 官方 Preview Release、API 文档与 Hugging Face 模型卡整理:架构、模型规格、推理模式、API 接入、Agent 集成与本地部署边界。

0. 结论先行:这是 Preview Release,不是最终版

发布时间 2026-04-24

官方新闻页标题为 DeepSeek V4 Preview Release。

发布状态 API + 开源权重

官方称 V4 Preview 已上线并同步开源。

模型路线 V4-Pro / V4-Flash

Pro 主打能力上限,Flash 主打速度与成本。

上下文 1M tokens

官方服务默认进入百万上下文时代。

真实性边界:下文只引用官方 API 文档、官方 Hugging Face 模型卡与 Hugging Face 官方技术博客中的可核验信息;第三方跑分和价格转述仅作为观察,不写入核心结论。

1. 模型矩阵与规格

项目DeepSeek-V4-ProDeepSeek-V4-Flash
定位旗舰能力版,面向复杂推理、代码、Agent 与长上下文任务高性价比版,面向高吞吐、常规对话、简单 Agent 与经济型部署
总参数 / 激活参数1.6T / 49B activated284B / 13B activated
架构MoE + 混合注意力 + mHC同系列 MoE 架构,规模更小
上下文长度1M tokens1M tokens
最大输出官方 API 标注最大 384K官方 API 标注最大 384K
开源权重Base + Instruct,MIT LicenseBase + Instruct,MIT License
精度Base 为 FP8 Mixed;Instruct 为 FP4 + FP8 MixedBase 为 FP8 Mixed;Instruct 为 FP4 + FP8 Mixed

怎么选:默认从 deepseek-v4-flash 起步;只有当任务需要更强知识、复杂代码修复、长链 Agent 或高难推理时,再切换 deepseek-v4-pro

2. 架构:V4 的核心不是单纯变大,而是让 1M 上下文可用

MoE 主干

V4 仍走 Mixture-of-Experts 路线:总参数很大,但每个 token 只激活一部分专家,从而把容量与推理成本拆开。

CSA

Compressed Sparse Attention 先在序列维度压缩 KV,再进行稀疏选择,用于降低长上下文 attention 成本。

HCA

Heavily Compressed Attention 做更重压缩,在短得多的压缩流上做 dense attention,补足全局信息通路。

mHC

Manifold-Constrained Hyper-Connections 用来强化传统 residual connection,提升深层信号传播稳定性。

Muon

训练侧采用 Muon optimizer,官方模型卡将其归为更快收敛与更稳定训练的关键升级之一。

后训练

先分别培养领域专家:SFT + GRPO 强化学习;再通过 on-policy distillation 合并能力到统一模型。

发布口径合并理解:
官方新闻页称为 token-wise compression + DSA;模型卡进一步展开为 CSA + HCA 的混合注意力。两种说法指向同一个目标:降低百万上下文下的 FLOPs 与 KV cache 压力。

3. 推理模式:Non-think / Think High / Think Max

模式适用场景API 控制注意点
Non-think普通问答、摘要、低风险抽取、低延迟任务thinking.type=disabled可使用常规采样参数
Think High多步推理、规划、代码解释、复杂问答thinking.type=enabled + reasoning_effort=high思考模式默认 effort 为 high
Think Max困难 Agent、代码库分析、复杂修复、长链工具调用reasoning_effort=max本地部署建议上下文至少 384K;部分 Agent 请求会自动转 max

开发细节:思考模式会返回 reasoning_content 与最终 content。如果中途发生工具调用,后续请求必须把本轮 reasoning_content 一并带回,否则可能触发 400 错误。

4. API 部署:OpenAI 兼容 + Anthropic 兼容

接口地址用途
OpenAI Formathttps://api.deepseek.comChat Completions、JSON Output、Tool Calls、FIM 等
Anthropic Formathttps://api.deepseek.com/anthropicClaude Code、OpenCode、Anthropic SDK 生态适配
curl https://api.deepseek.com/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $DEEPSEEK_API_KEY" \
  -d '{
    "model": "deepseek-v4-pro",
    "messages": [
      {"role": "system", "content": "You are a helpful assistant."},
      {"role": "user", "content": "分析这个需求并给出实施计划"}
    ],
    "thinking": {"type": "enabled"},
    "reasoning_effort": "high",
    "stream": false
  }'
迁移提醒:deepseek-chatdeepseek-reasoner 已变成兼容别名,当前分别路由到 V4-Flash 的非思考/思考模式;官方说明会在 2026-07-24 15:59 UTC 后退役。新系统应直接使用 deepseek-v4-flashdeepseek-v4-pro

5. Agent 与编程工具部署

V4 的发布重点之一是 Agentic Coding。官方文档已经给出 Claude Code 与 OpenCode 的接入示例,核心是走 Anthropic-compatible endpoint,并显式配置模型与 effort。

Claude Code

设置 ANTHROPIC_BASE_URL=https://api.deepseek.com/anthropic,模型用 deepseek-v4-pro;官方示例还设置 CLAUDE_CODE_EFFORT_LEVEL=max

OpenCode

使用 @ai-sdk/anthropic provider,baseURL 指向 DeepSeek Anthropic API;官方示例把 context 设为 1048576,output 设为 262144。

实战建议:代码补全、局部修改、普通对话先用 Flash;跨文件定位、长文档生成、仓库级重构、工具链反复调用时优先 Pro + max effort。

6. 本地与私有化部署

1. 选择权重:官方 Hugging Face collection 提供 Pro/Flash 的 Base 与 Instruct 四组权重。
2. 使用官方 inference 目录:Pro 仓库包含 inference/,其中有转换脚本、生成脚本、kernel 与模型实现。
3. 编码模板:本次发布没有 Jinja chat template,而是提供 encoding/ 目录用于 OpenAI-compatible 消息编码与输出解析。
4. 采样参数:官方建议本地部署使用 temperature=1.0top_p=1.0;Think Max 建议上下文至少 384K。

硬件边界:不要把“开源权重”理解成“单卡可跑”。Pro 权重文件体量约百 GB 级以上,且模型总参数 1.6T;真正生产部署通常需要多卡、多机或专门推理引擎适配。Flash 的门槛低很多,但仍属于大模型级部署。

7. 能力边界与兼容性坑

  • Preview 意味着接口和行为仍可能调整。生产系统要固定模型名、记录请求参数,并监控官方 changelog。
  • Anthropic API 不是 100% 等价。mcp_servers 会被忽略,image/document/search_result、MCP tool use/result 等内容块当前不支持。
  • 思考模式采样参数不生效。官方说明 thinking mode 不支持 temperaturetop_p、presence/frequency penalty;传入也不会报错,但没有效果。
  • FIM 只支持非思考模式。需要补全任务时不要同时打开 thinking。
  • 外部评测还需要时间。官方榜单能说明方向,但上线生产前仍要用自己的任务集验证延迟、成本、幻觉率和工具调用稳定性。