0. 结论先行:这是 Preview Release,不是最终版
官方新闻页标题为 DeepSeek V4 Preview Release。
官方称 V4 Preview 已上线并同步开源。
Pro 主打能力上限,Flash 主打速度与成本。
官方服务默认进入百万上下文时代。
真实性边界:下文只引用官方 API 文档、官方 Hugging Face 模型卡与 Hugging Face 官方技术博客中的可核验信息;第三方跑分和价格转述仅作为观察,不写入核心结论。
1. 模型矩阵与规格
| 项目 | DeepSeek-V4-Pro | DeepSeek-V4-Flash |
|---|---|---|
| 定位 | 旗舰能力版,面向复杂推理、代码、Agent 与长上下文任务 | 高性价比版,面向高吞吐、常规对话、简单 Agent 与经济型部署 |
| 总参数 / 激活参数 | 1.6T / 49B activated | 284B / 13B activated |
| 架构 | MoE + 混合注意力 + mHC | 同系列 MoE 架构,规模更小 |
| 上下文长度 | 1M tokens | 1M tokens |
| 最大输出 | 官方 API 标注最大 384K | 官方 API 标注最大 384K |
| 开源权重 | Base + Instruct,MIT License | Base + Instruct,MIT License |
| 精度 | Base 为 FP8 Mixed;Instruct 为 FP4 + FP8 Mixed | Base 为 FP8 Mixed;Instruct 为 FP4 + FP8 Mixed |
怎么选:默认从 deepseek-v4-flash 起步;只有当任务需要更强知识、复杂代码修复、长链 Agent 或高难推理时,再切换 deepseek-v4-pro。
2. 架构:V4 的核心不是单纯变大,而是让 1M 上下文可用
MoE 主干
V4 仍走 Mixture-of-Experts 路线:总参数很大,但每个 token 只激活一部分专家,从而把容量与推理成本拆开。
CSA
Compressed Sparse Attention 先在序列维度压缩 KV,再进行稀疏选择,用于降低长上下文 attention 成本。
HCA
Heavily Compressed Attention 做更重压缩,在短得多的压缩流上做 dense attention,补足全局信息通路。
mHC
Manifold-Constrained Hyper-Connections 用来强化传统 residual connection,提升深层信号传播稳定性。
Muon
训练侧采用 Muon optimizer,官方模型卡将其归为更快收敛与更稳定训练的关键升级之一。
后训练
先分别培养领域专家:SFT + GRPO 强化学习;再通过 on-policy distillation 合并能力到统一模型。
官方新闻页称为 token-wise compression + DSA;模型卡进一步展开为 CSA + HCA 的混合注意力。两种说法指向同一个目标:降低百万上下文下的 FLOPs 与 KV cache 压力。
3. 推理模式:Non-think / Think High / Think Max
| 模式 | 适用场景 | API 控制 | 注意点 |
|---|---|---|---|
| Non-think | 普通问答、摘要、低风险抽取、低延迟任务 | thinking.type=disabled | 可使用常规采样参数 |
| Think High | 多步推理、规划、代码解释、复杂问答 | thinking.type=enabled + reasoning_effort=high | 思考模式默认 effort 为 high |
| Think Max | 困难 Agent、代码库分析、复杂修复、长链工具调用 | reasoning_effort=max | 本地部署建议上下文至少 384K;部分 Agent 请求会自动转 max |
开发细节:思考模式会返回 reasoning_content 与最终 content。如果中途发生工具调用,后续请求必须把本轮 reasoning_content 一并带回,否则可能触发 400 错误。
4. API 部署:OpenAI 兼容 + Anthropic 兼容
| 接口 | 地址 | 用途 |
|---|---|---|
| OpenAI Format | https://api.deepseek.com | Chat Completions、JSON Output、Tool Calls、FIM 等 |
| Anthropic Format | https://api.deepseek.com/anthropic | Claude Code、OpenCode、Anthropic SDK 生态适配 |
curl https://api.deepseek.com/chat/completions \
-H "Content-Type: application/json" \
-H "Authorization: Bearer $DEEPSEEK_API_KEY" \
-d '{
"model": "deepseek-v4-pro",
"messages": [
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "分析这个需求并给出实施计划"}
],
"thinking": {"type": "enabled"},
"reasoning_effort": "high",
"stream": false
}' deepseek-chat 与 deepseek-reasoner 已变成兼容别名,当前分别路由到 V4-Flash 的非思考/思考模式;官方说明会在 2026-07-24 15:59 UTC 后退役。新系统应直接使用 deepseek-v4-flash 或 deepseek-v4-pro。5. Agent 与编程工具部署
V4 的发布重点之一是 Agentic Coding。官方文档已经给出 Claude Code 与 OpenCode 的接入示例,核心是走 Anthropic-compatible endpoint,并显式配置模型与 effort。
Claude Code
设置 ANTHROPIC_BASE_URL=https://api.deepseek.com/anthropic,模型用 deepseek-v4-pro;官方示例还设置 CLAUDE_CODE_EFFORT_LEVEL=max。
OpenCode
使用 @ai-sdk/anthropic provider,baseURL 指向 DeepSeek Anthropic API;官方示例把 context 设为 1048576,output 设为 262144。
实战建议:代码补全、局部修改、普通对话先用 Flash;跨文件定位、长文档生成、仓库级重构、工具链反复调用时优先 Pro + max effort。
6. 本地与私有化部署
inference/,其中有转换脚本、生成脚本、kernel 与模型实现。encoding/ 目录用于 OpenAI-compatible 消息编码与输出解析。temperature=1.0、top_p=1.0;Think Max 建议上下文至少 384K。硬件边界:不要把“开源权重”理解成“单卡可跑”。Pro 权重文件体量约百 GB 级以上,且模型总参数 1.6T;真正生产部署通常需要多卡、多机或专门推理引擎适配。Flash 的门槛低很多,但仍属于大模型级部署。
7. 能力边界与兼容性坑
- Preview 意味着接口和行为仍可能调整。生产系统要固定模型名、记录请求参数,并监控官方 changelog。
- Anthropic API 不是 100% 等价。
mcp_servers会被忽略,image/document/search_result、MCP tool use/result 等内容块当前不支持。 - 思考模式采样参数不生效。官方说明 thinking mode 不支持
temperature、top_p、presence/frequency penalty;传入也不会报错,但没有效果。 - FIM 只支持非思考模式。需要补全任务时不要同时打开 thinking。
- 外部评测还需要时间。官方榜单能说明方向,但上线生产前仍要用自己的任务集验证延迟、成本、幻觉率和工具调用稳定性。