🔷 DeepSeek V4 技术档案

基于 DeepSeek 2026-04-24 官方 Preview Release、API 文档与 Hugging Face 模型卡整理：架构、模型规格、推理模式、API 接入、Agent 集成与本地部署边界。

0. 结论先行：这是 Preview Release，不是最终版

发布时间 2026-04-24

官方新闻页标题为 DeepSeek V4 Preview Release。

发布状态 API + 开源权重

官方称 V4 Preview 已上线并同步开源。

模型路线 V4-Pro / V4-Flash

Pro 主打能力上限，Flash 主打速度与成本。

上下文 1M tokens

官方服务默认进入百万上下文时代。

真实性边界：下文只引用官方 API 文档、官方 Hugging Face 模型卡与 Hugging Face 官方技术博客中的可核验信息；第三方跑分和价格转述仅作为观察，不写入核心结论。

1. 模型矩阵与规格

项目	DeepSeek-V4-Pro	DeepSeek-V4-Flash
定位	旗舰能力版，面向复杂推理、代码、Agent 与长上下文任务	高性价比版，面向高吞吐、常规对话、简单 Agent 与经济型部署
总参数 / 激活参数	1.6T / 49B activated	284B / 13B activated
架构	MoE + 混合注意力 + mHC	同系列 MoE 架构，规模更小
上下文长度	1M tokens	1M tokens
最大输出	官方 API 标注最大 384K	官方 API 标注最大 384K
开源权重	Base + Instruct，MIT License	Base + Instruct，MIT License
精度	Base 为 FP8 Mixed；Instruct 为 FP4 + FP8 Mixed	Base 为 FP8 Mixed；Instruct 为 FP4 + FP8 Mixed

怎么选：默认从 deepseek-v4-flash 起步；只有当任务需要更强知识、复杂代码修复、长链 Agent 或高难推理时，再切换 deepseek-v4-pro。

2. 架构：V4 的核心不是单纯变大，而是让 1M 上下文可用

MoE 主干

V4 仍走 Mixture-of-Experts 路线：总参数很大，但每个 token 只激活一部分专家，从而把容量与推理成本拆开。

CSA

Compressed Sparse Attention 先在序列维度压缩 KV，再进行稀疏选择，用于降低长上下文 attention 成本。

HCA

Heavily Compressed Attention 做更重压缩，在短得多的压缩流上做 dense attention，补足全局信息通路。

mHC

Manifold-Constrained Hyper-Connections 用来强化传统 residual connection，提升深层信号传播稳定性。

Muon

训练侧采用 Muon optimizer，官方模型卡将其归为更快收敛与更稳定训练的关键升级之一。

后训练

先分别培养领域专家：SFT + GRPO 强化学习；再通过 on-policy distillation 合并能力到统一模型。

发布口径合并理解：
官方新闻页称为 token-wise compression + DSA；模型卡进一步展开为 CSA + HCA 的混合注意力。两种说法指向同一个目标：降低百万上下文下的 FLOPs 与 KV cache 压力。

3. 推理模式：Non-think / Think High / Think Max

模式	适用场景	API 控制	注意点
Non-think	普通问答、摘要、低风险抽取、低延迟任务	`thinking.type=disabled`	可使用常规采样参数
Think High	多步推理、规划、代码解释、复杂问答	`thinking.type=enabled` + `reasoning_effort=high`	思考模式默认 effort 为 high
Think Max	困难 Agent、代码库分析、复杂修复、长链工具调用	`reasoning_effort=max`	本地部署建议上下文至少 384K；部分 Agent 请求会自动转 max

开发细节：思考模式会返回 reasoning_content 与最终 content。如果中途发生工具调用，后续请求必须把本轮 reasoning_content 一并带回，否则可能触发 400 错误。

4. API 部署：OpenAI 兼容 + Anthropic 兼容

接口	地址	用途
OpenAI Format	`https://api.deepseek.com`	Chat Completions、JSON Output、Tool Calls、FIM 等
Anthropic Format	`https://api.deepseek.com/anthropic`	Claude Code、OpenCode、Anthropic SDK 生态适配

curl https://api.deepseek.com/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $DEEPSEEK_API_KEY" \
  -d '{
    "model": "deepseek-v4-pro",
    "messages": [
      {"role": "system", "content": "You are a helpful assistant."},
      {"role": "user", "content": "分析这个需求并给出实施计划"}
    ],
    "thinking": {"type": "enabled"},
    "reasoning_effort": "high",
    "stream": false
  }'

迁移提醒：deepseek-chat 与 deepseek-reasoner 已变成兼容别名，当前分别路由到 V4-Flash 的非思考/思考模式；官方说明会在 2026-07-24 15:59 UTC 后退役。新系统应直接使用 deepseek-v4-flash 或 deepseek-v4-pro。

5. Agent 与编程工具部署

V4 的发布重点之一是 Agentic Coding。官方文档已经给出 Claude Code 与 OpenCode 的接入示例，核心是走 Anthropic-compatible endpoint，并显式配置模型与 effort。

Claude Code

设置 ANTHROPIC_BASE_URL=https://api.deepseek.com/anthropic，模型用 deepseek-v4-pro；官方示例还设置 CLAUDE_CODE_EFFORT_LEVEL=max。

OpenCode

使用 @ai-sdk/anthropic provider，baseURL 指向 DeepSeek Anthropic API；官方示例把 context 设为 1048576，output 设为 262144。

实战建议：代码补全、局部修改、普通对话先用 Flash；跨文件定位、长文档生成、仓库级重构、工具链反复调用时优先 Pro + max effort。

6. 本地与私有化部署

1. 选择权重：官方 Hugging Face collection 提供 Pro/Flash 的 Base 与 Instruct 四组权重。

↓

2. 使用官方 inference 目录：Pro 仓库包含 inference/，其中有转换脚本、生成脚本、kernel 与模型实现。

↓

3. 编码模板：本次发布没有 Jinja chat template，而是提供 encoding/ 目录用于 OpenAI-compatible 消息编码与输出解析。

↓

4. 采样参数：官方建议本地部署使用 temperature=1.0、top_p=1.0；Think Max 建议上下文至少 384K。

硬件边界：不要把“开源权重”理解成“单卡可跑”。Pro 权重文件体量约百 GB 级以上，且模型总参数 1.6T；真正生产部署通常需要多卡、多机或专门推理引擎适配。Flash 的门槛低很多，但仍属于大模型级部署。

7. 能力边界与兼容性坑

Preview 意味着接口和行为仍可能调整。生产系统要固定模型名、记录请求参数，并监控官方 changelog。
Anthropic API 不是 100% 等价。mcp_servers 会被忽略，image/document/search_result、MCP tool use/result 等内容块当前不支持。
思考模式采样参数不生效。官方说明 thinking mode 不支持 temperature、top_p、presence/frequency penalty；传入也不会报错，但没有效果。
FIM 只支持非思考模式。需要补全任务时不要同时打开 thinking。
外部评测还需要时间。官方榜单能说明方向，但上线生产前仍要用自己的任务集验证延迟、成本、幻觉率和工具调用稳定性。

8. 官方来源

DeepSeek V4 Preview Release · 2026-04-24 DeepSeek API Docs · Your First API Call Models & Pricing Thinking Mode Integrate with Coding Agents DeepSeek-V4-Pro Model Card Hugging Face Blog · DeepSeek-V4