DeepSeek-V4: 迈向高效百万令牌上下文智能-尧图建网站

注意DeepSeek-V4-Pro-DSpark并非新模型而是在原有检查点基础上增加了推测解码模块的相同模型。最小推理示例可在inference文件夹中查看。详情请参考https://github.com/deepseek-ai/DeepSpec简介我们推出DeepSeek-V4系列的预览版本包含两款强大的混合专家MoE语言模型——DeepSeek-V4-Pro1.6万亿参数激活490亿参数和DeepSeek-V4-Flash2840亿参数激活130亿参数两者均支持百万级上下文长度。DeepSeek-V4系列在架构和优化方面进行了多项关键升级混合注意力架构设计了结合压缩稀疏注意力CSA和高度压缩注意力HCA的混合机制极大提升了长上下文效率。在百万token上下文场景下DeepSeek-V4-Pro的单token推理FLOPs仅需DeepSeek-V3.2的27%KV缓存仅需10%。流形约束超连接mHC通过mHC增强传统残差连接在保持模型表达力的同时提升跨层信号传播的稳定性。μ子优化器采用μ子优化器实现更快收敛和更高训练稳定性。两款模型均在超过32万亿多样化高质量token上进行预训练并经过完整的训练后流程。后训练采用两阶段范式先通过SFT和GRPO强化学习独立培养领域专家再通过策略蒸馏统一整合将跨领域能力融合至单一模型。DeepSeek-V4-Pro-Max作为DeepSeek-V4-Pro的最大推理效能模式显著提升了开源模型的知识能力稳居当前最佳开源模型地位。其在编程基准测试中表现顶尖并在推理和智能体任务上大幅缩小与闭源领先模型的差距。而DeepSeek-V4-Flash-Max在增加思考预算时可达到接近Pro版的推理性能但由于参数规模较小在纯知识任务和最复杂智能体工作流上略逊一筹。模型下载模型总参数量激活参数量上下文长度精度下载链接DeepSeek-V4-Flash-Base2840亿130亿100万FP8混合精度HuggingFace | ModelScopeDeepSeek-V4-Flash2840亿130亿100万FP4FP8混合精度*HuggingFace | ModelScopeDeepSeek-V4-Pro-Base1.6万亿490亿100万FP8混合精度HuggingFace | ModelScopeDeepSeek-V4-Pro1.6万亿490亿100万FP4FP8混合精度*HuggingFace | ModelScope*FP4FP8混合精度MoE专家参数采用FP4精度其他大部分参数采用FP8精度。评估结果基础模型测试集指标样本数DeepSeek-V3.2-BaseDeepSeek-V4-Flash-BaseDeepSeek-V4-Pro-Base架构-MoEMoEMoE激活参数量-370亿130亿490亿总参数量-6710亿2840亿1.6万亿世界知识AGIEval精确匹配0样本80.182.683.1MMLU精确匹配5样本87.888.790.1MMLU-Redux精确匹配5样本87.589.490.8MMLU-Pro精确匹配5样本65.568.373.5MMMLU精确匹配5样本87.988.890.3C-Eval精确匹配5样本90.492.193.1CMMLU精确匹配5样本88.990.490.8MultiLoKo精确匹配5样本38.742.251.1Simple-QA验证集精确匹配25样本28.330.155.2SuperGPQA精确匹配5样本45.046.553.9FACTS参数化精确匹配25样本27.133.962.6TriviaQA精确匹配5样本83.382.885.6语言与推理BBH精确匹配3样本87.686.987.5DROPF1值1样本88.288.688.7HellaSwag精确匹配0样本86.485.788.0WinoGrande精确匹配0样本78.979.581.5CLUEWSC精确匹配5样本83.582.285.2代码与数学BigCodeBench通过率13样本63.956.859.2HumanEval通过率10样本62.869.576.8GSM8K精确匹配8样本91.190.892.6MATH精确匹配4样本60.557.464.5MGSM精确匹配8样本81.385.784.4CMath精确匹配3样本92.693.690.9长文本理解LongBench-V2精确匹配1样本40.244.751.5指导模型DeepSeek-V4-Pro 和 DeepSeek-V4-Flash 均支持三种推理模式推理模式特点典型用例响应格式非思考模式快速、直观的响应日常任务、低风险决策/think总结高思考模式有意识的逻辑分析较慢但更准确复杂问题解决、规划think思考/think总结极限思考模式将推理能力发挥到极致探索模型推理能力边界特殊系统提示 think思考/think总结DeepSeek-V4-Pro-Max 与前沿模型对比基准测试指标Opus-4.6 MaxGPT-5.4 xHighGemini-3.1-Pro HighK2.6 ThinkingGLM-5.1 ThinkingDS-V4-Pro Max知识与推理MMLU-Pro (EM)89.187.591.087.186.087.5SimpleQA-Verified (Pass1)46.245.375.636.938.157.9Chinese-SimpleQA (Pass1)76.476.885.975.975.084.4GPQA Diamond (Pass1)91.393.094.390.586.290.1HLE (Pass1)40.039.844.436.434.737.7LiveCodeBench (Pass1)88.8-91.789.6-93.5Codeforces (Rating)-31683052--3206HMMT 2026 Feb (Pass1)96.297.794.792.789.495.2IMOAnswerBench (Pass1)75.391.481.086.083.889.8Apex (Pass1)34.554.160.924.011.538.3Apex Shortlist (Pass1)85.978.189.175.572.490.2长上下文MRCR 1M (MMR)92.9-76.3--83.5CorpusQA 1M (ACC)71.7-53.8--62.0代理能力Terminal Bench 2.0 (Acc)65.475.168.566.763.567.9SWE Verified (Resolved)80.8-80.680.2-80.6SWE Pro (Resolved)57.357.754.258.658.455.4SWE Multilingual (Resolved)77.5--76.773.376.2BrowseComp (Pass1)83.782.785.983.279.383.4HLE w/ tools (Pass1)53.152.051.654.050.448.2GDPval-AA (Elo)161916741314148215351554MCPAtlas Public (Pass1)73.867.269.266.671.873.6Toolathlon (Pass1)47.254.648.850.040.751.8模式间对比基准测试指标V4-Flash 非思考模式V4-Flash 高思考模式V4-Flash 极限模式V4-Pro 非思考模式V4-Pro 高思考模式V4-Pro 极限模式知识与推理MMLU-Pro (EM)83.086.486.282.987.187.5SimpleQA-Verified (Pass1)23.128.934.145.046.257.9Chinese-SimpleQA (Pass1)71.573.278.975.877.784.4GPQA Diamond (Pass1)71.287.488.172.989.190.1HLE (Pass1)8.129.434.87.734.537.7LiveCodeBench (Pass1)55.288.491.656.889.893.5Codeforces (Rating)-28163052-29193206HMMT 2026 Feb (Pass1)40.891.994.831.794.095.2IMOAnswerBench (Pass1)41.985.188.435.388.089.8Apex (Pass1)1.019.133.00.427.438.3Apex Shortlist (Pass1)9.372.185.79.285.590.2长上下文MRCR 1M (MMR)37.576.978.744.783.383.5CorpusQA 1M (ACC)15.559.360.535.656.562.0代理能力Terminal Bench 2.0 (Acc)49.156.656.959.163.367.9SWE Verified (Resolved)73.778.679.073.679.480.6SWE Pro (Resolved)49.152.352.652.154.455.4SWE Multilingual (Resolved)69.770.273.369.874.176.2BrowseComp (Pass1)-53.573.2-80.483.4HLE w/ tools (Pass1)-40.345.1-44.748.2MCPAtlas (Pass1)64.067.469.069.474.273.6GDPval-AA (Elo)--1395--1554Toolathlon (Pass1)40.743.547.846.349.051.8对话模板本次发布未提供 Jinja 格式的对话模板而是提供了一个专用的encoding文件夹其中包含 Python 脚本和测试用例演示如何将 OpenAI 兼容格式的消息编码为模型的输入字符串以及如何解析模型的文本输出。完整文档请参考encoding文件夹。简要示例fromencoding_dsv4importencode_messages,parse_message_from_completion_text messages[{role:user,content:hello},{role:assistant,content:Hello! I am DeepSeek.,reasoning_content:thinking...},{role:user,content:11?}]# messages - stringpromptencode_messages(messages,thinking_modethinking)# string - tokensimporttransformers tokenizertransformers.AutoTokenizer.from_pretrained(deepseek-ai/DeepSeek-V4-Pro)tokenstokenizer.encode(prompt)本地运行指南请参阅 inference 文件夹获取在本地运行DeepSeek-V4的详细说明包括模型权重转换和交互式聊天演示。对于本地部署我们建议将采样参数设置为temperature 1.0, top_p 1.0。对于Think Max推理模式我们建议将上下文窗口设置为至少384Ktokens。许可证本代码库及模型权重采用 MIT许可证授权。联系我们如有任何疑问请提交问题或通过servicedeepseek.com与我们联系。

相关新闻

应急响应实战：从Webshell发现到攻击溯源的完整流程解析

AI 赋能自动语音诈骗全链路检测与 STIR/SHAKEN 协同防御研究

CASA项目实战：构建企业级证书颁发机构态势感知系统

最新新闻

基于Si4731与PIC32MZ的DIY数字收音机开发指南

百度网盘下载链接解析实战：Python工具实现高速下载完全指南

基于Si4731与PIC18LF45K80的DIY数字收音机设计

解放明日方舟日常任务：MAA自动化助手完全指南

witty中文分词优化技巧：C语言扩展如何提升中文AI知识检索精度

基于Si4731与PIC18F87K22的DIY数字收音机开发指南

日新闻

Selenium元素定位全解析：从八大方法到实战策略

BurpSuite Cluster Bomb模式深度避坑指南：从原理到实战的完整爆破策略

UnblockNeteaseMusic终极教程：3分钟解锁网易云音乐灰色歌曲的完整方案

周新闻

管理者的六个层次

华为OD机试2025C卷-座位调整[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

CrabCode v1.0.7与v1.0.8 更新速览！

月新闻

FAE放射组学分析工具：医学影像特征探索的完整解决方案

基于Dify与DeepSeek构建私有知识库问答系统实战指南

餐饮老板必看：扫码点餐小程序3步搞定，别再让顾客干等了！