【导语DeepSeek V4进行更新推出投机解码框架DSpark并开源全栈推测性解码框架DeepSpec。DSpark加速大语言模型推理解决生产环境瓶颈DeepSpec整合工程实践提供标准化工具链。】DSpark加速大语言模型推理的新框架DeepSeek-V4-Pro-DSpark在DeepSeek-V4-Pro基础上引入推测性解码模块重点在于工程落地。DSpark已部署在DeepSeek-V4真实线上流量中大幅加速大语言模型推理速度。其核心初衷是解决生产环境中LLM推理的延迟和吞吐量瓶颈将高吞吐量的「并行生成」与自适应的「负载感知验证」结合。创新架构与调度机制DSpark引入半自回归生成架构保留并行草稿模型高吞吐优势加入轻量级串行模块缓解接受率衰减问题。还采用硬件感知的置信度调度验证引入置信度头评估Token存活概率动态定制验证长度。调度器采用异步机制兼容零开销调度和连续的CUDA图回放利用历史预测决定动态截断长度隐藏调度延迟保证目标模型输出分布无损还原。性能超越竞品在多个领域测试中DSpark大幅超越目前最先进的自回归模型Eagle3和并行草稿模型DFlash。在Qwen3系列目标模型上平均接受长度比Eagle3提升26.7%到30.9%比DFlash提升16.3%到18.4%。相比于前一代部署的单Token生产基准在维持相同总体吞吐量的情况下DSpark将用户的生成速度分别提升了60%-85%Flash模型和57%-78%Pro模型。DeepSpec开源全栈代码库随DSpark一同开源的DeepSpec是用于训练和评估推测性解码草稿模型的全栈代码库将整体流程拆分为数据准备、训练和评估三个阶段。数据准备阶段需下载提示词数据、重新生成答案并构建目标缓存训练阶段可通过脚本启动支持多种配置调整评估阶段通过脚本在多个基准任务上衡量接受情况。DeepSpec内置三种草稿模型支持Qwen3和Gemma目标模型系列将推测性解码工程实践整合为可复现、可扩展的标准化工具链。编辑观点DeepSeek V4的更新为大语言模型推理带来显著提升DSpark和DeepSpec的结合有望推动行业发展降低研发门槛加速大模型应用落地。