Deepseek融资5000亿后首推DSpark框架,高并发下大模型响应速度显著提升!
【导语近日Deepseek团队在GitHub上线论文提出DSpark框架解决大模型高并发下响应速度问题。该框架由北大和Deepseek联合出品开源代码和权重测试效果显著虽有局限但传递出竞争新信号。】DSpark框架解决高并发难题Deepseek团队发布的论文聚焦大模型在高并发下保持响应速度这一真实生产问题。提出的DSpark框架由北京大学和DeepSeek联合出品训练代码和模型权重全在GitHub的DeepSpec仓库。其论文《DSpark: Confidence-Scheduled Speculative Decoding with Semi - Autoregressive Generation》于6月27日发布。突破现有推测解码缺陷推测解码并非新概念但现有实现存在明显缺陷一是草稿模型生成到后面token存活率下降二是验证环节算力分配一刀切。DSpark给出针对性解法半自回归生成让并行主干网络输出候选token基础特征轻量顺序模块逐token补充依赖关系2层结构比5层传统并行模型候选序列有效生成长度还长。置信度调度验证则根据实时算力负载和前缀存活概率动态决定每个请求验证的序列长度优先验证高质量候选截断大概率被拒的token。测试效果全面领先竞品在离线基准测试中DSpark全面领先Eagle3和DFlash。以Qwen3 - 4B为例单轮有效生成长度比Eagle3高出30.9%比DFlash高出16.3%。线上A/B测试更具说服力V4 - Flash在80 token/s的SLA条件下吞吐量提升51%SLA拉紧到120 token/s时吞吐量提升661%V4 - Pro在35 token/s下提升52%50 token/s下提升406%。同时单用户生成速度改善60%到85%在API产品里意味着等待时间几乎减半。局限与竞争新信号论文也指出DSpark的局限在复杂低适配查询场景下完整候选块生成有固定算力开销且无法回收。不过DeepSeek刚完成首轮融资投后估值5000亿融资后首周放出合作论文和开源代码传递出想将模型推理效率赛道从产品竞争变为基础设施竞争的信号。编辑观点DSpark框架为大模型高并发响应问题提供有效解决方案开源策略有望推动行业发展但局限也需后续优化。