百度:渐进多令牌预测加速文档解析
标题P-MTP: Efficient Document Parsing via Multi-Token Prediction with Progressive Depth Scaling来源arXiv, 2606.24447v1️文章简介研究问题如何解决视觉语言模型在文档解析任务中因自回归解码导致的推理延迟高及多令牌预测深层优化不稳定的问题主要贡献论文提出P-MTP框架通过渐进课程损失和置信度门控动态起草机制实现文档解析高达5倍加速且精度无损。重点思路采用轻量级串行共享MLP作为多令牌预测模块在单次前向传播中循环生成多个前瞻令牌平衡了建模能力与计算开销。设计渐进课程损失用于训练包含序列路径约束和回溯目标约束根据累积概率自适应加权抑制远距离预测的梯度噪声。利用上述动态权重机制实现从易到难的自动优化过渡使模型能稳定扩展至9层甚至更深的预测深度避免传统静态权重的局限。提出置信度门控动态起草策略用于推理依据实时累积联合概率自适应调整起草长度在高确信度时延长预测低确信度时及时截断。建立可靠性感知的阈值校准方法将推理置信度阈值与训练终端损失及预测深度关联确保推理行为与训练时的课程学习动态一致。分析总结在PubTabNet等基准测试中P-MTP在保持TEDS分数与基线持平的情况下实现了最高5.24倍的推理加速验证了深层前瞻预测的有效性。消融实验表明动态权重策略显著优于固定权重或静态衰减权重且序列约束与回溯约束的协同作用是提升接受率和加速比的关键。相比固定深度起草置信度门控动态起草在不同预测深度下均提升了平均接受长度有效减少了无效计算进一步推高了吞吐量。该方法具有良好的通用性与扩展性在InternVL、Qwen3-VL等不同基座模型及公式、表格、通用文档解析任务上均取得显著加速效果。模型规模缩放实验显示随着参数量增加方法的平均接受长度单调上升证明大模型更强的长程依赖捕获能力有利于多令牌预测。个人观点论文不同于以往依赖静态权重的做法设计了轨迹感知的动态损失权重将训练时的课程学习思想延伸至推理阶段通过置信度门控实现了“按需预测”。