百度：渐进多令牌预测加速文档解析-尧图建网站

标题P-MTP: Efficient Document Parsing via Multi-Token Prediction with Progressive Depth Scaling来源arXiv, 2606.24447v1️文章简介研究问题如何解决视觉语言模型在文档解析任务中因自回归解码导致的推理延迟高及多令牌预测深层优化不稳定的问题主要贡献论文提出P-MTP框架通过渐进课程损失和置信度门控动态起草机制实现文档解析高达5倍加速且精度无损。重点思路采用轻量级串行共享MLP作为多令牌预测模块在单次前向传播中循环生成多个前瞻令牌平衡了建模能力与计算开销。设计渐进课程损失用于训练包含序列路径约束和回溯目标约束根据累积概率自适应加权抑制远距离预测的梯度噪声。利用上述动态权重机制实现从易到难的自动优化过渡使模型能稳定扩展至9层甚至更深的预测深度避免传统静态权重的局限。提出置信度门控动态起草策略用于推理依据实时累积联合概率自适应调整起草长度在高确信度时延长预测低确信度时及时截断。建立可靠性感知的阈值校准方法将推理置信度阈值与训练终端损失及预测深度关联确保推理行为与训练时的课程学习动态一致。分析总结在PubTabNet等基准测试中P-MTP在保持TEDS分数与基线持平的情况下实现了最高5.24倍的推理加速验证了深层前瞻预测的有效性。消融实验表明动态权重策略显著优于固定权重或静态衰减权重且序列约束与回溯约束的协同作用是提升接受率和加速比的关键。相比固定深度起草置信度门控动态起草在不同预测深度下均提升了平均接受长度有效减少了无效计算进一步推高了吞吐量。该方法具有良好的通用性与扩展性在InternVL、Qwen3-VL等不同基座模型及公式、表格、通用文档解析任务上均取得显著加速效果。模型规模缩放实验显示随着参数量增加方法的平均接受长度单调上升证明大模型更强的长程依赖捕获能力有利于多令牌预测。个人观点论文不同于以往依赖静态权重的做法设计了轨迹感知的动态损失权重将训练时的课程学习思想延伸至推理阶段通过置信度门控实现了“按需预测”。

相关新闻

第27篇：数据合规审计：从“承诺合规”到“证明合规”

第29篇：数据隐私增强技术：DISC安全底座的技术实现

NohBoard：重新定义键盘操作可视化的创新解决方案

最新新闻

【ESP32】ESP-IDF开发环境搭建(cursor)

从音频到文字：如何用Buzz轻松搞定会议记录、视频字幕和外语学习

vue学习笔记(持续更新)

Blender UV编辑终极指南：UvSquares插件一键重塑UV网格

GetQzonehistory：一键备份QQ空间全部历史说说的智能工具

Molecular Psychiatry：核磁共振数据证实了精神健康障碍的共同大脑特征

日新闻

3步彻底解决Windows右键菜单混乱问题：ContextMenuManager使用全攻略

通达OA SQL注入漏洞深度剖析：从手工注入到自动化利用与防御

MLT 2026启示：因果推理与概率建模驱动下一代LLM应用

周新闻

3步彻底解决Windows右键菜单混乱问题：ContextMenuManager使用全攻略

通达OA SQL注入漏洞深度剖析：从手工注入到自动化利用与防御

MLT 2026启示：因果推理与概率建模驱动下一代LLM应用

月新闻

FAE放射组学分析工具：医学影像特征探索的完整解决方案

基于Dify与DeepSeek构建私有知识库问答系统实战指南

餐饮老板必看：扫码点餐小程序3步搞定，别再让顾客干等了！