StreamingThinker: Large Language Models Can Think While Reading
论文核心总结与翻译主要内容文章针对大语言模型(LLMs)传统批量推理范式的 latency 高、早期信息注意力稀释等问题,受人类“边读边想”认知模式启发,提出流式推理范式(streaming thinking paradigm)。该范式让模型在接收输入的同时逐步展开推理,完整接收输入后可调整推理深度,并用 StreamingThinker 框架实现这一范式——整合流式思维链(CoT)生成、流式约束训练和并行推理三大核心模块。在数学推理、逻辑推理、上下文问答等任务上的实验表明,StreamingThinker 能保持与批量推理相当的性能,同时推理启动前的令牌等待减少 80%,最终答案的时间延迟降低超 60%。创新点首次提出流式推理范式,模拟人类认知过程,让 LLMs 在动态场景中实现及时、连续的推理。设计流式 CoT 生成流水线,通过边界令牌插入、教师模型重构、质量评估等机制,确保推理与输入顺序对齐。提出适配流式范式的训练与推理框架:训练阶段用流式注意力掩码和独立位置编码保证顺序一致性;推理阶段用并行 KV 缓存解耦输入编码与推理生成,实现真正的“边读边想”。支持可控推理深度(直接回答、全局整合、全局整合+自反思),可根据任务复杂度灵活调整,平衡 latency 与性能。翻译部分Abstract(摘要)大语言模型(LLMs