如果你对OCR的印象还停留在“拍一页识别一页翻一页再来一页”Unlimited-OCR的出现会让这条赛道的重点发生变化。它真正吸引人的地方不是把单页识别再卷高一点而是把多页长文档的一次性解析推到更接近“连续阅读”的层面。过去的 OCR 工具常常像流水线先切页、再识别、再拼接遇到长 PDF、教材、研报、论文、表格混排材料时后处理成本很快就会冒出来。Unlimited-OCR 想解决的正是这个痛点让模型一次看完整份材料并尽量从第一页稳定读到最后一页。聚一口气读几十页告别单页孤岛Unlimited-OCR 的核心是One-shot Long-horizon Parsing也就是一次性长程解析。它不再把一份文档天然拆成很多彼此孤立的小任务而是希望像人读材料一样保持连续状态把多页内容放进同一次处理流程里。这类能力对真实场景非常关键。单页 OCR 做得再好遇到几十页报告时仍然会被页间顺序、上下文衔接、表格跨页、图片说明和段落连续性拖住。Unlimited-OCR 把“整份文档能不能稳定读完”放到模型能力中心使 OCR 从“识别工具”更接近“文档入口”。Unlimited-OCR 整体架构与类人工作记忆示意模拟人脑工作记忆长文处理不卡顿Unlimited-OCR 的设计灵感很直观人抄书时不会反复回看自己已经写过的全部内容而是始终盯着原文同时保留刚刚写下的一小段上下文。远处内容逐渐淡出近处信息保持清晰这种“工作记忆”让长时间转写不会越来越沉重。模型中的 R-SWA就是在模拟这种节奏。它让生成中的每个token都能看到完整参考内容同时只关注最近一段输出上下文。这样做的好处是文档越长系统不必背着全部历史输出继续前进KV cache 不会随着生成长度无限膨胀速度和显存压力也更容易被控制住。它不是更会死记硬背而是更会保持方向感。对于长文档OCR来说这一点比单纯堆上下文更重要。R-SWA 与普通注意力的对比示意高精度交付所见即所得长文档能力如果只停留在“能跑很长”并不能真正说服用户。Unlimited-OCR更值得关注的地方是它在文档解析指标上同样给出了强结果在OmniDocBench v1.5上整体分数达到93.23相比DeepSeek-OCR基线提升6.22在 v1.6 上达到93.92继续保持第一梯队表现。这意味着它不是牺牲识别质量换取长输出而是在文本、公式、表格结构、阅读顺序等文档关键环节上同步推进。对内容团队、知识库团队和企业文档场景来说这种“交付感”比单一指标更重要。长篇 PDF、白皮书、研报、招股书等连续文档论文、教材、讲义、试卷等图文混排资料需要批量转 Markdown、纯文本或知识库素材的整理链路需要保留阅读顺序、表格结构和公式信息的归档场景OmniDocBench v1.5/v1.6结果对比表从“识字”到“读资料”重塑工作流Unlimited-OCR 的想象空间不只在 OCR 本身。它是让模型在长程解析任务中保持稳定记忆、持续输出和较低资源压力。这种能力未来也可能迁移到语音转写、长文本翻译等需要“参考内容 连续输出”的任务里。对实际工作流来说OCR 过去常被当成第一步小工具把图片里的字拿出来任务就结束了。但现在OCR 更像一个入口它把纸面世界、扫描件和长 PDF 拉进可搜索、可编辑、可总结、可入库的数字链路。内容生产旧资料、长报告、PDF 文章可以更快进入二次编辑流程知识库建设扫描件和长文档更容易沉淀为可检索素材企业文档制度、合同、手册、档案的电子化成本有机会下降教育科研教材、论文、试卷、讲义的整理效率会更接近批量化处理当然“Unlimited”并不等于在有限上下文下真正无限。它更准确的意义是把 OCR 从短任务推进到长程任务让模型在几十页级别的文档里仍然尽量保持节奏。过去大家比的是“能不能识别”现在开始比的是“能不能连续、稳定、像人一样读完整份资料”。解码时延曲线社区地址OpenCSG社区https://opencsg.com/models/baidu/Unlimited-OCRHugging Face社区https://huggingface.co/baidu/Unlimited-OCR关于OpenCSGOpenCSG是全球领先的开源大模型社区平台致力于打造开放、协同、可持续生态AgenticOps是人工智能领域的一种AI原生方法论由OpenCSG开放传神提出。AgenticOps是Agentic AI的最佳落地实践也是方法论。核心产品 CSGHub 提供模型、数据集、代码与 AI 应用的 一站式托管、协作与共享服务具备业界领先的模型资产管理能力支持多角色协同和高效复用。