上海人工智能实验室新论文:不换模型也能变强?MinerU2.5-Pro 把答案藏在样本里
论文PDF链接https://arxiv.org/pdf/2604.04771做过 RAG、知识库或者 OCR 项目的人大概率都有类似体验模型能力看起来很强但一碰到复杂 PDF 就开始出问题。表格识别错位、公式丢失、跨页内容断裂、阅读顺序混乱……很多时候你以为问题出在模型上最后发现真正卡住系统的往往是文档解析这一环。于是正常思路一直都是模型不够强那就换更强的模型。但 MinerU2.5-Pro 想回答的却是另一个问题如果模型不换仅靠数据和训练流程还能挖出多少性能潜力这也是这篇论文最有意思的地方它真正想回答的问题是如果模型架构基本不变只靠数据工程和训练策略还能不能继续把文档解析往上推这句话听起来有点技术味但它背后其实是很多人都踩过的坑。你做 RAG做知识库做企业文档问答第一步经常就是把 PDF 丢进去。看起来挺简单。PDF 里有字模型需要字那把字拿出来不就完了吗。但真的做过就知道麻烦从来不只是字。表格顺序乱了公式断了两栏论文被揉成一栏图注和图片分家跨页结构丢掉页眉页脚混进正文。到头来模型回答得一本正经但它读到的其实是一堆坏掉的结构。这一下就很尴尬。更尴尬的是这不一定是某一个工具没做好。MinerU2.5-Pro 论文里最重要的入口之一就是很多 SOTA 文档解析模型会在同一批复杂样本上出现相似失败。也就是说难点可能不是「换一个模型就好了」。难点是这些样本本身没有被训练数据、标注流程和评测体系很好地处理。复杂样本不是普通难题很多时候我们说一个样本难意思很模糊。比如扫描质量差表格复杂公式密集版式奇怪。这个当然也叫难。但在 MinerU2.5-Pro 这篇论文里复杂样本 更关键的地方在于它们会让多个强模型一起不稳定。这就变成了另一件事。如果只是一个模型错了我们可以说它能力不够或者这个架构不适合。如果一批不同模型都在同类样本上栽那问题就不只是模型本身了。它可能说明训练数据没有覆盖这些长尾场景样本难度没有被准确识别自动标注在困难样本上不够可靠甚至 基准测试 本身也没有把差距量出来。这就是这一篇论文的反常规MinerU2.5-Pro 并不是先宣布「我换了一个更大的模型」。相反论文强调它保持 MinerU2.5 的 1.2B 参数架构不变核心改进来自数据工程和训练策略。这点很有意思。在大模型叙事里我们太习惯把进步归因于更大的参数、更长的上下文、更强的 backbone。但这篇论文提醒你模型架构到了一定阶段以后继续往上推可能要回到一个更笨也更硬的地方数据到底从哪里来、难样本到底怎么找、标注到底靠不靠谱。Data Engine 的三个问题论文把这套东西叫Data Engine「数据引擎」。这类词很容易变成包装词听上去很完整读完不知道做了什么。但 MinerU2.5-Pro 这说的比较清楚。它把问题拆成三个维度coverage覆盖范围、informativeness信息含量、annotation accuracy注释准确性。翻成人话就是三件事数据够不够广、样本有没有训练价值、标注靠不靠谱。这三个问题看起来朴素但它们刚好对应文档解析里最要命的矛盾。数据不够广模型就见不到真实世界里那些怪版式、复杂表格、密集公式和长尾文档。样本没有训练价值大量 简单样本 会占掉训练资源看起来数据量很大实际对能力边界没什么帮助。标注不靠谱越难的样本越容易被错误伪标注污染到头来模型学到的不是能力而是噪声。所以 Data Engine 不是简单把数据从低于 10M 扩到 65.5M。扩数据只是第一步。真正关键的是扩出来的数据能不能覆盖长尾能不能把高价值样本挑出来能不能把困难样本标得足够可靠。三个缩写其实是在做三件很朴素的事论文里有三个核心组件DDAS、CMCV、Judge-and-Refine。DDAS 做的是采样(Diversity-and-Difficulty-Aware Sampling|多样性与难度感知采样)。它不只是从 PDF 池里随机捞样本而是同时考虑多样性和难度。文档解析最怕的就是训练集看起来很大但里面充满相似页面模型在常规样本上很熟一碰到长尾版式就掉线。DDAS 的价值就是让数据覆盖更广也让困难程度更有层次。CMCV 做的是难度判断和一致性验证(Cross-Model Consistency Verification|跨模型一致性验证)。很简单让多个异构模型去处理同一个样本看它们的输出是否一致。如果几个模型都很一致这个样本可能比较容易或者伪标注更可信。如果模型之间分歧很大这个样本就可能更难也更有训练价值。它不是让一个模型闭门造车地说「我觉得我不确定」。它是让不同模型之间互相照镜子。文本、公式、表格这些任务可以用不同指标去比较一致性再把样本分成 简单、中等、复杂。Judge-and-Refine 解决的是最麻烦的部分复杂样本的标注质量。越有训练价值的样本往往越难自动标对。这个悖论很真实。简单样本很好标但模型早就会了。困难样本最该学但也最容易被错误标注带偏。所以论文用了render-then-verify先渲染再验证的思路。简单说就是把生成的结构再渲染回去和原始图像做比较判断哪里错了再定位错误原因并修正。剩下那些自动流程仍然不确定、但价值又高的样本再交给专家标注。你看三件事连起来就成了一整套把训练数据从「越多越好」推进到「越有用越好」的流程先找到更广、更有难度层次的数据再用多模型一致性判断哪些样本更有价值、哪些伪标注更可信再把最难、最值得学的样本认真修掉。数据终究要变成能力讲到这里大家会自然问一句这些数据被找出来、分出来、修出来以后模型到底怎么用论文的回答是三阶段训练。第一阶段用大规模自动标注数据做预训练目标是建立广覆盖的基础能力。这个阶段吃的是 Data Engine 产出的海量数据规模从低于 10M 扩到 65.5M samples/pages 量级。它不是为了把每个复杂样本都处理到极致而是先让模型见过足够多的文档形态。第二阶段用 192K 专家注释的 复杂样本 做高质量监督微调。这个阶段就开始补短板了。前面通过 CMCV 和 Judge-and-Refine 找出来、修出来的困难样本在这里变成模型专门攻克能力边界的材料。第三阶段用 GRPO 去对齐任务级指标比如 edit distance、CDM、TEDS 这些和文档解析结果直接相关的指标。这几个指标不需要都背你只要抓住一个意思训练不只是让模型输出看起来像答案而是让它往文档解析真正关心的目标上靠比如文本编辑距离、公式识别、表格结构。这篇论文把数据质量分层、训练阶段和评测指标的一整套流程串起来了。广覆盖数据负责打底专家注释的 复杂样本 负责补能力边界GRPO 负责把模型往任务指标上推。这条链路一旦成立Data Engine 就不是口号而是训练系统的一部分。分数要看但别只看分数当然还是要看结果。论文里最容易传播的数字是 MinerU2.5-Pro 在 OmniDocBench v1.6 Full 上总分 95.69。对比 MinerU2.5 baseline 的 92.98提升是 2.71。但这篇论文更有价值的证据链不是它第一而是「每一步数据工程和训练策略都能在消融里看到贡献」。论文 Table 3 里三阶段训练分别带来增益。Stage 1 提升 1.31Stage 2 提升 0.96Stage 3 提升 0.45。这个数字的意义在于它不是某一个单点技巧突然起飞而是从大规模数据、复杂样本 高质量微调到 GRPO 指标对齐每一步都在往上推。Hard subset 也很关键。论文给出的结果里MinerU2.5-Pro 在 Hard subset 上是 94.08GLM-OCR 和 PaddleOCR-VL-1.5 都是 92.01。这个差距刚好回扣了开头的问题真正困难的样本才是这套 Data Engine 最应该发挥作用的地方。这里一定要守住边界。95.69 不是所有真实业务 PDF 的万能保证。它说明的是在论文设定的 基准测试、数据处理和评测协议下MinerU2.5-Pro 这条数据工程路线确实带来了可测提升。你把它放到自己公司的合同扫描件、历史档案、低清财报、超长教材、混排票据里还要看文档分布、扫描质量、部署成本、后处理流程以及它怎么接进现有 RAG 管线。不把论文吹过头反而更能看清它真正的价值。基准测试也不是天然公平还有一个地方我觉得很值得单独说。MinerU2.5-Pro 论文不只是训练模型它还讨论了 OmniDocBench v1.6。这件事很容易被忽略。很多人看模型论文只看谁分数高。但基准测试 本身怎么设计会直接影响我们看到的差距。论文里提到OmniDocBench v1.5 存在元素匹配偏差。简单说有些模型输出的语义可能接近但因为元素切分粒度、格式约定、匹配方式不一样分数会被系统性影响。所以 v1.6 做了评测协议上的修正并加入 复杂子集。这也和全文主线连上了。训练时要识别 复杂样本评测时也要让 复杂样本 被看见。如果 Base 样本已经接近饱和只看普通样本模型差距会被压扁。真正能看出能力边界的往往就是那些复杂、长尾、难标注的样本。这也是为什么我说这篇论文不只是一个文档解析模型论文。它更像是在说文档解析这件事已经进入了一个更系统的阶段。不能只问模型会不会 OCR。你要问数据覆盖了什么困难样本怎么被定义伪标注怎么被验证专家标注用在哪里训练阶段怎么安排基准测试 能不能真的量出差距。这一整套东西才是 MinerU2.5-Pro 里最值得看的部分。PDF 是数据入口不是文件格式回到最开始的问题。为什么复杂 PDF 到了大模型时代反而更重要了因为大模型吃进去的不是文件。它吃进去的是被整理过的数据。PDF 是人类知识最常见的载体之一。论文、教材、报告、合同、财报、标准文档、说明书太多东西都躺在 PDF 里。过去我们看 PDF是人自己读。现在我们想让模型读让知识库读让 RAG 读让 agent 读。那问题就变了。不是 PDF 里有没有字。是 PDF 能不能被转成模型真的能用的结构化内容。MinerU2.5-Pro 真正让我觉得值得写的地方不是它又把分数刷高了而是它把文档解析的改进路径往后推了一步。不是只换模型。不是只堆数据。而是系统性地处理数据覆盖、困难样本、标注质量、训练阶段和评测边界。当然它也不是万能 PDF 方案。这篇论文证明的是在 MinerU2.5 这类架构已经足够成熟的前提下数据工程和训练策略还能继续带来明显增益。它没有证明所有企业文档场景都能一键解决也没有替你解决部署、成本、后处理和业务适配。但它给了一个很重要的判断。AI 基础设施往后走很多进步可能不会再以「模型突然变大」的形式出现。它会藏在更脏、更细、更不好讲的地方。样本怎么来。难度怎么分。标注怎么修。评测怎么量。这些东西没有参数量那么有趣但它们决定了模型到底能不能真的读懂复杂世界。PDF 只是入口。真正难的是把入口后面那堆复杂、长尾、混乱、难标注的知识变成可靠的训练信号。这才是 MinerU2.5-Pro 这篇论文最狠的地方。感谢阅读。点个关注不迷路我们后续会持续跟进文档解析、OCR、多模态模型等前沿技术动态第一时间为你解读。