DeepSeekMathV2的理解1——摘要和引言
文章目录一、前言二、DeepSeekMathV21、研究背景与动机2、核心方法自验证数学推理框架3、关键技术创新4、实验结果5、结论与意义摘要1. 引言问题1解释一下DeepSeekMath-V2 核心思想详解一、为什么要做这件事——现有方法的天花板二、核心洞察生成-验证差距三、具体怎么做——三步迭代循环第一步训练一个忠实的验证器Verifier第二步用验证器当裁判训练生成器Generator第三步动态维持差距防止裁判被选手带偏四、一个精妙的类比让模型看见自己的奖励函数五、为什么这个结果很惊人六、总结一句话一、前言仅供参考未经实验验证。二、DeepSeekMathV2论文标题DeepSeekMath-V2: Towards Self-Verifiable Mathematical ReasoningDeepSeekMath-V2迈向自我验证的数学推理作者Zhihong Shao 等机构DeepSeek-AI发表时间2025年11月27日GitHubhttps://github.com/deepseek-ai/DeepSeek-Math-V2论文地址https://arxiv.org/pdf/2511.225701、研究背景与动机当前大语言模型通过强化学习RL奖励最终正确答案已在 AIME、HMMT 等定量推理竞赛中迅速达到饱和。但这种范式存在根本性局限正确答案 ≠ 正确推理模型可能通过错误路径碰巧得到正确答案无法保证推理过程的逻辑严密性。无数值答案的任务失效定理证明等任务需要严谨的逐步推导而非数值答案传统最终答案奖励机制完全不适用。开放性问题难以扩展对于没有已知答案的问题缺乏可靠的验证机制来扩展测试时计算test-time compute。2、核心方法自验证数学推理框架DeepSeekMath-V2 采用**验证器-生成器双模型协同架构**通过以下步骤实现自验证阶段内容① 训练验证器Verifier训练一个准确且忠实的 LLM 验证器专门用于评估定理证明的正确性能够识别细微的逻辑错误。② 训练生成器Generator将验证器作为奖励模型Reward Model通过强化学习激励生成器在最终定稿前主动识别并解决自身证明中的问题。③ 动态维持生成-验证差距随着生成器变强验证难度也随之增加。团队提出扩展验证计算自动标注新的难以验证的证明样本生成训练数据以持续改进验证器确保验证能力始终领先于生成能力。这类似于学生写证明同时配有一位共同进化的助教逐行批改两者不断相互促进。3、关键技术创新忠实验证器训练确保验证器能准确识别证明中的问题而非简单猜测。元验证Meta-Verification大幅减少验证器幻觉出虚假问题的现象保证验证质量。自我纠错激励通过 RL 奖励机制让生成器在提交前尽可能自我检查并修正。验证计算规模化自动标注高难度验证样本实现验证器的自我迭代提升无需人工标注。4、实验结果DeepSeekMath-V2基于 DeepSeek-V3.2-Exp-Base6850 亿参数在多项顶级数学竞赛中取得突破性成绩竞赛成绩水平IMO 2025金牌级分数 金牌CMO 2024金牌级分数 金牌Putnam 2024118/120⭐ 接近满分在IMO-ProofBench由 Google DeepMind 团队开发基础测试中表现超越了 Gemini DeepThinkIMO 金牌模型。Putnam 2024 的 118/120 超过了人类参赛者的最高分 90 分。5、结论与意义DeepSeekMath-V2 证明了LLM 可以发展出对复杂推理任务有意义的自我评估能力。该研究表明自验证数学推理是一条可行的研究路径当纯结果奖励饱和时验证器即奖励是提升推理能力的下一个阶梯即使在小规模下耦合的验证器循环也能将 RLVR强化学习验证奖励扩展到非精确匹配领域。该模型已以Apache 2.0许可证开源为学术界和工业界提供了强大的数学推理工具。摘要Large language models have made significant progress in mathematical reasoning, which serves as an important testbed for AI and could impact scientific research if further advanced. By scaling reasoning with reinforcement learning that rewards correct final answers, LLMs have improved from poor performance to saturating quantitative reasoning competitions like AIME and HMMT in one year.大型语言模型在数学推理方面取得了显著进展这既是人工智能的重要试验场如果能进一步发展也可能对科学研究产生影响。通过使用强化学习来扩展推理能力并奖励正确的最终答案大型语言模型在一年内从表现不佳提升到在 AIME 和 HMMT 等定量推理竞赛中达到饱和。However, this approach faces fundamental limitations. Pursuing higher final answer accuracy doesn’t address a key issue: correct answers don’t guarantee correct reasoning. Moreover, many mathematical tasks like theorem proving require rigorous step-bystep derivation rather than numerical answers, making final answer rewards inapplicable.然而这种方法面临着根本性的局限。追求更高的最终答案准确率并不能解决一个关键问题正确的答案并不能保证正确的推理。此外许多数学任务如定理证明需要严格的逐步推导而不是数值答案这使得最终答案奖励不适用。To push the limits of deep reasoning, we believe it is necessary to verify the comprehensiveness and rigor of mathematical reasoning. Self-verification is particularly important for scaling testtime compute, especially for open problems without known solutions. Towards self-verifiable mathematical reasoning, we investigate how to train an accurate and faithful LLM-based verifier for theorem proving.为了推进深度推理的极限我们认为有必要验证数学推理的全面性和严谨性。对于扩展测试时计算而言自验证尤为重要特别是对于没有已知解决方案的开放性问题。为了实现自验证的数学推理我们研究如何训练一个基于LLM的精确且忠实的定理证明验证器。We then train a proof generator using the verifier as the reward model, and incentivize the generator to identify and resolve as many issues as possible in their own proofs before finalizing them. To maintain the generation-verification gap as the generator becomes stronger, we propose to scale verification compute to automatically label new hardto-verify proofs, creating training data to further improve the verifier.接着我们用验证器当裁判来训练证明生成器鼓励它在提交最终答案之前先自己尽可能多地找出并修正证明里的问题。为了防止选手生成器进步太快导致裁判验证器跟不上我们提议增加验证时的计算投入让验证器自动去标注那些新产生的、难以验证的证明把这些当作训练素材来进一步提升验证器自身的能力。Our resulting model, DeepSeekMath-V2, demonstrates strong theorem-proving capabilities, achieving gold-level scores on IMO 2025 and CMO 2024 and a near-perfect 118/120 on Putnam 2024 with scaled testtime compute. While much work remains, these results suggest that self-verifiable mathematical reasoning is a feasible research direction that may help develop more capable mathematical AI systems.我们最终的模型 DeepSeekMath-V2 展示了强大的定理证明能力在 IMO 2025 和 CMO 2024 上取得了金牌水平的分数并在 Putnam 2024 上以接近完美的 118/120 分通过缩放的测试时间计算取得了优异成绩。虽然还有许多工作要做但这些结果表明自我验证的数学推理是一个可行的研究方向可能有助于开发更强大的数学人工智能系统。1. 引言The conventional approach to reinforcement learning (RL) for mathematical reasoning involves rewarding large language models (LLMs) based on whether their predicted final answers to quantitative reasoning problems match ground-truth answers (Guo et al., 2025). This methodology suffices to allow frontier LLMs to saturate mathematical competitions that primarily evaluate final answers, such as AIME and HMMT. However, this reward mechanism has two fundamental limitations.强化学习RL在数学推理中的传统方法包括根据大型语言模型LLM对定量推理问题的预测最终答案是否与真实答案相匹配来奖励它们Guo et al., 2025。这种方法足以让前沿 LLM 达到主要评估最终答案的数学竞赛的饱和状态例如 AIME 和 HMMT。然而这种奖励机制有两个根本性的局限性。First, it serves as an unreliable proxy for reasoning correctness – a model can arrive at the correct answer through flawed logic or fortunate errors. Second, it is inapplicable to theorem proving tasks, where problems may not require producing numerical final answers and rigorous derivation is the primary objective.首先它作为推理正确性的不可靠代理——模型可以通过有缺陷的逻辑或侥幸的错误得出正确的答案。其次它不适用于定理证明任务因为这些问题可能不需要产生数值最终答案而严格的推导才是主要目标。Consequently, LLMs trained on quantitative reasoning problems with such final answer reward still frequently produce mathematically invalid or logically inconsistent natural-language proofs. Moreover, this training approach does not naturally develop the models’ ability to verify proof validity – they exhibit high false-positive rates, often claiming incorrect proofs are valid even when they contain obvious logical flaws.因此使用这种最终答案奖励训练的LLM仍然经常产生数学上无效或逻辑上不一致的自然语言证明。此外这种训练方法并不能自然地培养模型验证证明有效性的能力——它们表现出很高的假阳性率即使证明包含明显的逻辑缺陷也经常声称不正确的证明是有效的。The lack of a generation-verification gap in natural-language theorem proving hinders further improvement. To address this, we propose developing proof verification capabilities in LLMs. Our approach is motivated by several key observations:自然语言定理证明中缺乏生成-验证差距阻碍了进一步的改进。为了解决这个问题我们建议在大型语言模型中开发证明验证能力。我们的方法受到以下几个关键观察结果的启发• Humans can identify issues in proofs even without reference solutions – a crucial ability when tackling open problems.• 即使没有参考答案人类也能识别证明中的问题——这是解决开放性问题时的一项关键能力。• A proof is more likely to be valid when no issues can be identified despite scaled verification efforts.• 就算用上了大量算力去仔细审查如果还是挑不出毛病那这个证明大概率就是对的。• The efforts required to identify valid issues can serve as a proxy for proof quality, which can be exploited to optimize proof generation.• 验证一个证明时如果很难找到错误说明这个证明质量高这个找错难度本身就可以当作质量评判标准用来指导模型写出更好的证明。We believe that LLMs can be trained to identify proof issues without reference solutions. Such a verifier would enable an iterative improvement cycle: (1) using verification feedback to optimize proof generation, (2) scaling verification compute to auto-label hard-to-verify new proofs, thereby creating the training data to improve the verifier itself, and (3) using this enhanced verifier to further optimize proof generation.我们认为可以通过训练大型语言模型来识别证明问题而无需参考答案。这样的验证器将能够实现迭代改进循环1使用验证反馈来优化证明生成2扩展验证计算以自动标记难以验证的新证明从而创建训练数据以改进验证器本身3使用这种增强的验证器来进一步优化证明生成。Moreover, a reliable proof verifier enables us to teach proof generators to evaluate proofs as the verifier does. This allows a proof generator to iteratively refine its proofs until it can no longer identify or resolve any issues. In essence, we make the model explicitly aware of its reward function and enable it to maximize this reward through deliberate reasoning rather than blind trial-and-error.此外一个可靠的证明验证器使我们能够教导证明生成器像验证器一样评估证明。这使得证明生成器能够迭代地完善其证明直到它无法再识别或解决任何问题。本质上我们使模型明确地意识到其奖励函数并使其能够通过深思熟虑的推理而不是盲目的试错来最大化这一奖励。Built on DeepSeek-V3.2-Exp-Base (DeepSeek-AI, 2025), we developed DeepSeekMath-V2, a large language model optimized for natural-language theorem proving that demonstrates self-verifiable mathematical reasoning. Our model can assess and iteratively improve its own proofs, achieving gold-level performance in premier high-school mathematics competitions including IMO 2025 and CMO 2024.我们以DeepSeek-V3.2-Exp-Base (DeepSeek-AI, 2025)为基础开发了DeepSeekMath-V2这是一个针对自然语言定理证明进行优化的大型语言模型展示了自我验证的数学推理能力。我们的模型可以评估并迭代改进其自身的证明在顶尖高中数学竞赛中达到金牌水平包括IMO 2025和CMO 2024。On the Putnam 2024 undergraduate competition, it scored 118/120, exceeding the highest score of 90 1 obtained by human participants.在2024年普特南本科生竞赛中它的得分为118/120超过了人类参与者获得的最高分90/1。问题1解释一下DeepSeekMath-V2 核心思想详解一、为什么要做这件事——现有方法的天花板传统做法用强化学习RL训练大模型做数学题奖励机制很简单——最终答案对了就给奖励。这在 AIME、HMMT 等竞赛中确实让模型飞速进步但很快就撞到了两堵墙蒙对问题模型可能推理过程漏洞百出但碰巧算对了最终数字。你奖励它等于在鼓励瞎猫碰死耗子。不适用问题定理证明没有标准数值答案它要求的是每一步推导都严格正确。传统对答案给糖的机制完全失效。更麻烦的是用这种方式训练出来的模型连自己写的证明对不对都判断不准——经常把有明显逻辑错误的证明当成正确的高假阳性率。二、核心洞察生成-验证差距论文提出了一个关键概念生成-验证差距Generation-Verification Gap。什么意思生成写证明让模型从零写出一个完整证明很难。验证检查证明让模型判断一个已写好的证明有没有问题相对容易一些。就像让你自己写出一篇完美的论文很难但让你挑出别人论文里的错误你可能更在行。如果模型连验证都做不好那它就更不可能写出好的证明。所以论文的思路是先把验证能力做扎实再用验证能力反哺生成能力。三、具体怎么做——三步迭代循环第一步训练一个忠实的验证器Verifier训练一个专门挑错的模型让它学会识别证明中的逻辑漏洞发现计算错误指出推导不严谨的地方关键是不需要标准答案也能挑错。就像老师批改作业不一定需要看答案才知道学生哪里想错了。第二步用验证器当裁判训练生成器Generator把验证器当成奖励模型Reward Model生成器写出一个证明草稿验证器去检查找出问题生成器根据反馈修改再让验证器检查反复迭代直到验证器挑不出毛病这相当于让模型学会自己检查作业而且检查标准非常明确——就是验证器的那套标准。第三步动态维持差距防止裁判被选手带偏这里有个微妙的难题生成器越来越强它写的证明越来越狡猾验证器可能就跟不上了出现选手超过裁判的情况。解决方案扩展验证计算Scale Verification Compute让验证器花更多计算资源去检查那些难搞的证明自动标注这些高难度样本用这些样本继续训练验证器让它也变强这样就形成了一个正反馈循环生成器变强 → 产生更难验证的证明 → 验证器被迫升级 → 更好的验证器训练出更强的生成器 → ...四、一个精妙的类比让模型看见自己的奖励函数论文里有句话很深刻“我们让模型明确地意识到自己的奖励函数并使其能够通过深思熟虑的推理而不是盲目的试错来最大化这一奖励。”传统 RL 就像训练狗做对了给零食做错了不给。狗不知道规则是什么只是不断尝试。而 DeepSeekMath-V2 的做法是让模型知道裁判的评分标准是什么然后主动按照标准去优化自己的输出。这更像是一个理解规则后刻意练习的学生而不是只靠条件反射训练的狗。五、为什么这个结果很惊人竞赛成绩对比IMO 2025金牌国际数学奥林匹克全球顶尖高中生竞赛CMO 2024金牌中国数学奥林匹克Putnam 2024118/120人类最高分仅 90 分Putnam 竞赛 118/120 的意义尤其重大这是本科级别的数学竞赛难度极高模型不仅超过了所有参赛人类而且是以近乎满分的成绩这说明模型已经具备了接近专业数学工作者的严格推理能力而不仅仅是会做竞赛题。六、总结一句话DeepSeekMath-V2 的核心创新是与其让模型拼命猜答案然后对答案不如先教会模型怎么判断一个证明对不对再让模型用这个标准去自我审视、自我修正最终形成越写越好、越审越严的良性循环。这不仅是数学 AI 的进步也为如何让 AI 具备自我纠错能力提供了一个通用范式——验证能力可能是比生成能力更基础的智能基石。