大模型虽强但大多数人用不起671B 参数的 DeepSeek-R1推理能力确实强。但真要跑起来16 张 H800 显卡是最低配置。这个门槛意味着绝大多数开发者、小团队和个人用户根本摸不到。DeepSeek 做了一件对整个社区影响同样深远的事把 R1 的推理能力蒸馏到小模型上然后全部开源。最后放出来的蒸馏模型覆盖了六个规格蒸馏模型基座模型参数量DeepSeek-R1-Distill-Qwen-1.5BQwen2.5-Math-1.5B15 亿DeepSeek-R1-Distill-Qwen-7BQwen2.5-Math-7B70 亿DeepSeek-R1-Distill-Qwen-14BQwen2.5-14B140 亿DeepSeek-R1-Distill-Qwen-32BQwen2.5-32B320 亿DeepSeek-R1-Distill-Llama-8BLlama-3.1-8B80 亿DeepSeek-R1-Distill-Llama-70BLlama-3.3-70B-Instruct700 亿最小的那个——只有 15 亿参数——能跑在消费级显卡上甚至可以在一些性能好点的 CPU 上推理。而它的数学推理能力超过了 GPT-4o。蒸馏怎么做的方法本身不复杂用 DeepSeek-R1 生成 80 万条高质量训练样本直接对这些基座模型做 SFT不加入额外的 RL 阶段。数据就是第三篇文章里讲的那 80 万条——60 万推理数据20 万非推理数据。每个基座模型训 2-3 个 epoch学习率从初始值用余弦衰减到十分之一。具体的初始学习率和批大小Qwen-1.5B学习率 1×10⁻⁴批大小 64Qwen-7B学习率 8×10⁻⁵批大小 64Qwen-14B学习率 7×10⁻⁵批大小 64Qwen-32B学习率 6×10⁻⁵批大小 64Llama-8B学习率 5×10⁻⁵批大小 64Llama-70B学习率 2×10⁻⁵批大小 64最大上下文长度全部设为 32,768 token。蒸馏模型的表现有多好先说核心结论纯靠 SFT 蒸馏不用 RL小模型就能拿到远超同体量非推理模型的成绩。具体数字如下都在 AIME 2024 上对比DeepSeek-R1-Distill-Qwen-1.5BAIME pass1 拿 28.9%。作为对比非推理型的 GPT-4o 只有 9.3%。注意这是 15 亿对 GPT-4o 的数百亿参数。DeepSeek-R1-Distill-Qwen-7BAIME pass1 拿 55.5%。这已经超过了所有非推理模型——GPT-4o 的 9.3%、Claude-3.5-Sonnet 的 16.0%、DeepSeek-V3 的 39.2%。如果做 64 次多数投票更是拉到 83.3%。DeepSeek-R1-Distill-Qwen-32BAIME pass1 拿 72.6%多数投票拉到 83.3%。在 Codeforces 上 elo 评级 1691超过 92.1% 的人类选手。MATH-500 上拿到 94.3%。DeepSeek-R1-Distill-Llama-70BAIME pass1 拿 70.0%多数投票 86.7%。MATH-500 上 94.5%LiveCodeBench 上 57.5%。一个整体趋势是参数量越大蒸馏出来的效果越好。从 1.5B 到 70BAIME 得分基本是单调递增的。GPQA Diamond 上所有蒸馏模型也都超过了 GPT-4o49.9%——最小的 1.5B 拿到 33.8%最大的 70B 拿到 65.2%。蒸馏 vs RL谁更强一个很自然的问题是既然蒸馏效果这么好能不能不用蒸馏直接在小模型上跑 RL 训出推理能力毕竟蒸馏需要先有一个大模型来生成数据如果能直接在小模型上做 RL这条路会更原生。论文做了这个对比实验。Qwen2.5-32B-Zero——在 32B 基座上直接跑大规模 RL数学代码STEM超过 10,000 步——AIME pass1 拿到 47.0%多数投票 60.0%。而DeepSeek-R1-Distill-Qwen-32B——同样是 32B 的 Qwen但用的是蒸馏而非 RL——AIME pass1 是 72.6%多数投票 83.3%。差距非常直观蒸馏的效果远好于直接在 32B 上做 RL。不只 32B 这个量级。论文还提了一个更早期的实验Qwen2.5-Math-7B 做 RL 训练 10,000 步得到的 Qwen2-Math-7B-Zero 在 AIME 2024 上是 22.3%AIME 2025 上 18.1%。这个成绩确实比同体量的指令模型 Qwen2-Math-7B-Instruct7.9% vs AIME 2024强很多但仍然远不及蒸馏路线。两个结论蒸馏比直接 RL 效果更好、成本更低。大模型生成高质量数据 → 小模型直接学这条路目前是最优的。但要真正突破上限仍然需要更强的基座模型和更大规模的 RL。蒸馏可以让小模型接近大模型的上限但不会超过它。整篇论文的核心启示面向想复现和深挖这个方向的研究者和工程师论文总结了几条最重要的经验。基座模型的能力是前提R1 团队一开始拿 7B 和 16B 的小模型做 RL 实验结果不太行。模型一到长推理就出现重复生成、无法有效利用长链思维等问题AIME 基准上几乎没有提升。换到 32B、230B MoE、671B MoE 之后RL 的效果才开始明显。这暗示了一个门槛纯 RL 训练能起效果依赖于基座模型本身具备足够的潜力。基座不够强RL 也推不动。换句话说预训练阶段是否已经让模型学会了生成可能的正确解决定了 RL 能否从中筛选和放大这些能力。论文特别提到DeepSeek-V3-Base 的预训练数据里包含了大量数学和代码内容这让基座模型有能力生成看起来合理的候选解。RL 的作用是从这些候选解里选出最好的那个然后把模型往那个方向推。验证器的可靠性决定 RL 的上限R1-Zero 成功的一个关键前提是它面对的都是可以确定对错的任务。数学题的答案是数字代码题有测试用例逻辑题是选择题。一旦切换到开放式任务——写作有没有文采、回答有没有共情——这套纯 RL 机制就失灵了。因为没有一个可靠的、不会被钻空子的奖励信号。论文在第五部分明确说了对于无法获得可靠奖励信号的任务构建一个健壮的奖励模型仍然是一个开放问题。这也是为什么 R1 多用了 SFT 和非推理 RL ——纯 RL 的覆盖范围有限。迭代管线比单阶段好R1 的四阶段训练不是一开始就设计好的。从 R1-Zero 出发发现问题加入冷启动 SFT再发现问题通用能力太弱加入大规模 SFT再发现问题偏好对齐不够加入第二轮 RL。每一步都在叠加上一步的结果。论文里的一句话总结了这个经验“SFT 和 RL 都是训练管线里不可或缺的组成部分。只靠 RL 会导致奖励黑客和不适定任务上的次优行为只靠 SFT 则不能让模型通过自我探索来优化推理能力。”蒸馏是性价比最高的路径让一个 32B 模型直接做 RL 训几万步花的时间和算力不小出来效果还不如直接蒸馏大模型的数据。这说明对于目前技术条件下的小模型来说学到别人怎么推理的比自己去摸索怎么推理要高效得多。至于更长远的方向——超过人类水平的推理——论文认为这仍然需要更强大的基座模型和更大规模的 RL 探索。因为蒸馏总是受限于教师模型的上限。那些失败的尝试论文花了一整节来写没走通的路这部分很少见但很有价值。过程奖励模型PRM直观上给推理的每一步都打分——不只看最终答案对不对还看过程有没有道理——应该能更好地引导模型学习。这套方法在一些研究里确实有效。但在 DeepSeek 的大规模实践中PRM 遇到了三个问题怎么定义一步推理。数学证明的步骤边界很模糊什么样的粒度叫一步没有统一标准。怎么判断中间步骤对不对。自动标注不准人工标注又无法规模化。模型一旦参与过程评分就引入了被钻空子的可能。策略模型会慢慢学会写出PRM 觉得合理但实际不解决问题的推理过程。反复重训 PRM 来对抗这种钻空子行为会大大增加整个训练管线的复杂度。结论是PRM 在做 top-N 重排序或引导搜索时还有点用但在大规模 RL 训练中的优势不足以抵消它带来的额外开销。蒙特卡洛树搜索MCTS受 AlphaGo 和 AlphaZero 的启发团队尝试用 MCTS 来引导推理过程的搜索。思路是把推理分解成若干步骤每步生成多个候选标签用预训练的价值模型引导搜索最后用搜索到的优质路径来训练策略模型和价值模型。这个思路在棋类游戏里极其成功但在大模型推理上遇到了两个核心困难搜索空间完全不是一个量级。围棋的搜索空间虽然大但每个节点的合法落子数是有限的。而 token 生成每一步面临的是整个词表空间——搜索树大得无法想象。即使限制每个节点的最大扩展数模型也很容易陷入局部最优。价值模型训不准。AlphaGo 成功的一个支柱是价值模型可以越训越准从而引导更强的搜索形成正反馈。但在 token 生成场景下每一步的质量判断比这步棋好不好模糊得多价值模型的训练本身就很难收敛。论文的结论比较坦诚在推理阶段配合预训练的价值模型MCTS 能提升一些性能。但要让模型通过自我搜索来迭代提升自身能力——这个闭环目前还没有打通。小结这一系列写了五篇核心的信息量其实可以浓缩成几句话DeepSeek-R1 的工作证明了纯强化学习可以激励大模型发展出复杂的推理行为——反思、验证、回溯——这些行为不是人类设计出来的是模型在追求正确率的过程中自己发现的。这个发现推翻了必须先有人类示范推理过程才能训出推理能力的假设。GRPO 算法通过省掉价值模型让大规模 MoE 模型的 RL 训练变得可行。R1 的多阶段训练管线则把实验室里的推理能力变成了一个实际可用的产品。蒸馏把大模型的推理能力传递到了小模型上。一个 15 亿参数的模型能在数学推理上超过 GPT-4o这件事的意义不亚于 R1 本身在基准上追平 o1。技术的发展空间还很大。工程类编码、工具使用搜索、计算器、token 效率优化、语言混杂的根治、开放式任务的 RL——这些都是 R1 还做得不够好的地方。论文里明确说这些会在后续版本里解决。而奖励信号的可靠性——如何让模型在不依赖规则的情况下也能得到可信任的训练反馈——仍然是整个方向最核心的开放问题。