一文读懂后训练:从RLHF到MOPD
这两天听了 Nathan Lambert 对 Finbarr Timbers 的访谈《Frontier Post-Training Recipe Review》[1]访谈中两人一起回顾了后训练post-training从 2022 到 2026 年的完整演变。Nathan Lambert 是 AI2Allen Institute for AI的前研究员也是《RLHF Book》Manning 出版的作者他正在录制一套完整的 post-training 课程。Finbarr Timbers 此前是 AI2 的研究员。正好笔者最近也在整理LLM的技术细节借这个机会和大家一起学习一下后训练post-training的前世今生。后训练post-training这个词在 2022 年之前几乎不存在。那时候人们说“微调”fine-tuning指的一般是对整个模型在特定数据集上做进一步训练。但 ChatGPT 之后语言模型的训练被清晰地切成了两段第一段是预训练pre-training在海量互联网文本上训练一个基础模型让它学会语言、知识和推理的原始能力第二段就是后训练post-training在预训练之后用各种方法把基础模型“改造”成一个符合人类期望的对话助手。后训练包括但不限于指令微调instruction tuning、奖励建模、强化学习、偏好优化、蒸馏、推理增强……它是一个不断膨胀的方法门类。这篇文章会做什么它会带你从零开始回顾后训练从 2022 到 2026 年的关键变化。每到一个节点我会把当时使用的方法、为什么出现、后来为什么被替代或超越都说清楚。这不会是一篇轻松的文章有太多需要展开的概念从 SFT 到 DPO 到 RLVR 到 GRPO 到 MOPD每个缩写背后都有一段值得讲的故事。如果你愿意花时间读完你会得到一张后训练的完整地图。Part 1GPT前夕InstructGPT 和它经典的三段式如果你回忆一下 2022 年底 ChatGPT 刚火起来时人们对“大模型是怎么变聪明的”的理解答案几乎只有一个——RLHF人类反馈强化学习。而 RLHF 的标准叙事是三步走先做SFT让模型学会对话格式再训练一个reward model奖励模型来打分最后用PPO在那个打分模型上做强化学习。这三步构成了后训练最初的定义甚至可以说是很多人对“对齐”alignment的全部理解。时间回到 2022 年 3 月。OpenAI 发布了 InstructGPT 论文 Training language models to follow instructions with human feedback[2]。这篇文章在当时并没有引起 ChatGPT 后来那样的轰动但它定义了一个范式如何把一个仅仅在互联网文本上训练出来的语言模型变成一个能听懂人话、遵循指令的助手。要理解 InstructGPT 为什么重要首先得理解它之前的做法是什么样的。在 InstructGPT 之前让模型“变好”的主流方法是SFTSupervised Fine-Tuning也就是监督微调。找一批人来写对话样本人类写出“如果用户问这个问题模型应该那样回答”然后让模型学着模仿这些样本。这个方法的问题在于人类写的样本毕竟有限而且人类认为“好的回答”和模型实际生成时遇到的分布并不完全一致。模型可能能模仿样本的格式但很难学会真正理解用户的意图。InstructGPT 的三步流程SFT → 奖励模型 → PPOInstructGPT 的贡献在于引入了一套完整的、多阶段的改造流程。第一个阶段仍然是SFT请标注员写出理想的对话样例让模型先学会基本的格式和风格。这一步的作用是给出一个起点模型知道它应该以对话形式输出而不是继续生成无头无尾的文本。真正让 InstructGPT 与众不同的是第二步和第三步。第二步是训练一个奖励模型reward model简称 RM。方法是让标注员对模型的多组输出做比较在同一个用户输入下模型产生了多个可能的回答标注员告诉系统哪一个更好、哪一个更差。这些比较数据被用来训练一个专门打分的小模型——即奖励模型给它一个用户输入和一个模型输出它能输出一个分数表示这个回答的质量。这个分数将作为强化学习的奖励信号。第三步是用PPOProximal Policy Optimization近端策略优化在这个奖励模型上做强化学习。模型继续生成回答每次生成的回答被送入奖励模型打分然后 PPO 算法根据这个分数调整模型的参数让模型学会产生更高分的回答。PPO 是一种在强化学习领域被广泛使用的算法它的核心思想是让策略更新的步子不要迈得太大避免一次性改变太多导致模型崩溃。把它用到语言模型上并不是 OpenAI 的首创但 InstructGPT 展示了它配合奖励模型的巨大效果。这个三段式在接下来的两年里成了后训练的圣经。几乎所有的后训练工作都能被描述成“InstructGPT 的变体”。但 Nathan Lambert 在访谈中提到一个有趣的观察到了 2026 年InstructGPT 中的每一个环节——除了结构本身作为一个概念参考之外——几乎都被替换掉了。SFT 使用的数据从人工写的大量示范变成了合成数据奖励模型不再是 RL 的唯一目标很多实验室已经把奖励信号和可验证奖励混合使用PPO 也被GRPO、RLOO、REINFORCE等新一代 RL 算法取代。三步骤的框架还在但里面的内容已经完全不一样了。三个步骤的定义SFT 给模型一个格式上的起点奖励模型给一个质量上的判断标准PPO 在这个标准上做迭代优化。在 2022 年这三步构成了一个完整、自洽的 recipe打造了ChatGPT奇迹。但接下来的两年里每一个步骤都经历了不同程度的升级和挑战。Part 2多轮 RLHFLlama 2 把同样的方法做得更复杂2023 年 7 月Meta 发布了 Llama 2。Llama 2 不仅开源了模型权重还附带了详细的论文对后训练方法的描述是当时最透明的工业级文档之一。Llama 2 的后训练仍然是 InstructGPT 路线的延伸但做了几个重要变化。最显著的是它不再只是做一轮SFT-奖励模型-PPO而是做了多轮迭代。每一轮迭代中模型先生成多个可能的回答用rejection sampling拒绝采样从这些回答中选出质量最好的然后用这些选出的数据做 SFT最后做 PPO。Rejection sampling 的方法是给定一个输入让模型生成 K 个输出然后利用奖励模型对这些输出评分只保留分数最高的那批样本。这些高评分样本被用来做进一步的监督微调。Llama 2 的流程预训练 → SFT → 多轮迭代 RLHF每轮包含 rejection sampling 和 PPO这里能注意到一个重要的变化InstructGPT 中 SFT 只在最开始做一次然后就是奖励模型和 PPO但在 Llama 2 中SFT 阶段被嵌入到了每一轮迭代中。模型在 PPO 之后生成的更好的输出被拉回来做 SFT再继续做 PPO。这是一种迭代优化的思路每一步的产出都会成为下一步的输入整个循环重复多次。Llama 2 还有一个当时颇受关注的创新——它训练了两套奖励模型一套负责helpfulness有用性一套负责safety安全性。为什么需要两套因为这两个目标在某些情况下是冲突的。一个非常“有用”的回答可能绕过安全限制一个非常“安全”的回答可能显得保守无用。分开训练两套奖励模型让它们在 PPO 阶段联合发挥作用是平衡两种目标的工程方案。从 InstructGPT 到 Llama 2recipe 的变化反映了后训练从研究项目到工业产品的转变。InstructGPT 更多是证明一个概念RLHF 可以让模型更好用。而 Llama 2 展示了如何把同样的概念规模化引入多轮迭代和 rejection sampling 这样的工程技巧让同一套方法发挥更大的效果。但范式的底层结构没有变仍然是 SFT 奖励模型 RL。Part 3Llama 3工业化配方但不再做在线 RL2024 年 7 月Meta 发布了 Llama 3。如果 Llama 2 是 LLM 后训练工业化的 1.0那么 Llama 3 就是 2.0。论文中对后训练的描述更加复杂同时也揭示了一个重要的选择他们不再在最终阶段使用在线强化学习。Llama 3 的每一轮迭代是这样的首先训练一个奖励模型。然后对于每一个训练 prompt让模型采样 K 个输出。用奖励模型对这些输出做 rejection sampling。选出最好的样本后不是直接做 PPO而是先做 SFT然后做 DPO。这个流程重复了整整六轮每轮选出的最佳模型会作为下一轮的起点。六轮之后他们还对最终模型做了额外一轮在偏好数据上的直接优化。Llama 3 的流程per round 包含奖励模型、采样、rejection sampling、SFT 和 DPO无 online RL六轮迭代这里有两个需要解释的核心概念什么是 DPO以及为什么 Llama 3 不做在线 RL。DPO的全称是 Direct Preference Optimization直接偏好优化[3]它由斯坦福大学的研究者在 2023 年提出。DPO 的核心洞察非常巧妙如果你仔细分析 RLHF 的数学结构你会发现训练奖励模型做 PPO 的过程其实可以被直接转化为一个关于偏好数据的损失函数——你不需要一个显式的奖励模型也不需要一个 PPO 训练循环你只需要偏好数据本身。给定一个偏好对chosen 和 rejected 样本DPO 的损失函数会让模型增大选择 chosen 的概率、降低选择 rejected 的概率。这个方法的优势在于大幅降低了训练的复杂度不需要奖励模型的单独训练和 PPO 循环中的采样和稳定化。Llama 3 选择 DPO 而非 PPO 来做最终的偏好优化是一个很务实的选择效果接近但工程上简单得多。DPO VS. PPO而 Llama 3 不做在线 RL也就是不在训练过程中实时采样模型的新输出来做 RL同样是一个务实的选择。在线 RL 意味着你需要同时运行一个生成模型和一个训练模型通过不断生成新数据来做更新。这在工程上非常复杂对推理基础设施的要求很高。Llama 3 的做法是把生成和训练解耦先批量生成候选输出过滤再用过滤后的数据做 SFT 和 DPO然后进入下一轮。这被称为off-policy离线策略的方法模型从自己过去的输出中学习而不是从当前最新的策略中实时采样。这个设计的特别之处在于它揭示了后训练领域一个当时重要但鲜少被谈论的点在效果和工程复杂性之间不同的实验室有不同的取舍。Llama 3 的团队显然选择了降低工程复杂性的路线但离线策略的代价是可能错过在线策略带来的额外提升。后续发展中为什么到 2025–2026 年几乎所有前沿实验室又回到了在线 RL 上是后面几个部分要回答的问题。可以说Llama 从此一蹶不振……Part 4开源的高光与天花板Tülu 3 和 OLMo 3在 Llama 3 发布几个月后两个来自学术和研究机构的开源后训练登上了舞台它们是 Tülu 3 和 OLMo 3。它们的后训练方法代表了开放研究的最高水平但同时也暴露了一个后来愈发明显的趋势开源的 recipe 正在被前沿实验室的工业化 recipe 甩开距离。Tülu 3是 AI2Allen Institute for AI属于非营利研究机构发布的一个完全开放的后训练模型和 recipe2024 年 11 月推出。它之所以叫“Tülu”是因为这是一个开源生态系统名字来源于一种长毛牛象征着“开放但强悍”。Tülu 3 的论文和数据集完全公开提供了从数据收集到训练方法的全部细节。它为当时无法复制前沿闭源模型后训练的社区提供了一个可信的、可操作的开放替代方案。Tülu 3 的一大贡献是提出了RLVR这个缩写——RL with Verifiable Rewards带有可验证奖励的强化学习。OLMo 3是 AI2 在 2025 年 12 月推出的推理模型。相比 Tülu 3OLMo 3 走得更远——它不仅是一个对话助手还带有reasoning推理能力能在回答问题前进行长时间的深度思考。OLMo 3 完全开放模型权重、数据、代码全部公开被认为是当时最具竞争力的开放推理模型之一。它的后训练在 Tülu 3 的三段式基础上做了扩增区分出 think推理、instruct指令跟随和 RL-zero纯强化学习三种分支分别走自己的 SFT → DPO → RLVR 流程。Tülu 3 的三段式后训练策划 prompt → SFT → DPO → RLVRTülu 3 的 recipe 可以说是 InstructGPT 路线的自然延伸和极简版。它仅用了三个步骤精心策划训练用的 prompts做 SFT做 DPO然后在可验证奖励上做 RL。RLVRRL with Verifiable Rewards是一个值得多解释几句的概念。传统的 RLHF 依赖人类偏好来训练奖励模型然后在这个模型上做强化学习RLVR 则换了一种思路你不需要一个打分模型而是用可以被自动验证的规则来给出奖励信号。比如数学题答案对不对是客观的代码题代码能不能通过测试是客观的甚至某些逻辑推理题最终的答案是否正确也是客观的。当你拥有的任务可以被这样自动判定时RL 的效率会大幅提高因为你不再依赖人类标注员的偏好判断而是可以直接用正确/错误来驱动学习。Nathan Lambert 在访谈中回忆了 Tülu 3 的定位在当时Tülu 3 的简单三段式 recipe 和前沿实验室的实际操作其实差距不大。Model 的能力还没有拉开到需要非常复杂的后训练流程。但到了 2025 年底的 OLMo 3情况已经变了。OLMo 3 需要用 SFT → DPO → RLVR 来做推理模型Nathan 和 Finbarr 都坦言这个简单的三段式在面对 DeepSeek R1 和之后的一系列前沿模型时天花板是很明显的。OLMo 3 的流程预训练 → 中训练 → 长上下文然后在 Think / Instruct / RL-Zero 三条分支上各走 SFT → DPO → RLVRNathan 在访谈中说得非常坦白OLMo 3 的后训练是在 AI2 现有的组织架构和资源限制下能做出的最佳成果。但 recipe 本身太简单了它已经不再代表最前沿实验室的做法。这句话揭示了一个贯穿整个 2026 年的趋势后训练不只是算法问题也是组织能力问题。模型规模越大、能力越强做后训练的实验成本就越高。做一轮完整的六周、使用数千张 GPU 的训练实验需要成熟的工程团队、稳定的数据管道和足够的算力储备。对于 AI2 这样的研究机构来说资源限制了 recipe 的复杂度。一个简单的 recipe 可能只差几个百分点但那些百分点恰好是世界上最贵的那几个百分点。这个差距在 2025 年初被 DeepSeek R1 撕开了一个巨大的口子。Part 5真正的转折点DeepSeek R1 和 Reasoning RL 成为主角2025 年 1 月DeepSeek 发布了 R1 模型。这篇论文和模型一起爆炸性地火遍了整个 AI 圈但大多数人关注的是模型的推理能力一个开源模型在数学和编程上达到了当时最佳的推理表现。比较少人深入讨论的是R1 的后训练 recipe 和此前所有主流方案完全不同。DeepSeek R1 的多阶段后训练流程R1-Zero 纯 RL → cold-start SFT → reasoning RL → rejection-sampling SFT → final RL → distill to denseR1 的后训练有两个阶段需要分开看。首先是R1-Zero它甚至不是一个产品级的模型而是整个 recipe 的探索阶段。R1-Zero 的做法极其大胆拿 DeepSeek V3 的基础模型直接在上面做GRPOGroup Relative Policy Optimization不做任何 SFT。GRPO 是 DeepSeek 自己提出的 RL 算法属于 PPO 的一种变体。它不用训练一个单独的 critic network价值网络而是通过在同一组采样中比较不同输出的相对质量来计算优势。简单的说就是给模型同一个问题让它生成多组输出来“竞标”以组内的相对好坏作为奖励。没有人类示范、没有偏好数据、没有对话模板训练只有问题和可验证的答案正确性作为奖励信号。R1-Zero 通过这些信号学会了推理行为它会自己生成长串的思考过程chain-of-thought主动检查自己的中间步骤甚至在遇到错误时回溯重新推导。这些都是从 RL 信号中自主涌现出来的不是用 SFT 教出来的。PPO VS. GRPO然后 R1 本体的 recipe 就是在这个基础上的精细工程了。它的流程是先用少量高质量的 cold-start SFT 数据包含推理过程的示范给模型一个格式上的起点然后做 reasoning RL使用 GRPO 对数学、代码等可验证任务做大规模 RL之后用这个 RL 后的模型来生成大量推理数据经过 rejection sampling 筛选做一轮 SFT把 RL 中学到的推理行为蒸馏成结构化的训练数据最后再做一轮更大的 reasoning RL。整个过程在多个阶段之间切换SFT 不是教模型新东西而是把 RL 中学到的行为固化下来、去噪、精炼。这种设计背后的思维转变非常深刻。在 InstructGPT 时代SFT 是主体给模型看人类的最佳示范让模型复制。RL 只是在最后阶段做一次性的优化。而在 R1 中RL 成了主体SFT 降级为一个辅助工具它的作用不是教模型新能力而是整理 RL 探索出来的行为模式、清理格式、降低不稳定因素。Nathan 在访谈中这样说SFT 在 R1 中的主要作用是作为 RL 的冷启动——让模型在开始 RL 之前先学会推理应该长什么样子。传统的 SFT 是一个普遍有用的阶段但在 R1 这里它的目的非常纯粹就是为 RL 铺路。另一个值得注意的变化是DPO 消失了。查阅 R1 的论文你会发现没有 DPO 这个环节。这并不是 DeepSeek 的独有做法接下来发布的几乎所有前沿模型从 Nemotron 到 MiMo Flash V2 到 DeepSeek V4全都没有 DPO。Nathan 和 Finbarr 在访谈中对这个现象交换了意见。Nathan 的看法是当你有一个足够精良的工业化后训练流程时DPO 能提供的额外收益会越来越小。因为 DPO 本质上是帮你清理分布边缘的粗糙边界。如果你的 SFT 数据和基础模型之间的分布差距很大——比如 OLMo 大量使用来自更强模型Qwen、DeepSeek的蒸馏数据做 SFT——那么 DPO 确实能帮你再清理一轮。但如果你自己就是一个顶级模型你的 SFT 数据本身就是用你自己的策略生成、过滤的那么 DPO 的边际收益就很小了。不过 Finbarr 提出了一个有趣的对照Nemotron 3 Super 的论文中展示了一个传统的 RLHF 阶段——用一个旧式的、已经“过时”的 RLHF 训练——结果带来了可观的性能提升。一些方法的被淘汰可能不完全是因为效果不好而是受学术风潮影响。我个人认为这个观察值得记住——后训练领域很多所谓的“共识”可能并没有经过严格的消融实验来验证。DeepSeek 在 R1 之后的连续发布构成了一条更宏大的演变线索2024 年 12 月DeepSeek V3——使用 SFT GRPO和 Llama 3 的 recipe 相当接近2025 年 1 月DeepSeek R1——多阶段 RL推理能力涌现2025 年 8 月DeepSeek V3.1——在一个模型里同时融合 thinking推理和 non-thinking即时回答两种模式2025 年 12 月DeepSeek V3.2——用 RL 训练了 6 个领域专家(specialists)然后把它们蒸馏到一个模型中再做一轮混合 GRPO2026 年 4 月DeepSeek V4——10 领域专家使用 MOPD 合并整整一年半的演进从简单的 SFTGRPO 到多专家多教师蒸馏几乎就是整个行业后训练演进史的微缩版。每一个阶段的 R1 recipe 都被下一阶段继承、突破、取代。到了 V4 的时候recipe 已经和当初的 R1 完全不同了它不再是“一条流水线”而是“一个工厂”。Part 62026 的新格局MOPD 和多专家后训练工厂如果说 R1 到 V3.2 的演进是从一条流水线变成一条更复杂的流水线那 2026 年的 MiMo Flash V2、DeepSeek V4 和 Nemotron 3 Ultra 标志着另一个层的飞跃recipe 不再是线性的了。MiMo Flash V2 的三阶段流程SFT → 6 个领域专家的训练 → MOPD 合并到一个通用学生模型这个新模式的名字叫Multi-Teacher On-Policy DistillationMOPD多教师在线策略蒸馏。它的基本思路可以这样理解过去你想让一个模型同时擅长数学、编程、代码生成、工具使用和安全性你把这些目标混合到一个 RL 训练运行中。你给模型一组数学题、一组编程题、一组工具使用任务、一组安全提示……让它在同一个训练过程中学会所有这些。这种做法的问题是当你的模型足够强大时不同的能力之间会在 RL 训练中相互拉扯。为数学优化可能会改变模型的输出分布进而影响它在编程上的表现。为工具使用添加的奖励信号可能和生产安全回答的偏好相冲突。Nathan 的原话是把数学、代码和 agentic RL 混在一起跑最终会在不同能力之间做出取舍。MOPD 换了一种思路不试图用一个训练过程教会模型所有能力。相反为每一种能力训练一个专门的专家模型然后在一个通用学生模型中把这些专家的能力蒸馏回来。具体的做法分三步。第一步训练 N 个领域专家。每个专家通常是通用基础模型然后在一个特定的领域上做 SFT 和对该领域的 RL比如一个专家专门做数学 RL一个专门做编程 RL一个专做工具使用的 RL一个专做安全性相关的对齐。这些专家可以独立推进由不同团队负责。第二步训练一个通用学生模型。这个学生模型才是最终要发布的模型。它不直接复制专家的输出而是生成自己的rollout自己的回答轨迹。第三步将学生的每一个 rollout 路由给对应的专家。这里有一个非常关键的设计学生的输出不是从训练数据中直接学习的而是在线on-policy地生成自己的回答然后把数学相关的回答送给数学专家做评估编程相关的送给编程专家……对每一个 token学生模型通过最小化 reverse-KL 散度一种衡量两个概率分布差异的指标来让它的输出分布向对应专家的分布靠拢。这整个流程是在 RL 框架内运行的也就是说你不需要为 MOPD 搭建一个全新的训练系统你只需要在你已有的 RL 训练系统中加入一个“路由”和“蒸馏损失”的模块。正如 Finbarr 在访谈中说的如果你真的要实现 MOPD你拿已有的 RL 系统然后在这个 learner 上做一些非常小的调整就可以实现。它其实相当直接。最早完整提出 MOPD 的是 2026 年 1 月的 MiMo Flash V2 论文[4]。它的 recipe 分为三个阶段第一阶段通用 SFT第二阶段训练大约 6 个领域专家每个专家都经历了传统 post-training recipe——SFT、DPO、RLVR第三阶段用 MOPD 把这 6 个专家蒸馏到一个通用模型中。把 MOPD 规模化的是DeepSeek V4和NVIDIA Nemotron 3 Ultra。V4 用上了 10 个领域专家。Nemotron 3 Ultra 更复杂一些它做了两轮 MOPD第一轮先整合一组专家第二轮再用刷新后的专家蒸馏一轮。两轮比一轮效果更好因为不同专家的训练流程差异导致它们的学生分布不同一次性合并所有专家的难度太高。NVIDIA 论文里有一段非常坦诚的描述我们的一个关键发现是用完全不同的训练流程训练出来的专家模型不能通过一次直接的 on-policy distillation 合并在一起否则会导致次优性能。他们还提出了一个假设当教师和学生在不同的 SFT 数据上训练时它们会形成不同的推理行为产生不同的输出分布。这种分布不匹配会导致学生生成的轨迹对教师来说是分布外的从而降低了教师提供的监督信号的质量和可靠性。Nemotron 3 Ultra 的两轮 MOPD 流程SFT → 第一轮 MOPD → 第二轮 MOPD10 领域专家MOPD 的出现意味着后训练不再仅仅是一个算法设计问题它同时也成了一个组织设计问题。当一个实验室决定使用 MOPD 流程时它首先需要回答的不是“用什么 loss function”而是“我们有哪些团队、能训练出哪些好的专家模型”。Finbarr 对这一点有很深的理解一个数学专家、一个代码专家、一个 agent 专家可以由不同的团队并行推进各自在自己的领域内做到最好。最后通过 MOPD 合并。这比让一个团队同时优化所有目标、在同一个 RL 运行中平衡多个 reward signal 更容易管理和调试。Nathan 和 Finbarr 在访谈中提到的组织架构和后训练 recipe 之间的关系是我认为整场对话中最有意思的话题之一。Nathan 说很多现代后训练就是你管理计算、管理和数据到一个工作流程中的能力。而要做到这一点你实际上是在管理一个组织结构图。这句话可以成为我们理解前沿后训练的一个关键词当别人在说“模型参数量”“训练 FLOPs”时前沿实验室内部的 conversation 可能更多在讨论“跨团队沟通”“训练流程的抽象层”和“实验的排队机制”。Part 7并不是所有人都走 MOPD 路线新的 recipe 层出不穷但要说 2026 年所有前沿模型都变成了 MOPD 的形态那也不准确。事实上2026 年的模型后训练呈现出一个非常有意思的光谱形态从最保守的 R1 式多阶段 RL到最激进的 10 专家 MOPD各家的选择并不一致。MAI-Thinking-1 的三阶段流程mid-trained base → 3 个 specialist RL → trace-distillation SFT → final RL微软的MAI-Thinking-12026 年 6 月发布走的是一条更保守的路线。它的方案更接近 DeepSeek R1 而非 V4先在一个中训练基础模型上做 3 个领域的 specialist RL例如 STEM、编程等然后通过 trace-distillation SFT 把这些 specialist 的能力合并最后再做一轮最终的 RL。这里的关键区别是MAI 做的是trace-distillation路径蒸馏——把专家的推理过程以文本的形式作为 SFT 数据提供给模型——而不是 on-policy 的 MOPD。它把专家的推理轨迹拆解为“SFT 文本”让模型模仿而不需要维持一个实时的 RL 学习循环。这个做法在工程上简单很多但按 Nathan 的推测能力天花板会更低。Nathan 用一个很有分寸的词来评价 MAI保守。Finbarr 对此的反驳很有趣他认为在新团队刚开始做 post-training 时选择保守其实是明智的因为试图一次性做太多改动很容易让整个流程崩溃。Kimi K2.5 的流程text-only SFT → joint text-vision RL月之暗面的Kimi K2.52026 年 1 月是另一个不走 MOPD 的路子。它的发展重点在 agent 和 multimodal在做完纯文本 SFT 后它就在图片、视频、编程、推理、agentic 任务上做联合 RL。虽然它在自己的 recipe 中也包含多个领域但论文中并没有提到使用 MOPD 或 on-policy distillation 来合并专家。它更倾向于做多模态联合 RL而不是先训练专家再蒸馏合并。GLM-5 的分阶段流水线Base → SFT → Reasoning RL → Agentic RL → General RL智谱的GLM-52026 年 2 月采用的是一种更线性的分阶段 RLbase 模型先做 SFT然后做 Reasoning RL再做 Agentic RL最后做 General RL。这更像是一条流水线而不是一个多专家的工厂。GLM-5 还有一个有趣的设计细节引入了难度课程difficulty curriculum——训练数据的难度逐步上升以及temperature schedule——训练中的采样温度随着阶段变化。有趣的是Finbarr 在访谈中指出:Kimi K2.5 和 GLM-5 都公开了各自的 temperature schedule但他们的结论是相反的——一个说要从高温降到低温另一个说要从低温升到高温。这个微妙的小细节说明很多后训练中的“工程直觉”还没有被系统性地研究清楚。把这些放在一起看你会发现 2026 年的前沿后训练并非一条路走到了头。有人全速向 MOPD 冲刺也有人坚守着基于 R1 的多阶段 RL 路线有人走 agent 和 multimodal 的合并路线有人走分阶段流水线的路线。这并不奇怪当整个领域都在快速扩张时并行实验才是常态。但无论走的是哪条路线2026 年所有前沿模型共享一个共同的特征RL 已经成为后训练的中心而不是最后的点缀。和 2022–2023 年相比最大的变化不是 RL 算法本身的进步PPO 变成了 GRPO 固然有改进但真正改变的是整个后训练叙事的方向。以前人们问“怎么教模型听指令”现在人们问“怎么通过大规模 RL 不断让模型自己发现更好的推理策略”。在 InstructGPT 时代RL 是一个收尾步骤它的规模很小作用也有限。在 2026 年RL 是整个后训练的主干所有的数据生成、过滤、蒸馏、合并都是在 RL 框架内进行的。结尾后训练从算法问题变成了系统工程问题回看这一路从 2022 到 2026 年的变化你可能会有一个感受后训练这门手艺变得越来越不“学术”了。在 InstructGPT 时代一篇论文的 recipe 大致可以被另一个实验室复现。在 DeepSeek R1 时代复现已经需要大量的工程资源。到了 MOPD 的时代没有一个实验室能仅靠阅读论文就完整复现另一个实验室的后训练流程。因为每一家的 MOPD 背后都藏着数月或数年的团队协作、基础设施搭建、实验迭代和领域专业模型的构建。Nathan 在访谈中提到了一个非常实在的困惑两个做过前沿后训练的朋友来问我建议我都不知道怎么说。因为除非我花二十个小时去理解你们整个 recipe 的细节否则我不能随便给出一句话的建议——“你就做 X”——而不理解你的模型和流程中的所有复杂性。这句话恰好描绘了后训练在 2026 年的真实状态它已经从一门科学更多地变成了一门工程甚至是一门手艺。对于大多数读者来说不打算自己训练一个前沿模型这个趋势的意义是什么我认为至少有三点。第一基础模型的大规模预训练正在变得同质化。当所有人都在用类似的架构、类似的数据、类似的算力时模型之间真正的差异更多地来自后训练。一个模型是否擅长推理、是否好用、是否能理解复杂指令这些几乎全是后训练决定的。第二后训练决定了你使用的 AI 产品的真实体验。你面前的助手有多聪明、它愿不愿意在不确定的问题上承认不知道、它的代码写得有多好、它能不能在用工具时保持清醒……所有这些都不是来自预训练阶段的参数而是来自后训练阶段的大规模 RL 和工程打磨。很多人在讨论“下一代 AI 产品”时会自然地把注意力集中在基础模型的迭代上但产品体验的提升更多来自后训练的持续优化。第三后训练正在分化它不仅分化为不同的方法还分化为不同级别的能力。最前沿的实验室在运行复杂的 MOPD 流程来微调它们的基础模型而开放社区仍然在 Tülu 3 这样的简单三段式配方上耕耘。这两者的差距正在扩大。不是后训练本身变得更难了做 Tülu 3 的 recipe 仍然不难而是在最高水平上超越对手变得越来越难。那个关键的最后几个百分点需要的是工程规模、组织能力和训练基础设施的系统性优势。如果你想系统性地学习和研究后训练Nathan 的 RLHF Book[5] 会是一个很好的起点它涵盖了从数据收集到奖励建模到策略梯度到直接对齐同时包含了在线的交互版本和 Manning 出版的纸质书。还配套代码仓库[6]涵盖了所有主要算法的参考实现。此外他录制了一套完整的视频课程[7]。这些资源的价值在于它们提供了一个相对完整的地图你可以按自己的节奏从任何一个章节进入然后去理解每一个方法背后的直觉和实现细节。在后训练的世界里理解地图本身有时候就已经是走在前面了。结语抓住大模型时代的职业机遇AI大模型的发展不是“替代人类”而是“重塑职业价值”——它淘汰的是重复性、低附加值的工作却催生了更多需要“技术业务”交叉能力的高端岗位。对于求职者而言想要在这波浪潮中立足不仅需要掌握Python、TensorFlow/PyTorch等技术工具更要深入理解目标行业的业务逻辑如金融的风险控制、医疗的临床需求成为“懂技术、懂业务”的复合型人才。无论是技术研发岗如算法工程师、研究员还是业务落地岗如产品经理、应用工程师大模型都为不同背景的职场人提供了广阔的发展空间。只要保持学习热情紧跟技术趋势就能在AI大模型时代找到属于自己的职业新蓝海。最近两年大模型发展很迅速在理论研究方面得到很大的拓展基础模型的能力也取得重大突破大模型现在正在积极探索落地的方向如果与各行各业结合起来是未来落地的一个重大研究方向大模型应用工程师年包50w属于中等水平如果想要入门大模型那现在正是最佳时机2025年Agent的元年2026年将会百花齐放相应的应用将覆盖文本视频语音图像等全模态如果你对AI大模型入门感兴趣那么你需要的话可以点击这里大模型重磅福利入门进阶全套104G学习资源包免费分享扫描下方csdn官方合作二维码获取哦给大家推荐一个大模型应用学习路线这个学习路线的具体内容如下第一节提示词工程提示词是用于与AI模型沟通交流的这一部分主要介绍基本概念和相应的实践高级的提示词工程来实现模型最佳效果以现实案例为基础进行案例讲解在企业中除了微调之外最喜欢的就是用提示词工程技术来实现模型性能的提升第二节检索增强生成RAG可能大家经常会看见RAG这个名词这个就是将向量数据库与大模型结合的技术通过外部知识来增强改进提升大模型的回答结果这一部分主要介绍RAG架构与组件从零开始搭建RAG系统生成部署RAG性能优化等第三节微调预训练之后的模型想要在具体任务上进行适配那就需要通过微调来提升模型的性能能满足定制化的需求这一部分主要介绍微调的基础模型适配技术最佳实践的案例以及资源优化等内容第四节模型部署想要把预训练或者微调之后的模型应用于生产实践那就需要部署模型部署分为云端部署和本地部署部署的过程中需要考虑硬件支持服务器性能以及对性能进行优化使用过程中的监控维护等第五节人工智能系统和项目这一部分主要介绍自主人工智能系统包括代理框架决策框架多智能体系统以及实际应用然后通过实践项目应用前面学习到的知识包括端到端的实现行业相关情景等学完上面的大模型应用技术就可以去做一些开源的项目大模型领域现在非常注重项目的落地后续可以学习一些Agent框架等内容上面的资料做了一些整理有需要的同学可以下方添加二维码获取仅供学习使用