【Agentic RL / 强化学习 / OPD】OpenClaw-RL 源码阅读笔记 --- (3)--- 总体思考
0x00 概要本系列的目的是借着对 OpenClaw-RL 源码的学习来梳理强化学习的一些相关概念和思想。所以会有一些基础概念、扩展和发散OpenClaw-RL 只是一个切入点。而且因为整篇系列是一个整体所以有些概念的解读/学习会在不同的文章中出现还请大家谅解。OpenClaw-RL 是一个用于在线强化学习Online RL的框架专门针对智能体工具使用场景。它通过从环境反馈中提取过程奖励信号来训练语言模型支持三种主要模式openclaw-rl基于二元奖励的强化学习Binary RL / GRPOopenclaw-opd基于后见之明提示的在线策略蒸馏On-Policy Distillation, OPDopenclaw-combine联合方法在同一 PPO 更新中同时利用 RL reward 和 OPD teacher signal本篇是在一篇好文基础上的进一步思考若有错误还请读者不吝指出。0x01 四个要点1.1 三大不变量Agentic RL 训练它不是单一 RL 算 法而是一整套环境建模、学习信号、异步数据流、策略优化和基础设施的协同系统文中提到Agentic RL 的三个不变量第一不变量策略可探索空间不能过早塌缩第二不变量学习信号必须持续非退化第三不变量训练采样、参数更新和真实部署之间的偏移必须可控如果把 Agentic RL 理解成一个在真实环境里持续交互、持续采样、持续更新的策略学习系统那么最重要的就不再是这一步用哪种 RL 算法而是训练闭环能否长期守住三个更底层的条件。这里的不变量不是指某个量在数学上严格恒定而是指它们虽然会天然漂移却必须在整个训练过程中被不断拉回到一个仍然可学习和可优化的区间里。更准确地说前两个是不应跌破的下限策略探索空间不能塌缩学习信号不能退化。第三个是不应越过的上限Rollout 分布、更新分布与部署分布之间的偏移不能失控。这三个不变量并不是彼此独立的三条要素而是同一个训练系统的三个耦合边界。第一不变量决定策略空间是否还足够宽第二不变量决定这个空间里的差异能否转成有效梯度第三不变量决定这些梯度是否仍然作用在正确的分布上。1.2 扩展我们结合 OpenClaw-RL再扩展出四个要点。保护探索多样性(温度 KL约束)维持advantage的方差(归一化 rejection sampling)控制off-policy 偏移(staleness上限 解耦PPO)解决long-horizon 信用分配(turn discount dense reward shaping)因此Agentic RL 训练可以围绕着四个要点来理解Policy Entropy守护防止输出分布缩小保持policy对多样输入的响应弹性。梯度信号非退化从奖励源头开始保证奖励非全零(reward层)且每批次内 advantage 有足够方差(advantage 层)On-Policy Gap 约束数据生成策略与当前更新策略的 KL散度须在 clip ratio 有效范围内防止重要性采样失效。有效样本率维持确保进入训练的样本中有足够比例携带真实梯度信号(loss_mask1)而非被中性样本稀释。我们接下来看看OpenClaw-RL如何处理这几个不变量的。1.3 总览矩阵不变量① 不变量② 不变量③ 不变量④ Policy 梯度信号 On-Policy 有效样本 Entropy 非退化 Gap 约束 率维持 ─────────────────────────────────────────────────────────────────────────────────────── Binary RL ● 无正则 ● at-least-one ✓ PPO clip ● at-least-one 依赖用户多样性 majority vote kl_coef0 但 loss_mask0 样本仍入队 ─────────────────────────────────────────────────────────────────────────────────────── OPD ● 无正则 ● hint-reject ✓ PPO clip ✓ force-drop 依赖用户多样性 drop样本 teacher拉力 只有高质量hint ≈ 软KL约束 才进队 ─────────────────────────────────────────────────────────────────────────────────────── Combine ● 无正则 ✓ 3-way dispatch ✓ PPO clip ✓ 最严格 依赖用户多样性 互补两信号 双信号对冲 OPDRL才入队 最高风险 最强保障 On-Policy Gap 最低比例注at-least-one是指 当一个session的所有turn评分都是中性时强制将第一条被评估的turn的loss_mask设为[1]。at-least-one 解决的问题防止reward全零导致的训练信号完全消失信号缺失/奖励真空问题。我们具体解读下。1.4 不变量①面对第一不变量策略可探索空间不能过早塌缩我们看看如何保护探索多样性(温度 KL约束)。可探索空间 讨论我们先看看可探索空间的相关信息。单轮RL:探索空间 {不同回复风格丨同一个prompt}扁平的、单层的维护方式保持response 多样性Agentic RL:探索空间 {不同轨迹|同一个初始状态} 指数级树层级的、递归的维护方式在每个状态节点都保持行为多样性否则后续子树整个丢失关键差异Agentic RL的探索空间塌缩是传导的Step1塌缩→Step2可能的状态减少→Step3可能的状态更少单轮RL无此连锁反应OpenClaw-RLPolicy Entropy(三方法一致都未显式保障只有隐形保证)┌──────────┬─────────────────────┬─────────────────────────────┐ │ 方法 │ 实际依赖 │ 风险 │ ├──────────┼─────────────────────┼─────────────────────────────┤ │ 全部三种 │ 用户输入自然多样性 │ 用户群分布 drift 时无护栏 │ ├──────────┼─────────────────────┼─────────────────────────────┤ │ 全部三种 │ 短期训练窗口(未 overfit)│ 长时间运行可能熵崩 │ └──────────┴─────────────────────┴─────────────────────────────┘三种方法没有区别 --- 这是OpenClaw框架层面的选择(--no-entropy-reg)不是各方法独立决定的。1.5 不变量②针对第二不变量学习信号必须持续非退化我们来讨论如何维持advantage的方差 。梯度非退化讨论根本原因时间跨度越长信号越稀疏。单轮RL每条response 都直接对应一个reward即 1 response→ 1 reward → 1 次梯度更新梯度信号是密集的(dense reward)即信号密度1/1100%Agentic RL:Episode结束才有reward中间步骤无信号梯度信号是稀疏的(sparse reward)“制造非退化梯度“的代价在Agentic RL里大得多需要 Process Reward Model (PRM) 或 Step-Wise Reward否则 T 步episode只有最后1步有梯度比如20步episode20 steps→1 terminal reward → 20次梯度更新有效信号密度1/205%其余19步reward0→advantage~0 → 梯度 ≈ 0OpenClaw-RL梯度信号非退化(三方法有显著差异)Binary RL:Reward 层majority vote(m3)降低None概率at-least-one保证如果session中全score 0 → 强制第一条loss_mask1Advantage 层无 baseline方差未约束。→ 一批全1或全-1时advantage无对比梯度退化OPD:Reward层N/A(无整体reward用teacher log-prob)Advantage层teacher_lp - rollout_lp 天然有正有负(不同token 教师偏好各异)→ 单条样本内advantage 自然不退化hint-reject → drop(而非置零)保证进队的都是高信噪比样本Combine:两路信号互补 最强的梯度非退化保障当GRPO全为1→OPD的per-token差值仍有正负→总advantage未退化当OPD级联噪声→GRPO的全局均值拉回→方向不完全消失1.6 不变量③针对第三不变量训练采样、参数更新和真实部署之间的偏移必须可控我们来讨论如何控制off-policy 偏移。Off-Policy Gap讨论单轮RL一条response一个训练单元生成后立即训练off-policy gap很小Agentic RL:一个episodeT步Episode开始时用的是policy_oldT步后policy可能已更新多次→ 前面步骤的数据相对policy_T更加off-policy→ Off-Policy Gap f(episode_length)。episode越长gap越大PPO clip假设越容易被违反OpenClaw-RLOn-Policy Gap约束(三方法一致PPO clip兜底)统一依赖PPO clip(e0.2e_high0.28)ratio t_0_new(a|s) / t_0_old(a/s)超出 [0.8 1.28] 的 ratio 被截断 → 隐式 KL 约束OPD特有的额外保障teacher_lp - rollout_lp 的梯度方向 向 teacher 靠拢 隐式 KL 拉力→ 防止 policy 漂离有 teacher 指导的区域三种方法的 On-Policy Gap 风险都不大因为 OpenClaw 是在线服务数据实时产生天然接近 on-policy。weight sync 暂停窗口是主要偏差来源被 503 pause 机制控制。1.7 不变量④我们看看如何解决long-horizon 信用分配(turn discount dense reward shaping)有效样本率讨论单轮RL每条response 1个样本有reward就有梯度Agentic RL:每个episode T步但可能只有1个terminal reward前T-1步reward0 → 无梯度(用0填充)“有效样本率“的真正含义在Agentic RL里变成reward信号能有效反向传播到多少步的actionOpenClaw-RL有效样本率Binary RL:loss_mask 0 的样本仍进训练队列(Megatron 做零梯度forward)→ 占用GPU计算资源但无学习信号→ 有效样本率 (score ≠ 0的turn 数) / (队列总turn数)at-least-one 保障下限每 session ≥ 1个有效样本OPD:hint-reject→完全不进队→有效率最纯净所有进入队列的样本loss_mask全为1但效率上限 ≤ hint accept rate(hint 拒绝率可能很高)Combine:OPD-only RL-only OPDRL 都进队但hint-rejected AND eval0 → drop (最严格过滤)结果样本数最少但信号质量最高(每条都有至少一路有效信号)1.8 设计哲学小结Binary RL → 宁愿噪声多不放弃任何数据(at-least-one 全入队)OPD → 宁愿数据少只要高纯度信号(hint-accept才入队)Combine → 精准门控按信号类型分路最大化信噪比0x02 第一不变量理解我们在本小节再仔细学习理解下 第一不变量策略可探索空间不能过早塌缩。2.1 直觉理解塌缩 模型“认定“了某种回复模式放弃探索其他可能性。具体如下训练前(高entropy充分探索)P(好的我来帮你) 0.15P(让我分析一下) 0.18P(这个问题需要...) 0.20P(首先...) 0.12...(很多候选均匀分布)过早塌缩后(低entropy退化)P(让我分析一下) 0.87P(“好的我来帮你) 0.08P(其他所有)0.052.2 深入思考第一不变量不是说模型要随机”而是说在每种情境下模型必须仍然知道多种有意义的应对方式并且真实地有能力选择它们。这是RL持续学习的前提条件一没有这个可探索空间后续的奖励信号无论多精确都无法引导模型走向更好的策略。2.2.1 多样性此处回答为什么token级随机性不等于探索”支撑集支撑集(Support)的数学含义分布P的支撑集 所有概率 0 的事件集合Token 级支撑集 ≠ 行为级支撑集。示例模型在token 1选Let时有(LetFirstToI)都有高概率但一旦选了Let之后的token高概率会走直接推理路径结论token级很高但行为级已经锁定成直接推理这一种策略。表面上”每个token位置的词表分布仍有多样性但是”模型生成的所有回答都遵从同一种模式。”直接推理就是永远走” → 长链推理 → → 答案的固定模板。行为级支撑集崩塌(Support Collapse)训练前P(分解为子问题策略)30%P(直接推理策略)40%P(先搜索再答策略) 20%P(反例验证策略)10%RL训练后(1奖励集中在直接推理)P(分解为子问题策略) 2% 快崩塌了P(直接推理策略) 94% 支撑集过度收缩