规则和策略不能各学各的:JERP 用同一轨迹联合更新,解决 Agent 经验失同步
来源arXiv:2606.27136 · 2026年6月25日论文Joint Learning of Experiential Rules and Policies for Large Language Model Agents核心标签Experiential Rules · Policy Learning · Joint Update · Agent Experience 为什么你现在应该读这篇如果你在做 Agent 系统大概率同时在用两种经验利用方式外部规则如 SOUL.md 的行为准则和策略参数如微调后的模型行为。但你是否注意到这两者经常失同步——规则更新了但策略没跟上或者策略优化了但规则还停留在旧版本JERPJoint Learning of Experiential Rules and Policies解决的就是这个问题用同一交互轨迹同时驱动规则池修订和策略参数优化让两者保持同步对齐。三件做 Agent 经验系统的人不能不知道的事① 外部规则和策略参数各有优劣但失同步是致命的外部规则自然语言易解释、易修改但可能与策略行为不一致策略参数模型微调能广泛改进行为但在稀疏奖励下局部纠错有限。如果两者各学各的规则说先检查再修改但策略已经学会了直接修改——冲突导致行为不一致。② 联合学习的关键是同一轨迹驱动两者JERP 不是分别训练规则和策略而是在每个 episode 结束后用同一次交互轨迹同时更新规则池和策略参数。这保证了两者基于相同的经验演化不会失同步。③ 稳定行为会逐渐从规则吸收到参数JERP 的渐进吸收机制稳定有效的行为规则逐渐被吸收到模型参数中——从需要规则提醒才能做进化到自动做不需要提醒。这是从外部约束到内化行为的自然过渡。如果你正在做(1) Agent 经验积累系统(2) 规则策略混合架构(3) Agent 自主进化机制下面的细节可以直接搬。论文元信息来源arXiv:2606.27136 · 2026年6月25日作者Shicheng Ye, Chao Yu测试环境AlfWorld、WebShop核心创新规则池策略参数联合学习框架 渐进吸收机制核心场景你的 Agent 规则和行为各说各话想象一下你的 Agent 有一条规则修改代码前先运行测试。但经过多次微调后策略参数已经优化为直接修改更快——规则和行为冲突了。Agent 在执行时一会儿遵循规则先测试一会儿遵循策略直接改行为不一致。JERP 的解法规则池和策略参数用同一轨迹联合更新。如果某次直接修改导致了 bug规则池会新增修改前必须测试的规则同时策略参数也会被优化为更倾向于先测试——两者同步演化不会冲突。JERP 联合学习框架Episode 执行交互轨迹 │ ├──→ 规则池修订 │ · 对比当前 rollouts 与参考成功轨迹 │ · 修订自然语言规则 │ · 检索任务相关规则作为 Agent 条件 │ └──→ 策略参数优化 · 同一轨迹驱动策略梯度更新 · 稳定行为逐渐吸收到参数 │ ▼ 决策时融合 · 检索规则 交互历史 → 共同作为 Agent 条件 · 规则和策略保持同步对齐三种经验利用范式对比范式优势劣势外部规则易解释、易修改可能与策略失同步策略参数广泛改进行为稀疏奖励下局部纠错有限JERP 联合同步对齐 互补实现复杂度更高渐进吸收机制阶段1: 行为作为外部规则存在 · 规则池: 修改前先测试 · 策略: 需要规则提醒才执行 · 消耗: 每次检索规则 → 占用 context 阶段2: 行为被部分吸收 · 规则池: 修改前先测试仍存在 · 策略: 有时自动执行有时需要规则 · 消耗: 规则检索频率降低 阶段3: 行为完全内化 · 规则池: 规则可移除已内化 · 策略: 自动执行不需要规则 · 消耗: 零规则检索 → 零 context 占用这个机制意味着规则不是永久的——当行为被完全内化到参数后规则可以从外部池中移除释放 context 空间。So What三类人的行动清单 工程师用同一轨迹驱动规则和策略更新—— 不要分开训练在每个 episode 后同时更新规则池和策略参数实现渐进吸收检测—— 监控哪些规则对应的策略行为已经稳定可以移除外部规则明天就能做检查你的 Agent 系统中规则和行为是否一致——列出所有外部规则逐条检查策略行为是否匹配。不一致的就是失同步点 技术管理者规则-策略失同步是隐蔽的系统性风险—— 不像 bug 那样明显但会导致 Agent 行为不一致渐进吸收是 context 优化的路径—— 内化后的规则可以从 context 中移除释放 token 空间明天就能做让团队评估 Agent 系统中外部规则和策略行为的一致性——有多少规则被策略违反 创业者/PM规则和行为同步是 Agent 可靠性的基础—— 用户期望 Agent “说到做到”规则和行为不一致会损害信任渐进吸收是 Agent 成熟的标志—— 从需要提醒到自动做是 Agent 进化的自然路径明天就能做在产品中加一个规则一致性检查——Agent 的行为是否和声明的规则匹配⚠️ 方法论局限规则表示限于自然语言规则以自然语言存储复杂逻辑可能难以精确表达参考成功轨迹的依赖规则修订需要对比参考成功轨迹获取高质量参考轨迹的成本未讨论实验环境有限仅在 AlfWorld 和 WebShop 上验证更复杂真实场景的效果未知吸收检测机制何时判定行为已完全内化可以移除规则论文未给出明确的检测标准延伸阅读 论文https://arxiv.org/abs/2606.27136 互补阅读论文② SKILL-DISCO (arXiv:2606.26669) —— JERP 从经验中学习规则SKILL-DISCO 从轨迹中蒸馏技能 互补阅读论文① Memory Depth (arXiv:2606.26806) —— JERP 的渐进吸收和 EVAF 的参数固化方向一致 实践参考OpenClaw 的 SOUL.md规则 对话行为策略可以参照 JERP 实现联合更新⏱️如果只有 5 分钟看三种经验利用范式对比表 渐进吸收三阶段就够了。核心 takeaway 是规则和策略不能用不同轨迹各学各的必须联合更新。路易乔布斯 © 2026 · AI论文观察 · Experiential LearningarXiv:2606.27136 · 2026.06.28基于公开论文研读