中科院揭秘:多步工具RL为何崩溃?监督信号给出解法
Why Multi-Step Tool-Use Reinforcement Learning Collapses and How Supervisory Signals Fix It作者Yupu Hao, Zhuoran Jin, Huanxuan Liao, Kang Liu, Jun Zhao核心发表机构Chinese Academy of Sciences、University of Chinese Academy of Sciences论文链接arXiv:2606.26027v1发布于arXiv 预印本cs.CL—|------|------|---------|---------|---------|------|| Qwen2.5-1.5B | Vanilla | 4.0 | 5.0 | 1.0 | 4.0 | 3.50 || |SFT BFCL \text{SFT}_{\text{BFCL}}SFTBFCL| 15.0 | 4.0 | 6.0 | 7.0 | 16.75 || |GRPO (纯RL)| 0.0 | 0.0 | 0.0 | 0.0 | 0.0 (崩塌) || |SFT BFCL \text{SFT}_{\text{BFCL}}SFTBFCL RL | 21.0 | 22.0 | 19.0 | 7.0 | 17.25 || |SFT ToolACE \text{SFT}_{\text{ToolACE}}SFTToolACE RL | 23.0 | 23.0 | 13.0 | 10.0 | 17.25 || | OPS | 1.0 | 3.0 | 1.0 | 1.0 | 1.50 || | HBG | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 || | ETS | 26.0 | 25.0 | 16.0 | 13.0 | 20.0 || |PRS|31.0|25.0|26.0|21.0|25.75|| Qwen3-1.7B | Vanilla | 14 | 11 | 14 | 11 | 12.5 || |SFT BFCL \text{SFT}_{\text{BFCL}}SFTBFCL| 23 | 20 | 23 | 14 | 20.0 || |SFT ToolACE \text{SFT}_{\text{ToolACE}}SFTToolACE| 12 | 10 | 5 | 8 | 8.75 || |GRPO| 2 | 0 | 2 | 2 | 1.5 || |SFT BFCL \text{SFT}_{\text{BFCL}}SFTBFCL RL | 0 | 0 | 0 | 0 | 0.0 (再次崩塌) || |SFT ToolACE \text{SFT}_{\text{ToolACE}}SFTToolACE RL | 0 | 0 | 0 | 0 | 0.0 |关键观察纯 GRPO 在两个模型上均导致灾难性崩塌平均 0.0 或 1.5。SFTRL 在 Qwen2.5-1.5B 上提升至 17.25但在 Qwen3-1.7B 上仍崩塌至 0.0表明 SFT 后接 RL 并非万能。同步方法 OPS 和 HBG 在所有设置上几乎无效。交错方法 ETS 和 PRS 表现最好其中 PRS 在 Qwen2.5-1.5B 上达到平均 25.75显著超越 ETS (20.0) 和 SFTRL (17.25)。训练动态曲线奖励和 KL 散度进一步验证了崩塌过程。下图显示了 Qwen2.5-1.5B 在 BFCL-V3 上不同方法的训练动态左图为奖励右图为 KL 散度。纯 RL (GRPO) 的奖励迅速下降至零并伴随 KL 飙升而 SFTRL 和 PRS 保持了稳定奖励。对于 Qwen3-1.7B其在 Miss Param 场景下不同监督信号的评估结果图略但已提供类似趋势。4.3 消融实验 / Ablation Study我们进行了以下几组消融分析监督信号有效性排序在 Qwen2.5-1.5B 上PRS ETS SFTRL OPS ≈ HBG ≈ GRPO崩塌。ETS 明显优于简单 SFTRL说明针对失败案例重点校正有效PRS 进一步优于 ETS表明过程反思提供更丰富的文本引导。训练范式同步 vs. 交错同步方法 OPS 和 HBG 基本无效甚至恶化原因在于分布不匹配采样时的引导在优化时被移除或混入离策略数据导致策略混淆。交错方法 ETS 和 PRS 表现出色。学习率分析下图展示了 Qwen2.5-1.5B 在不同学习率下的性能变化Y轴为相对于 Vanilla 基线的增益/损失X轴为不同配置和训练阶段。结果表明1e-6 学习率过于保守提升有限1e-5 学习率对 SFT (BFCL) 更有效但对 SFT (ToolACE) 初期因分布不匹配性能下降后续 RL 能恢复。与 ETS 结合时更大的学习率 (1e-5) 一致地提升所有指标说明错误驱动监督对优化尺度更敏感。OOD 泛化分析在 ACEBench 上的 OOD 评估格式 OOD 和内容 OOD显示SFT 导致格式过拟合在 ID 上表现优异的 SFTRL 在格式 OOD 上大幅下降例如 Qwen2.5 的 SFT_BFCL RL 在格式 OOD 上降为 0但在内容 OOD 上下降没那么剧烈。而训练中表现不稳定的方法如 GRPO 单独、OPS、HBG在格式内容 OOD 下反而更稳定证实了崩溃是格式特定的 token 级概率偏移而非全局能力丧失。PRS 在 OOD 评估中表现出更强的鲁棒性因为它充当了逻辑正则化器。五、相关工作 / Related Work工具学习现有工作主要通过推理框架ToolLLM、API-Bank、大规模高质量轨迹合成ToolACE以及 SFT 或 RL 来扩展 LLM 工具使用能力。RL 能提升工具调用性能但严重依赖基座模型的先验工具知识。小模型或弱初始化模型难以从 RL 获益。本文指出高质量 SFT 数据本身可提供强性能启发将监督信号融入 RL 以稳定多轮交互。强化学习中的专家轨迹近期方法如 LUFFY、ReLIFT 通过替换部分采样轨迹为专家轨迹、交替 RL 与针对性 SFT 等提升 RL。其他方法利用部分正确答案或检索经验。但这些方法主要在单轮推理如数学中研究在多步工具使用场景下的效果尚不明确。本文系统研究了这些方法在多步工具使用场景中的适用性并提出了新的过程反思监督。六、局限性与展望 / Limitations Future Work尽管本文取得了显著进展但仍存在以下局限性OOD 泛化不足交错式 SFTRL 在标准测试上表现好但在格式和内容分布外评估时性能下降。虽然 PRS 缓解了这一问题但尚未完全解决。未来需要设计更鲁棒的训练策略例如自适应的分布外检测或数据增强。模型规模限制实验主要基于 1.5B-1.7B 参数量的模型更大规模如 7B的崩塌模式可能不同。初步结果显示 Qwen3-1.7B 上 SFTRL 仍会崩塌表明更大模型不保证稳定性。未来应在更大模型上验证。数据集依赖仅使用 BFCL-V3 和 ACEBench其他多步工具场景如数据库操作、网页导航结果未知。训练数据量相对有限仅 300 条未探索数据规模对结果的影响因为开源的可验证工具调用环境有限。监督信号的设计PRS 依赖外部 LLM如 gpt-5-mini生成反思引入额外计算开销和依赖。未来可探索轻量级或自生成反思机制。学习率敏感性虽然发现更大学习率对错误驱动监督有效但其最佳值仍依赖经验调整缺乏理论指导。未来工作方向包括将 PRS 扩展到更复杂的工具链、结合在线与离线数据分布匹配的算法以及探索跨模型和跨任务的泛化能力。七、总结 / Conclusion本文系统研究了多步工具使用强化学习中灾难性崩塌的机制与修复方法。我们发现崩塌源于控制 token 概率的意外激增而非底层能力丢失。通过分析同步与交错两种范式下的五种监督信号我们证明了错误轨迹监督ETS和过程反思监督PRS能显著提高稳定性和性能其中 PRS 通过从中间步骤提取文本反思作为指导在 Qwen2.5-1.5B 上达到了平均 25.75 的准确率。此外我们揭示了学习率的关键影响以及分布式外泛化的挑战。这些发现为构建鲁棒的多步工具使用智能体提供了重要指导并强调了监督信号在结构化探索中的核心作用。代码已开源至 https://github.com/hypasd-art/Tool-RL-Box。原文摘要:Tool use enables large language models (LLMs) to perform complex tasks, and recent agentic reinforcement learning (RL) methods show promise for enhancing model capabilities. However, RL alone often leads to instability or limited gains in tool-use tasks. In our experiments, some models exhibit catastrophic collapse, where performance abruptly drops and tool-invocation structures fail. The analysis reveals that these failures stem from unexpected probability spikes in specific control tokens, disrupting structured execution, yet the underlying tool-use capability remains intact, merely obscured by specific formats. To address this, we systematically investigate a diverse set of supervisory signals, including off-policy supervision, hint-based guidance, erroneous example supervision, and others, applied under both synchronous and interleaved training schemes. We find that interleaving supervised fine-tuning (SFT) with RL substantially improves stability, but exhibits degraded performance under format and content out-of-distribution (OOD) evaluation. We also analyze the impact of learning rates and generalization across settings. These results highlight the importance of understanding RL failures and demonstrate how diverse supervisory signals can guide exploratory learning, enabling robust training of LLMs for complex, multi-step tool-use tasks. Our Code is available at https://github.com/hypasd-art/Tool-RL-Box.PDF链接:https://arxiv.org/pdf/2606.26027v1部分平台可能图片显示异常请以我的博客内容为准