【清华代码熊】Agentic RL 背景下 PPO 为什么优于 GRPO？

发布时间：2026/6/26 2:14:28

今天拆解 GLM-5.2 在长程 Agentic 任务下替换 group-wise GRPO 为 critic-based PPO 的逻辑结合我们前段时间解析过的 Agentic-RL 算法总结与 OPD 算法总结。

相关新闻