今天拆解 GLM-5.2 在长程 Agentic 任务下替换 group-wise GRPO 为 critic-based PPO 的逻辑结合我们前段时间解析过的 Agentic-RL 算法总结 与 OPD 算法总结。