MiniMax强化学习
MiniMax 在大模型强化学习RL领域的探索非常激进且极具创新性。针对传统强化学习算法如 PPO 或 GRPO在长序列推理和混合专家MoE架构中遇到的瓶颈MiniMax 从算法底层到工程框架进行了一系列重构。结合 MiniMax 的 M1 和 M2.5 等代表性模型其强化学习的核心亮点主要体现在以下三个维度1. 核心算法创新CISPO 算法传统的 PPO 等算法在更新策略时会直接裁剪Clip低概率的 Token。这导致模型在长文本推理时容易丢弃像“然而”、“重新检查”等表示反思和转折的关键低概率词汇阻碍了深度推理能力的学习。为了解决这个问题MiniMax 提出了CISPOClipped Importance Sampling Policy Optimization算法核心机制CISPO 创新性地改为裁剪重要性采样权重而不是裁剪 Token 更新。这相当于“调节所有学生发言的音量”而不是“禁止某些学生发言”从而保留了长推理链条中关键转折点的梯度贡献。训练效果在数学推理等复杂任务中CISPO 的表现显著优于现有的 GRPO 和 DAPO 算法并且能够实现约 2 倍的训练加速极大地提升了学习效率和稳定性。2. 工程架构重构Forge 智能体原生强化学习框架随着模型越来越多地作为智能体Agent参与复杂任务传统的 Token-In-Token-Out 模式导致 Agent 与底层 Tokenizer 深度绑定工程复杂度极高。MiniMax 为此开发了Forge 框架彻底解耦Forge 引入了一个中间件抽象层将底层的训练-推理引擎与智能体完全解耦。这使得 MiniMax 可以在不修改任何 Agent 内部代码的前提下接入数百种框架和数千种工具进行训练。极致加速针对多轮 Agent 请求中大量重复的上下文前缀Forge 采用了“Prefix Tree Merging前缀树合并”策略将训练样本重构为树形结构实现了约 40 倍的训练加速并显著降低了显存开销。3. 奖励机制与训练效率的极致优化为了让模型更好地对齐真实世界的复杂需求MiniMax 在强化学习的奖励设计和成本控制上也做了针对性优化复合奖励机制在 M2.5 的训练中针对 Agent 长轨迹的信用分配难题MiniMax 设计了包含“过程奖励”、“任务完成时间奖励”和“Reward-to-Go”的复合奖励。这不仅监控最终结果还对 Agent 的中间行为进行密集监督并激励模型主动选择最短的执行路径。惊人的训练性价比得益于 Lightning Attention 架构和 CISPO 算法的结合MiniMax-M1 的完整强化学习训练在 512 块 H800 GPU 上仅耗时三周总成本控制在 53.47 万美元展现了极高的效率与性价比。总结来说MiniMax 的强化学习路线不仅仅是套用现有的 RLHF 模板而是通过CISPO 算法解决长文本推理的梯度丢失问题通过Forge 框架解决 Agent 工具调用的工程耦合问题从而在数学推理、复杂软件工程和智能体应用等场景中实现了性能与效率的双重突破。