【强化学习】一文带你了解PPO之前的强化学习:从试错理论到深度决策,半个世纪的思想传承
上一篇我们详细拆解了强化学习的「国民算法」PPO它以极简的实现与极强的稳定性成为了从机器人控制到大模型 RLHF 的通用基线。但 PPO 并非横空出世它的每一个核心设计 ——Actor-Critic 架构、广义优势估计、策略更新约束 —— 都能在强化学习半个多世纪的发展史上找到思想源头。今天我们就顺着时间线复盘 PPO 诞生之前的强化学习发展路线看看那些经典算法留下了哪些延续至今的核心遗产。一、思想萌芽与数学奠基1950s-1970s从心理学到 MDP 框架强化学习的思想源头并非计算机科学而是心理学中的「试错学习」而它能成为一门严谨的学科核心是找到了马尔可夫决策过程这一数学底座。1. 思想起源动物的试错学习1898 年心理学家桑代克通过「迷笼实验」提出了效果律Law of Effect带来满意结果的行为会被重复带来痛苦结果的行为会被削弱。这是强化学习「奖惩驱动行为优化」最底层的逻辑源头直到今天的 RLHF 依然遵循这套逻辑 —— 回答符合人类偏好就给正向奖励反之则给负向奖励。1950 年图灵在《计算机器与智能》中首次提出了「奖惩 - 惩罚」式的机器训练思路首次将试错学习与人工智能关联起来。但此时还没有形成完整的算法框架。2. 数学底座贝尔曼动态规划与 MDP1957 年理查德・贝尔曼提出了动态规划Dynamic Programming与马尔可夫决策过程Markov Decision Process, MDP为强化学习奠定了严格的数学基础。MDP 用「状态 S、动作 A、奖励 R、转移概率 P、折扣因子 γ」五元组完整描述了一个序列决策问题贝尔曼方程给出了状态价值的递归关系V(s)E[rγV(s′)]V(s) \mathbb{E}[r \gamma V(s)]V(s)E[rγV(s′)]即当前状态的价值等于即时奖励加上下一状态的折扣价值。延续至今的核心遗产直到今天所有强化学习算法包括 PPO、SAC、GRPO都默认基于 MDP 框架建模。贝尔曼方程的「自举Bootstrapping」思想 —— 用后续状态的价值估计更新当前状态价值 —— 贯穿了从 Q-learning 到 DQN 再到 PPO 的所有主流算法。3. 早期求解方法策略迭代与价值迭代1960 年霍华德提出策略迭代策略评估 策略改进循环和价值迭代算法完美解决了已知环境模型的 MDP 求解问题。但这类方法需要完整知道环境的转移概率只能解决棋盘、迷宫等规则完全透明的简单问题无法应用于真实世界的未知环境。这一阶段的局限也很明显所有方法都依赖环境模型只能处理极小的离散状态空间距离真正的「从交互中学习」还有很远的距离。二、表格型强化学习黄金时代1980s-1990s真正的「从交互中学习」1980 年代强化学习正式摆脱了「已知环境模型」的限制走向了纯靠交互采样的无模型强化学习。这一阶段的算法都基于表格存储价值因此也被称为表格型 RL。1. 时序差分学习TD (λ)1988 年强化学习泰斗 Sutton 提出了时序差分学习Temporal Difference, TD这是强化学习历史上里程碑式的突破。核心思想结合蒙特卡洛的采样思想和动态规划的自举思想不需要等整个回合结束每走一步就用「当前奖励 下一步价值估计」来更新当前价值经典算法TD (λ)通过 λ 参数平衡单步 TD 与蒙特卡洛的偏差 - 方差 trade-off。经典应用1992 年 Tesauro 基于 TD (λ) 和神经网络开发的TD-Gammon在双陆棋上达到了人类冠军水平这是神经网络 强化学习的第一次惊艳亮相只是受限于当时的算力没有形成规模化爆发。2. Q-learning异策略的王者1989 年Watkins 提出了Q-learning彻底奠定了无模型强化学习的范式。核心原理直接学习动作价值函数 Q (s,a)更新公式为Q(s,a)←Q(s,a)α[rγmaxa′Q(s′,a′)−Q(s,a)]Q(s,a) \leftarrow Q(s,a) \alpha [r \gamma \max_{a} Q(s,a) - Q(s,a)]Q(s,a)←Q(s,a)α[rγmaxa′Q(s′,a′)−Q(s,a)]核心特点异策略Off-policy—— 学习时用贪婪策略选最优动作而交互时可以用探索策略如 ε-greedy行为策略和学习策略可以分离。Q-learning 的出现让智能体可以在完全未知的环境中仅通过交互试错就学到最优策略是强化学习真正走向实用的标志。3. SARSA同策略的稳健派1994 年Rummery 和 Niranjan 提出了SARSAState-Action-Reward-State-Action。与 Q-learning 的核心区别同策略On-policy更新时使用下一步实际执行的动作而不是最优动作特点学习更保守、更稳健在有风险的环境中更安全但收敛速度慢于 Q-learning。本阶段的核心遗产无模型学习范式不需要知道环境动力学纯靠交互采样就能学习这是所有现代深度强化学习的基本模式探索与利用的平衡ε-greedy、玻尔兹曼探索等策略直到今天仍是 RL 算法的标配异策略与同策略的分野这一分类延续至今 ——DQN、SAC 属于异策略路线PPO、A2C 属于同策略路线。局限也很明显表格存储 Q 值只能处理离散、有限的状态空间面对图像、连续控制等高维状态完全无能为力。三、函数逼近时代1990s-2013 年走出表格走向策略梯度随着状态空间变大表格法彻底失效研究者开始用函数线性函数、神经网络来拟合价值函数或策略函数强化学习进入了函数逼近时代。1. 策略梯度方法的诞生REINFORCE1992 年Williams 提出了REINFORCE 算法首次将策略梯度引入强化学习开创了「直接优化策略」的全新路线和之前的「先估价值再选动作」的价值类方法形成了两大分支。核心思想参数化策略 π_θ(a|s)直接沿着「让累计奖励期望变大」的方向更新策略参数核心公式策略梯度定理∇θJ(θ)E[∇θlogπθ(a∣s)⋅Gt]\nabla_\theta J(\theta) \mathbb{E}[\nabla_\theta \log \pi_\theta(a|s) \cdot G_t]∇θJ(θ)E[∇θlogπθ(a∣s)⋅Gt]其中 G_t 是从当前步到回合结束的累计回报。REINFORCE 是所有策略梯度算法的祖宗 ——PPO、TRPO、A2C本质上都是在 REINFORCE 的基础上做方差缩减与稳定性改进。但原生 REINFORCE 的问题非常突出方差极大训练极不稳定学习率很难调必须等整个回合结束才能更新样本效率极低。2. Actor-Critic 框架策略与价值的结合为了解决 REINFORCE 方差大的问题研究者将价值函数引入策略梯度形成了 \\Actor-Critic演员 - 评论家\\架构Actor演员负责学习策略输出动作Critic评论家负责学习价值函数评估动作的好坏用优势函数替代累计回报 G_t大幅降低梯度方差。Actor-Critic 的出现实现了单步更新提升了样本效率同时大幅稳定了训练。这一架构也成为了现代深度强化学习的绝对主流 ——PPO、SAC、TD3、DDPG 全部基于 Actor-Critic 框架。3. 自然策略梯度与 TRPO 的前奏策略梯度的一个核心痛点是参数空间的梯度步长不等于策略空间的实际变化幅度很容易出现「一步更新、策略崩掉」的情况。2002 年Kakade 提出自然策略梯度用 Fisher 信息矩阵对梯度做缩放让策略更新在分布空间中保持稳定步长。这一思想直接催生了后来的 TRPO也为 PPO 的裁剪机制提供了核心动机 —— 用更简单的方式达到同样的「限制策略更新幅度」的目标。四、深度强化学习爆发期2013-2017深度学习与 RL 的强强联合2012 年 AlexNet 引爆深度学习革命后研究者迅速将 CNN、DNN 与强化学习结合深度强化学习DRL时代正式到来。在 PPO 出现之前的四年里多个里程碑式的算法接连诞生直接铺垫了 PPO 的成功。1. DQN深度强化学习的开山之作2013 年 DeepMind 提出 DQN2015 年登上 Nature直接让深度强化学习走入大众视野。核心做法用卷积神经网络替代 Q 表直接输入游戏像素画面输出每个动作的 Q 值两大稳定技巧经验回放Experience Replay把交互数据存进回放池训练时随机采样打破数据时序相关性稳定训练目标网络Target Network单独冻结一个目标网络计算目标 Q 值避免「追逐移动目标」的不稳定问题。成就在 49 款 Atari 游戏上达到了人类水平部分游戏远超人类。局限只能处理离散动作无法适配机器人控制等连续动作场景训练依然不稳定容易出现 Q 值过估计。2. DDPG连续控制的深度方案2015 年Lillicrap 等人提出DDPG深度确定性策略梯度将 DQN 的思路扩展到了连续动作空间。核心设计确定性 Actor 网络直接输出连续动作值Critic 网络评估动作价值同时沿用了 DQN 的经验回放和目标网络还加入了软更新机制。意义首次让深度强化学习能稳定处理高维连续控制任务成为机器人控制领域的早期基线。局限训练依然很脆弱超参稍微不对就不收敛容易陷入局部最优。3. A3C / A2C并行化的 Actor-Critic2016 年 DeepMind 提出A3C异步优势 Actor-Critic用多线程并行采样的方式替代了经验回放。核心思路多个线程的智能体同时和环境交互异步更新全局网络天然打破数据相关性优势训练速度极快不需要回放池内存占用低后续演进同步版本 A2C 实现更简单效果和 A3C 相当成为了后续 PPO 的基础采样框架。PPO 的「多环境并行采样、固定步长 T 更新」的模式正是直接继承自 A2C。4. TRPO理论最优雅的策略优化2015 年 Schulman 等人提出TRPO信任域策略优化是策略梯度领域的理论巅峰。核心思想在策略更新时加入 KL 散度约束信任域保证新旧策略的差异不超过阈值从而实现策略性能的单调提升成就首次让策略梯度算法实现了极其稳定的训练在复杂连续控制任务上远超之前的所有算法。致命局限实现极其复杂需要共轭梯度法求解约束优化不兼容 Dropout、参数共享等深度学习常用技巧工程落地门槛极高。而 PPO 的核心目标就是用最简单的一阶优化达到接近 TRPO 的稳定性 —— 这也正是 PPO 诞生的直接背景。五、跨越半个世纪的思想传承哪些核心设计沿用至今从 1950 年代的 MDP 到今天的 GRPO、RLHF强化学习的算法迭代了很多代但底层的核心思想几乎全部来自 PPO 之前的时代。PPO 之所以成功本质是把前人的优秀思想做了一次极致的工程化整合。1. MDP 与贝尔曼方程永恒的数学底座从 Q-learning 到 PPO再到今天大模型的 GRPO所有强化学习算法都没有跳出「状态 - 动作 - 奖励 - 转移」的 MDP 框架贝尔曼方程的递归价值思想依然是所有价值估计的基础。哪怕是大模型 RLHF本质也可以建模成一个序列决策的 MDP 问题。2. Actor-Critic 架构深度 RL 的主流范式Actor 做决策、Critic 做评估的分工模式从 1990 年代提出后就成为了深度强化学习的绝对主流架构。PPO、SAC、TD3、DDPG 全部基于这一框架甚至最新的 GRPO 虽然去掉了独立 Critic但依然用组内奖励基线做优势估计本质还是 Actor-Critic 的思想延续。3. 「限制更新幅度」的稳定性追求从自然策略梯度到 TRPO再到 PPO 的裁剪机制核心目标从来没变防止策略更新过大导致训练崩溃。TRPO 用硬约束实现PPO 用裁剪损失实现GRPO 用相对优势隐式约束 —— 不同的实现方式同一个底层思想。这条路线也一直延续到了今天的大模型 RL 对齐中。4. 时序差分与自举样本效率的核心TD 学习的「用下一步价值估计更新当前状态」的自举思想从表格时代延续到了深度时代。PPO 中使用的广义优势估计GAE正是 TD (λ) 在 Actor-Critic 框架下的直接扩展用来平衡偏差与方差提升优势估计的质量。5. 探索与利用的平衡从 ε-greedy 到熵正则化鼓励探索、避免过早收敛的设计贯穿始终。PPO 损失函数中的熵奖励项就是这一思想在策略梯度中的经典实现而 SAC 的最大熵框架更是把探索融入了优化目标本身。6. 样本复用的工程优化从 DQN 的经验回放到 PPO「采样一次、更新多轮」的设计本质都是在提升样本利用效率。这条路线也一直延续到了离线强化学习、大模型 RLHF 等场景中。结语回看强化学习的发展史没有哪个算法是凭空出现的奇迹。PPO 不是颠覆式的创新它更像一位优秀的集大成者它继承了 A2C 的并行采样框架沿用了 Actor-Critic 的双网络架构与 GAE 优势估计用极简的裁剪机制实现了 TRPO 级别的训练稳定性同时兼容离散与连续动作适配几乎所有决策场景。正是站在半个世纪的思想积累之上PPO 才能成为强化学习领域的「通用首选」。而今天我们看到的 GRPO、多智能体强化学习、大模型 RL 对齐也依然在延续着从桑代克、贝尔曼、Sutton 一路传承下来的核心逻辑 ——通过试错与奖惩学习最优的序列决策。技术的进步从来不是单点突破而是代代相传的迭代与沉淀。理解了 PPO 之前的发展史才能真正看懂 PPO 为什么伟大也才能更清晰地判断强化学习未来的演进方向。