强化学习背景讨论试错与延迟收益强化学习最核心的两个特征试错探索智能体必须主动尝试不同的动作才能发现哪些动作能带来最大收益。延迟奖励当前动作的影响可能在很久之后才会显现下棋时的开局落子就是典型例子。机器学习三大范式监督学习存在全知的导师通过带标签的数据学习让系统具备推理和泛化能力能够响应不同情景并做出正确动作。局限在于不适用于交互中学习的场景——我们无法穷举所有既正确又有代表性的动作示例。无监督学习从无标签数据中发现隐藏结构。强化学习没有导师只有环境给出的奖励信号通过在环境中试错来最大化累积收益。试探与开发之间的折中智能体必须利用已有经验来获取收益同时也要保持一定程度的探索以便未来能找到更好的动作。这一点让我联想到近年学术界关于 Agent “Understanding” 与 “Generation” 的讨论参考文献附下供感兴趣的读者进一步学习Understanding World or Predicting Future? A Comprehensive Survey of World ModelsQuantifying the Gap between Understanding and Generation within Unified Multimodal ModelsShow-o: One Single Transformer to Unify Multimodal Understanding and GenerationOpen Question对于一个 LLM 智能体来说在观测中学习与在交互中学习哪个更重要学习方式优化目标优化方向对应阶段观测中学习Deep Learning损失函数最小化梯度下降LLM 预训练交互中学习Reinforcement Learning预测收益最大化梯度上升LLM 后训练笔者认为LLM 的预训练类似九年义务教育——学到的内容未必直接有用但培养了独立思考、规划等抽象能力。具象地看这些能力对应模型里某些可迁移的 skill抽象地看可以理解成模型某个区域沉淀下来的参数类比人类的智力底座。后训练则像大学阶段的专业教育仍然依赖之前打下的基础但学习领域更聚焦方法也不同比如 SFT 和 RL。强化学习还有一个关键特征它明确地把目标导向的智能体与不确定环境之间的交互作为一个整体来建模而其他很多方法只讨论其中某个子问题。比如机器学习领域大量研究都聚焦于有监督学习却没有回答这种学习方式在更大系统里究竟扮演什么角色。强化学习与其他学科之间的互动强化学习利用参数化近似解决了运筹学与控制论中经典的维度灾难问题。在传统控制论里找最优策略需要把每一个状态都存进表格。玩井字棋只有几千个状态建表没问题但围棋的状态数达到10 170 10^{170}10170比宇宙原子总数还多控制机械臂时关节角度是连续变量状态空间直接变成无限的。传统运筹学和动态规划在这里彻底失效——内存装不下算力也耗不起。强化学习的解法是既然记不住所有状态就干脆不记。用一个带参数的函数——比如神经网络——来近似每个状态的价值。我们不需要为每个围棋局面存一个确定的胜率只需要训练一个含权重参数θ \thetaθ的网络给定一个从未见过的棋盘网络通过这组参数算出一个估算胜率。强化学习给出的动物学习心理学模型对很多经验数据有更好的拟合也为大脑奖励机制提供了一个重要的计算模型。心理学里有斯金纳箱的操作性条件反射和桑代克效果律动物做某个动作得到好结果之后做这个动作的概率就会升高。强化学习尤其是基于时序差分的 TD 算法用严谨的数学公式重现了这个过程。心理学界著名的雷斯科拉-瓦格纳模型在数学本质上与 RL 的误差更新公式几乎一致。多巴胺与 TD 误差这是 20 世纪末神经科学最令人震惊的发现之一。早期人们以为多巴胺代表快乐但神经科学家 Wolfram Schultz 在恒河猴实验中观察到了完全不同的模式猴子毫无预期地得到果汁时多巴胺神经元剧烈放电——表示惊喜。猴子学会铃声预示果汁后铃声一响多巴胺就放电真正喝到果汁时反而不放电了。铃声响了但没给果汁多巴胺神经元的活跃度不升反降——表示失望。Sutton 等人看到这个结果后极为震惊因为多巴胺的这种脉冲模式和强化学习最核心的时序差分误差完全吻合δ t R t 1 γ V ( S t 1 ) − V ( S t ) \delta_t R_{t1} \gamma V(S_{t1}) - V(S_t)δt​Rt1​γV(St1​)−V(St​)预期之外的奖励→ \rightarrow→δ 0 \delta 0δ0→ \rightarrow→多巴胺上升符合预期的奖励→ \rightarrow→δ 0 \delta 0δ0→ \rightarrow→多巴胺不变预期落空→ \rightarrow→δ 0 \delta 0δ0→ \rightarrow→多巴胺下降强化学习要素强化学习有四个核心要素策略、收益信号、价值函数以及可选的环境模型。这里重点说一下收益信号和价值函数的区别收益信号衡量的是即时的好坏价值函数衡量的是长远的好坏。一个状态的价值是智能体从该状态出发、遵循当前策略所能累积的期望收益。策略π \piπ智能体的决策规则定义在状态s ss下选择动作a aa的概率π ( a ∣ s ) P [ A t a ∣ S t s ] \pi(a|s) \mathbb{P}[A_ta \mid S_ts]π(a∣s)P[At​a∣St​s]收益信号R t R_tRt​环境反馈的即时标量值代表系统的短期目标。智能体在状态S t S_tSt​采取动作A t A_tAt​后环境转移到S t 1 S_{t1}St1​并给出即时收益R t 1 R_{t1}Rt1​。价值函数v π ( s ) v_\pi(s)vπ​(s)对未来长期累积奖励的预测。一个状态的即时收益可能很低但只要它通往高收益状态其价值依然很高。首先定义回报γ \gammaγ为折扣因子G t R t 1 γ R t 2 γ 2 R t 3 ⋯ ∑ k 0 ∞ γ k R t k 1 G_t R_{t1} \gamma R_{t2} \gamma^2 R_{t3} \dots \sum_{k0}^{\infty} \gamma^k R_{tk1}Gt​Rt1​γRt2​γ2Rt3​⋯k0∑∞​γkRtk1​状态价值函数是对状态s ss的长远评估v π ( s ) E π [ G t ∣ S t s ] v_\pi(s) \mathbb{E}_\pi [G_t \mid S_t s]vπ​(s)Eπ​[Gt​∣St​s]注意公式里的E π \mathbb{E}_\piEπ​说明价值不只取决于当前状态还高度依赖后续所遵循的策略。RL 的局限性与进化算法的对比RL 在过程中学习进化方法在结果中筛选。探索本身是盲目的但留存下来的经验是有方向的。目前 LLM 的 Self-Evolution 概念很火不妨回头看看早些年的优化算法是怎么定义进化的。以下是四类经典算法的伪代码由 Gemini 生成A. 遗传算法 — 种群搜索GA 维护一个种群通过优胜劣汰迭代。算法 Genetic_Algorithm: 初始化: 随机生成初始种群 P包含 N 个个体每个个体是一组参数/基因 计算适应度: 对 P 中每个个体评估 Fitness(个体) While 未达到最大迭代次数 且 未找到满意解: P_new 空集 While P_new 的大小 N: // 选择适应度越高越容易被选中 父代 A, B 选择函数(P) // 交叉按一定概率交换 A 和 B 的部分基因 如果 random() 交叉率: 子代 C, D 交叉(A, B) 否则: 子代 C, D 复制(A, B) // 变异以极小概率随机改变某些基因 C 变异(C, 变异率) D 变异(D, 变异率) 将 C, D 加入 P_new P P_new 计算适应度: 对 P 中每个个体评估 Fitness(个体) 记录当前代的最优个体 返回 全局最优个体B. 遗传规划 — 树结构搜索GP 的流程和 GA 几乎一样区别在于个体的表示形式GA 的个体是参数数组GP 的个体是抽象语法树即一段程序或数学公式。算法 Genetic_Programming: 初始化: 随机生成初始种群 P每个个体是一棵语法树/程序 计算适应度: 运行每个个体的程序评估结果 Fitness(个体) While 未满足终止条件: P_new 空集 While P_new 的大小 N: 父代 A, B 选择函数(P) // 交叉交换两棵树的某个子节点及其子树 子代 C 树交叉(A, B) // 变异随机替换某个节点或用新子树替换原有分支 子代 C 树变异(C, 变异率) 将 C 加入 P_new P P_new 计算适应度: 对 P 重新评估 返回 表现最好的语法树C. 模拟退火 — 单点搜索SA 没有种群核心是用温度控制接受差解的概率。算法 Simulated_Annealing: 初始化: 当前解 S 随机初始解 最优解 S_best S 当前温度 T T_max 降温系数 alpha 0.99 While T T_min: S_new 随机扰动(S) Delta_E 评估(S_new) - 评估(S) 如果 Delta_E 0: S S_new 如果 评估(S) 评估(S_best): S_best S 否则: // Metropolis 准则以一定概率接受更差的解跳出局部最优 如果 random(0, 1) exp(-Delta_E / T): S S_new T T * alpha 返回 S_bestMetropolis 准则只在遇到更差的解时起作用——当新解更好时直接接受没有任何犹豫。这个来自统计力学玻尔兹曼分布的公式优雅地处理了两个极端退步幅度Δ E \Delta EΔE越大接受概率e − Δ E / T e^{-\Delta E / T}e−ΔE/T越低——不会随意接受太差的解。温度T TT越高接受概率越高——早期大胆探索T TT越低接受概率趋近于零——后期专注收敛。D. 蚁群算法 — 信息素引导搜索以在图中寻找两点间最短路径为例。算法 Ant_Colony_Optimization: 初始化: 在图的所有边上设置微量信息素 While 未满足终止条件: 对于每只蚂蚁 k共 M 只: While 未到达终点: 根据相邻边上的信息素浓度和启发式信息如距离的倒数 用轮盘赌算法选择下一个节点。 记录蚂蚁 k 的完整路径及总长度 // 信息素挥发防止路径固化 所有边上的信息素 * (1 - 挥发率) // 信息素释放路径越短留下的信息素越多 对于每只蚂蚁 k: 在它走过的边上增加信息素 常量 / 路径总长度 记录本轮最短路径 返回 历史最短路径对比下来LLM 的 Self-Evolution 与传统进化算法的差异主要体现在两个维度。变异的性质随机扰动 vs. 语义反思GA/GP 的变异本质上是参数空间里的盲目翻硬币随机且无梯度不关心某个改动为何让结果变好。LLM 的”变异”则是语义驱动的——Self-Instruct 会根据已有样本归纳规律再生成更难的指令Self-Correction 会找出上一轮回复的逻辑漏洞并给出修订方向。这种改动有结构、有意图和随机 bit-flip 不在一个层面上。更新机制淘汰个体 vs. 修正权重传统进化算法评完适应度后差的个体直接丢弃失败的经验不留任何痕迹只保留胜者。LLM 的自我进化最终都要走回梯度——用高质量数据对做 SFT或用 Self-Reward 打分后跑 RLHF/DPO把经验通过反向传播沉淀进权重。它不是在”换一个更好的模型”而是在”让同一个模型持续变好”。