TD-Learning 时序差分学习和 Q-Learning 最优动作价值学习-尧图建网站

TD-Learning - 时序差分学习用来学习状态价值 V(s)对应前文不带 max 的贝尔曼期望方程核心特点一步更新不用等整段轨迹结束传统蒙特卡洛 MCTS 必须等完整对话 / 游戏结束才能算总奖励TD 走一步、拿一个即时奖励R立刻用下一个状态的预估价值 V(s’) 更新当前V(s)效率极高完全跟着当前策略 π 走采样动作、计算期望E都服从 Actor 策略只做策略评估不主动找最优动作和 PPO 强绑定PPO 里的 Critic 网络训练用的损失就是 TD 损失Critic 本质就是 TD 学习拟合出来的 V(s)只做策略评估不主动找最优动作选动作严格按照 a ~ π Actor 输出什么概率就按这个概率随机采样 token不会强行替换成高分 token计算价值 V(s) 的目的客观打分告诉你「用现在这个 Actor 生成回答平均能拿到多少奖励」全程没有 max 操作不会去主动搜下一状态里收益最高的动作LLM 例子现有 Actor策略 π回答问题70% 概率输出 “好”、30% 输出 “难”TD 只做一件事分别算出两种回答的总分按 7:3 加权平均得到当前提问的平均收益 V(s)它不会主动把 30% 的 “难” 删掉、强制换成 “好”只是如实评估现有模型的平均水平Q-Learning用来学习动作价值 Q(s, a)对应前文带 max 的贝尔曼最优方程注意前文是期望方程这里的是最优方程哪怕当前策略大概率会选低分 token更新时也直接假设下一步会选全场收益最高的动作相当于直接无视现有模型强行朝着满分答案学习同样 70% 出 “好”、30% 出 “难”Q-learning 计算时直接忽略 30% 的 “难”只取下一状态里收益最高的 token 来更新相当于在教模型别再输出低分内容直接选最优答案对比只做策略评估TD如实评价现在这个模型表现如何不干涉它的生成选择不强行优化主动找最优动作Q-learning跳过当前策略的随机选择直接拿最高分动作当目标倒逼模型变更好TD 不是先精确算出完美的 V(s’) 再更新而是把两段不同上下文 s、s’ 先后输入同一个 Critic 网络两次前向推理得到两个估值V(s) 和 V(s’)单步TD更新流程Actor策略网络 π不输出价值只负责生成 token、采样回答属于策略网络不是价值网络Critic价值网络 V唯一的价值网络TD 学习只训练它用来预估长期回报Actor 的采样回答Actor 大模型拿到 prompt 上下文后会给词汇表里每一个候选 token字 / 词输出一个 0~1 之间概率所有 token 概率加起来 1这就是概率分布。采样不固定选概率最高的字而是按概率大小随机抽签选下一个字。举个例子输入上下文夏天适合去。Actor 输出概率分布海边0.660%山里0.330%超市0.110%贪心输出不采样永远只选概率最高的海边回答永远一模一样没有多样性随机采样 a ~ π像抽奖一样60% 概率抽海边30% 抽山里10% 抽超市训练流程里 Actor 和 Critic 二者同步更新但一个是策略、一个是价值不是两个价值网络自举bootstrap自举bootstrap是同一个网络用自身下一时刻的预测做目标全程只用同一个 Critic 网络只是输入两段不同上下文输入当前上下文 s → 网络输出 V(s)本次要修正的预测值输入下一步新上下文 s’ → 同一个网络前向推理临时算出 V(s’)用来造训练目标训练目标希望神经网络最终预测出的标准答案 / 理想数值网络现在的预测值和这个目标值有差距就用反向传播更新网络参数缩小差距

相关新闻

AIGC 内容指纹：生成内容入库前先做可追踪设计

开源 AI 工具文档示例：示例要能复制运行

零成本练手云服务器｜阿贝云免费服务器实测分享

最新新闻

黑马点评 - 短信验证码登录实现

2026世界杯观赛电视全尺寸选购指南

2026年桌面风扇推荐：三个价位段，七叶柔风与静音配置这样选

2026年静音桌面风扇：声音干净才是值得关注的静音标准

Guest的工作回忆录

实战案例：基于特征提取的图像检索系统

日新闻

3步彻底解决Windows右键菜单混乱问题：ContextMenuManager使用全攻略

通达OA SQL注入漏洞深度剖析：从手工注入到自动化利用与防御

MLT 2026启示：因果推理与概率建模驱动下一代LLM应用

周新闻

3步彻底解决Windows右键菜单混乱问题：ContextMenuManager使用全攻略

通达OA SQL注入漏洞深度剖析：从手工注入到自动化利用与防御

MLT 2026启示：因果推理与概率建模驱动下一代LLM应用

月新闻

FAE放射组学分析工具：医学影像特征探索的完整解决方案

基于Dify与DeepSeek构建私有知识库问答系统实战指南

餐饮老板必看：扫码点餐小程序3步搞定，别再让顾客干等了！