PPO强化学习-尧图建网站

零基础学习强化学习算法ppo_哔哩哔哩_bilibiliObservation观测是state的局部,state的信息并不是全部有用求期望≈用的蒙特卡洛近似蒙特卡洛近似期望,最后1/N讲解:这一步马尔可夫轨迹联合概率分解log内相乘等于log外连加下式:该梯度是全部轨迹期望回报函数的上升方向沿梯度更新参数能让全局期望回报得到最大幅度提升。这个梯度向量代表期望回报函数的上升方向将梯度乘以学习率对网络参数做正向更新会整体提升高回报轨迹动作的输出概率降低低回报动作概率最大化全局平均回报。这就是policy gradient去掉求导,看这个函数:命为L.当r0时,如右图,横坐标可以当成p,纵坐标为函数的值直观意义:当整条轨迹总回报 (R(\tau^n)0\)要让 L 变大就必须提升这条轨迹每一步的 \(P_\theta(a_n^t|s_n^t)\)也就是增大这条轨迹里所有动作被策略选中的概率强化好的行为序列。当整条轨迹总回报 \(R(\tau^n)0\)R 是负数要让 L 变大就要减小 \(\log P_\theta\)也就是降低这条轨迹里动作的发生概率抑制不好的行为序列。定义Loss函数,加上-,让优化器最小化他下图是策略网络的示意图局限,一个轨迹当return小于0时,会减小整个轨迹中所有状态下采取当前动作的概率,这样是不合理的.1.是否增大或减小当前状态下采取动作的概率,应该看做了这个动作之后到游戏结束的return,不应该是整个轨迹的return.因为一个动作只能影响之后不能影响之前2.一个动作有可能对接下的reward有影响,但是可能只影响几步,影响会逐步衰减.进而修改公式1.是从当前的步求和以及引入衰减因子2.当前的局势好坏也会影响概率的增加,当前是好局势,所有动作都会由正的reward,那么就会增加所有的概率,会让训练变慢----加上baseline其他概念看怎么计算优势函数又因为可以多步TD为方便表示得到GAE优势函数引入价值网络PPO当从目标分布 \(p(x)\) 采样很难 / 代价极高但另一个分布 \(q(x)\)提议分布采样很简单时不用硬采 p只采容易采样的 q再用权重 \(\frac{p}{q}\) 修正样本就能算出 p 下的期望。重要性采样是一种分布修正技巧用容易采样的分布 q 替代难采样的目标分布 p 采集样本再通过权重 \(\frac{p}{q}\) 修正样本偏差在强化学习中它是实现 Off-Policy离线策略学习的核心数学工具。用重要性采样Loss函数加上约束

相关新闻

2026年AI数字人直播系统横评：五大主流平台实测打脸，别被大厂光环骗了

python3.11配置tensorflow-gpu版本环境

zxcvbn密码强度评估工具：如何快速提升密码安全性的完整指南

最新新闻

Markdown锚点跳转失败的解决办法

3分钟极速指南：用Python工具一键获取国家中小学智慧教育平台电子课本

程序员的语言“艳遇史”（四） ——数学系师姐forth

写技术类博文，我们需要更严谨的精神--【非常抱歉我扯蛋了】

深入深出openclaw：gateway代码实现阅读1

BLDC力矩电机三环控制解析：从电流环PID到位置环的5个关键参数整定

日新闻

acme.sh私钥加密存储：基于OpenSSL的自动化证书安全管理方案

免费二维码修复工具终极指南：三步拯救损坏二维码

星露谷物语终极MOD指南：5个步骤打造智能自动化农场

周新闻

3步彻底解决Windows右键菜单混乱问题：ContextMenuManager使用全攻略

通达OA SQL注入漏洞深度剖析：从手工注入到自动化利用与防御

MLT 2026启示：因果推理与概率建模驱动下一代LLM应用

月新闻

FAE放射组学分析工具：医学影像特征探索的完整解决方案

基于Dify与DeepSeek构建私有知识库问答系统实战指南

餐饮老板必看：扫码点餐小程序3步搞定，别再让顾客干等了！