文章目录每日一句正能量一、引言:为什么机器人需要"生成式动作建模"?二、多模态动作分布:问题的本质2.1 空间多模态性2.2 时间多模态性三、Diffusion Policy 架构详解3.1 总体架构3.2 两种去噪网络实现四、去噪过程:从噪声到动作序列4.1 前向扩散(训练)4.2 反向去噪(推理)4.3 DDIM 加速五、滑动窗口执行:Receding Horizon Control六、核心代码实现6.1 完整训练流程七、实验结果与性能分析7.1 基准对比7.2 关键发现八、进阶主题与扩展8.1 语言条件扩散策略8.2 扩散策略 + 强化学习8.3 扩散策略的世界模型九、挑战与未来方向9.1 当前挑战9.2 未来方向十、总结每日一句正能量勇敢告别的人会被奖励一个新的开始。👉 离开消耗自己的关系或环境,不是失败,而是一种勇气。新的空间、新的可能性,会自然到来。一、引言:为什么机器人需要"生成式动作建模"?在机器人模仿学习中,一个长期困扰研究者的核心问题是多模态动作分布(Multimodal Action Distribution)。考虑一个简单的推方块任务:机器人可以从方块的左侧推,也可以从右侧推,两种轨迹都是有效的演示。然而,传统的行为克隆(Behavior Cloning, BC)使用均方误差(MSE)损失,会将两种模式平均为一个无效的中间轨迹。这一问题不仅存在于空间维度(同一时刻的多个有效动作),还存在于时间维度(同一任务的不同执行顺序)。2023 年,Columbia University 和 Toyota Research Institute 的研究者提出了Diffusion Policy——将扩散模型(Diffusion Model)引入机器人策略学习,通过生成式建模天然地表达多模态分布,在 15 项真实机器人操作任务上取得了 SOTA 性能。本文将从生成式动作建模和多模