北大×NVIDIA让机器人世界模型有了“物理感”:视频生成登顶,闭环规划成功率提升50%
一句话讲清楚PhysisForcing 把机器人视频生成里的“物理是否说得通”拆成轨迹连续和关系一致两件事只在机械臂、物体、接触点等关键区域施加训练监督让世界模型生成的视频更像真实动作也更能帮机器人做决策。论文标题PhysisForcing: Physics Reinforced World Simulator for Robotic Manipulation论文链接https://arxiv.org/abs/2606.28128Github 链接https://github.com/dagroup-pku/PhysisForcing项目链接https://dagroup-pku.github.io/PhysisForcing.github.io/机器人世界模型真正难的地方在于画面精致还不够动作之后的结果必须守住基本物理规则。比如机械臂夹住杯子下一帧杯子突然漂开夹爪推动苹果苹果却像贴在桌面上一动不动机器人把物体放到架子上物体形状在中途变形。对普通视频生成来说这些可能只是局部瑕疵。对机器人来说它们会直接污染训练信号模型学到的动作后果变成了一段不可靠的视觉幻觉。PhysisForcing 盯上的就是这个问题。它没有重新设计一个机器人专用的大模型也没有在推理时外挂物理引擎。论文提出的是一个训练框架在微调视频扩散模型时把监督集中到最容易出物理错误的区域并同时约束两类信号。一类是像素级轨迹让点的运动连续、接触合理另一类是语义级关系让机械臂、物体、场景之间的相对关系随动作一起变化。最后得到的模型在多个机器人视频生成基准上刷新最好成绩作为世界模型接入动作规划时闭环成功率也从 16.0% 提到 24.0%。PhysisForcing 的整体效果同一个训练框架既改善机器人视频生成也能提升后续策略学习和世界模型规划。问题不在“会不会生成视频”而在“视频能不能当世界”过去一年视频生成模型已经很会“拍”机器人了。 Sora 、 Veo 、 Wan 、 HunyuanVideo 这类通用视频模型能生成细节丰富的画面 Cosmos 、 DreamGen 、 Vidar 等机器人世界模型则更贴近具身场景。可机器人操作有一个特殊要求视频必须能表达动作造成的物理后果。拿“夹爪把红苹果移动到木质平台第二层”这个任务来说模型不能只生成一个“像机器人实验室”的视频。它必须保持苹果形状稳定夹爪和苹果之间有接触苹果的轨迹要连贯最后还要真的落在指定平台上。只要其中一环断掉这段视频就很难作为世界模拟器使用。论文把常见失败分成两类■局部动态错误。 典型表现是夹爪轨迹断裂、物体穿模、反重力漂浮、运动突然跳变。■全局关系错误。 典型表现是机械臂已经接触物体物体却没有跟着动或者物体被抓住后又和夹爪分离。这两类错误对应两个层次。点的运动要连续这是像素级问题物体和机械臂的互动要合理这是语义关系问题。只靠重建损失或普通微调很容易把背景、桌面、静止物体和接触区域混在一起优化真正有物理信息的部分反而被稀释。PhysisForcing 的判断很直接机器人操作里的物理线索高度集中主要在机械臂、被操作物体、接触区域和移动部分。训练时应该把力气花在这些地方。先找“物理信息区域”PhysisForcing 的第一步是从参考视频中找出哪些位置最值得监督。论文使用点跟踪器获取视频中每个查询点的时序轨迹。给定视频 可以得到轨迹集合 。其中 表示第 个点在第 帧的位置。每个点的运动强度定义为如果只看 背景抖动、无关运动也可能被选中。论文又引入第一帧深度图 用深度给前景区域更高权重这里 是数值稳定项。 同时考虑了“动得多”和“更像前景”比单纯运动幅度更适合抓住机械臂和物体接触区域。接着模型用平均分作为自适应阈值得到轨迹级物理掩码被选中的轨迹再投影回每一帧形成时空物理掩码 。这张掩码后面会同时服务于像素级和语义级监督。方法框架先定位物理信息区域再在 DiT 中间层同时加入轨迹对齐和关系对齐。这样做绕开了显式建模“力”“摩擦”“接触力”的难题。模型只需要从视频里找出动得明显、又更靠近前景的区域训练信号就会自然集中到夹爪、物体和接触点附近。第一层监督让点沿着合理轨迹走物理错误最容易被肉眼看出来的部分是轨迹断裂。夹爪本来向右移动下一帧突然出现在左边物体被夹住后应该跟着动却在中途原地停住。这些问题都可以转化为点轨迹是否连续。PhysisForcing 在视频生成模型的中间 DiT 层取隐藏特征 经过轻量 MLP 后得到特征图 。第一帧特征作为查询其余帧作为键对第一帧中的查询点 模型计算它和第 帧所有空间位置的相似度再通过空间 Softmax 和坐标期望得到预测位置最后用参考视频中 CoTracker3 提取的轨迹作为目标在物理掩码覆盖的区域计算均方误差这相当于告诉 DiT 中间层你内部表示出的点运动应该和真实机器人视频里的点轨迹对齐。尤其是夹爪、物体、接触区域不允许随便跳。我的理解是这个设计比直接在像素上加重建损失更细。像素重建容易奖励“画得像”但轨迹对齐奖励的是“动得对”。对机器人视频来说后者才是世界模型的底线。第二层监督让物体关系跟着动作变只有轨迹还不够。一个视频可以做到局部点运动平滑但全局关系仍然不对。比如夹爪和杯子各自动得很顺可两者之间没有保持“抓取后耦合”的关系或者推动物体时接触点动了物体主体却没有发生相应位移。PhysisForcing 用冻结的视频理解编码器来提供语义级关系目标。它不要求 DiT 去复制编码器的每个绝对特征而是对齐物理信息区域内 token 之间的相似度矩阵。给定输入视频 冻结编码器输出目标表示 DiT 中间层经过 MLP 后得到 然后用物理掩码选择一批时空 token 对任意两个 token 分别计算 DiT 侧和编码器侧的余弦关系语义级物理损失是两张关系矩阵的平均绝对差这一步关注一批关键 token 之间的相似关系有没有保持住单个 token 本身像不像反倒退到次要位置。抓取、推动、放置本质上都是关系变化。机械臂和物体什么时候靠近什么时候绑定什么时候分离往往比单个像素更能描述操作是否合理。训练总目标也很清楚是标准 flow matching 损失 和 分别控制两类物理损失权重。辅助模型只在训练时使用推理时全部丢掉所以不会增加生成视频的额外推理成本。训练设置三类视频骨干都能接入论文没有只在一个小模型上验证。 PhysisForcing 被加到三类视频骨干上■Wan2.2-I2V-A14B 图像到视频 MoE 扩散 Transformer 训练时主要微调高噪声专家。■Wan2.2-TI2V-5B 文本/图像到视频统一扩散 Transformer 直接微调整个 denoiser 。■Cosmos3-Nano 约 16B 参数的视频模型按官方图像到视频后训练设置使用 LoRA 微调。训练数据来自 RoVid-X 的大规模机器人视频集合。原始数据约 400 万段机器人视频论文经过运动分数、任务去重、图文对齐等过滤保留约 50 万段高质量 clip 。辅助感知模型也来自现成工具 CoTracker3 负责参考点轨迹 Depth-Anything-V2 提供第一帧相对深度 V-JEPA 2 作为冻结视频理解编码器提供关系结构。它们都只用于训练目标提取部署时不进入推理链路。这让 PhysisForcing 更像一个“训练配方”而不是一个绑定特定架构的新世界模型。只要底层是 DiT 式视频生成骨干中间层能读出时空特征就有机会套上这一套物理对齐目标。生成效果 R-Bench 、 PAI-Bench 、 EZS-Bench 都涨实验覆盖三个机器人视频生成基准。简单说 R-Bench 看任务和机器人形态覆盖面 PAI-Bench 更强调真实机器人图像提示下的物理语义 EZS-Bench 则故意测试训练外组合。三者合起来能把“画得好”和“真的懂交互”区分开。R-Bench 包含 650 组图文提示覆盖操作、空间关系、多实体协作、长程规划、视觉推理以及单臂、双臂、四足、人形等机器人形态。 PAI-Bench 取机器人领域子集共 174 组真实机器人图像提示。 EZS-Bench 则强调训练无关的零样本组合一共 196 个未见过的机器人、任务和场景组合。论文原表很宽不适合手机阅读。把关键结果压缩后大致是下面这样基准对比对象PhysisForcing变化R-BenchWan A14B base 50.7PF-Wan 62.022.3%R-BenchCosmos base 58.4PF-Cosmos 63.89.2%PAI-BenchCosmos ft 84.03PF-Cosmos 85.17第一EZS-BenchCosmos ft 80.29PF-Cosmos 81.08第一R-Bench 上 PF-Cosmos 平均分达到 63.8 超过商业模型 Wan2.6 的 60.7 也超过机器人专用基线 Abot-PhysWorld 的 52.9 。 PF-Wan 达到 62.0 在 Wan2.2-I2V-A14B 基础上相对提升 22.3%相比普通微调也有 7.1%的提升。PAI-Bench 机器人子集上 PF-Cosmos 整体平均 85.17 超过 Abot-PhysWorld 的 84.91 。 Domain Score 达到 93.26 这个分数更直接衡量机器人交互的物理语义合理性而不是单纯画质。EZS-Bench 上 PF-Cosmos 整体平均 81.08 同样排在最高。这个基准强调训练外组合对“只记住训练分布”的方法不太友好。它能在这里涨说明物理关系监督除了拟合已有机器人视频也带来了一点跨场景泛化能力。PAI-Bench 机器人领域结果 PhysisForcing 在质量和领域指标上保持领先。EZS-Bench 零样本结果面对未见过的机器人、任务和场景组合 PF-Cosmos 仍取得最高整体分。视觉对比错误通常出在接触瞬间论文展示的定性结果很有代表性。同样的输入图和指令下强视频模型往往能生成好看的机器人画面但接触处容易露馅。比如“把红苹果移动到木质平台第二层”有些模型会让苹果变形有些会让苹果在没有稳定接触的情况下移动有些能完成大致动作但最终位置不对。 PhysisForcing 的版本更倾向于保持夹爪和物体的接触关系物体形状也更稳定。与多种强视频生成模型的定性对比绿色行是 PhysisForcing 训练后的模型主要改善接触、位移和物体形状稳定性。论文附录里还有更多横向案例。它们覆盖单臂、双臂、人形机器人和不同任务常见失败包括状态漂移、接触断裂、物体变形、目标位置错误。 PhysisForcing 并没有让模型突然具备完美物理模拟能力但它明显减少了最影响机器人任务的那类错误。更多对比案例同一提示下 PhysisForcing 更容易保持动作前后状态一致。不同模型在接触丰富任务上的生成差异问题集中在抓取、推动和放置阶段。跨任务定性结果 PhysisForcing 对物体状态和机器人动作的耦合更稳定。不只生成视频还能帮机器人做策略如果世界模型只是为了“看起来合理”意义还有限。论文进一步把 PhysisForcing 训练后的 Wan2.2-TI2V-5B 接入 Fast-WAM 用作世界动作模型的视频骨干在 RoboTwin 2.0 上评估策略成功率。平均成功率从 68.2%升到 72.8%。其中接触密集的任务提升最大任务基线加入 PF变化放空杯41.5%63.0%21.5按订书机49.0%60.0%11.0拿滚筒58.5%63.0%4.5平均68.2%72.8%4.6也有任务下降比如 shake_bottle 从 97.5%降到 94.5% stack_bowls_two 从 69.5%降到 63.0%。这点值得单独看物理对齐并不是无条件提升所有动作它对接触强、轨迹容易断的任务帮助更明显对已经很高分或需要更长程规划的任务收益可能被其他瓶颈限制。WorldArena 动作规划协议下世界模型要预测未来视频再由共享逆动力学模型解码出动作并执行。这里 PhysisForcing 把闭环成功率从 16.0%拉到 24.0%超过 WoW 的 20.5%。相对提升是 50%。模型任务 1任务 2平均WoW20.0%21.0%20.5%Wan2.2-5B12.0%20.0%16.0% PF22.0%26.0%24.0%这组结果把生成质量和机器人执行结果接了起来视频里的接触关系更稳定规划器选出的动作也更容易成功。如果一个世界模型能更可靠地预测接触后的状态规划器就更可能避开漂亮但错误的未来画面。消融实验两种物理损失缺一块都弱论文做了三组值得看的消融。第一组看两个损失是否互补。在 Wan2.2-TI2V-5B 上普通微调 R-Bench 平均 44.8 。只加像素轨迹损失升到 47.2 只加语义关系损失升到 46.2 两者一起是 47.5 。在更大的 Wan2.2-I2V-A14B 上普通微调 57.9 两者一起达到 62.0 。设置TI2V-5BA14B普通微调44.857.9只加轨迹47.260.7只加关系46.260.0两者结合47.562.0轨迹损失单独更强因为轨迹断裂是机器人视频里最常见、最直接的局部失败关系损失更像补上全局互动比如抓住后保持耦合、推动后物体真的位移。两者服务的错误类型不同所以组合起来最好。第二组看“只监督物理信息区域”是否必要。对所有 token 均匀施加两类损失平均分从 44.8 升到 46.0 只在物理信息区域监督则升到 47.5 。背景和静止区域并非完全无用但它们会稀释接触处的训练信号。第三组看对齐施加在 DiT 哪一层。 Wan2.2-TI2V-5B 在 PAI-Bench 上层 10 得 83.9 层 15 得 85.2 层 20 得 84.1 层 25 得 83.2 。中间层最好因为早期层偏外观晚期层已经更贴近噪声预测输出中间层更适合承载运动和关系结构。训练过程与损失消融轨迹损失和关系损失在训练中持续互补。Wan 骨干上的定性消融加入 PhysisForcing 后物体变形和接触断裂减少。Cosmos 骨干上的定性消融相同骨干经过物理对齐后动作结果更稳定。这篇工作的真正价值把“物理感”变成可训练信号机器人世界模型这条路过去经常卡在一个矛盾里。纯视频生成模型扩展性强数据多画面好但它未必理解物理后果。显式物理模拟器更可靠却成本高、覆盖有限也很难直接适配开放世界视觉场景。 PhysisForcing 走的是中间路线不显式模拟力学方程改用视频中的可观察物理线索构造训练目标。我更愿意把它看成一个训练目标设计上的提醒机器人视频里真正值钱的像素其实只占画面的一小部分。第一世界模型的训练目标要从“重建未来帧”走向“重建因果关系”。机器人任务里的未来帧不是普通视频帧它承载动作后果。一个物体被推之后是否移动一个杯子被夹住后是否跟着夹爪走这些关系比背景纹理更重要。第二物理监督不一定要覆盖整帧。对机器人操作来说 95%的画面可能是桌面、墙面、背景真正决定任务成败的区域很小。区域聚焦能让训练预算花在更有用的地方。第三视频理解模型可以反过来教视频生成模型。 V-JEPA 2 这类自监督编码器不是机器人模型但它捕捉到的 token 关系可以作为“物体如何相互关联”的度量空间。生成模型不需要复制它的表示只要学会类似的关系结构。论文没有把工作做成一个复杂的推理时系统也符合这个取舍。推理时越轻越容易接入现有视频生成和机器人规划链路训练时把物理约束打进中间表示部署时仍然保持普通视频模型的速度和接口。仍然有限它不是万能物理引擎论文也明确写了局限。 PhysisForcing 是一个微调框架会继承底层视频骨干的能力上限。如果基础模型本身缺少长程时序推理、复杂物体知识或精细世界常识物理对齐只能改善一部分问题。另外它用到的物理目标来自点跟踪、深度估计和冻结视频编码器。这些工具本身也会出错。比如透明物体、强遮挡、快速运动、复杂柔性物体都可能让轨迹和深度信号不稳定。还有一个现实问题当前指标仍然大量依赖多模态模型评判。 R-Bench 、 PAI-Bench 、 EZS-Bench 都努力和人工偏好对齐但机器人世界模型最终要落到真实硬件。视频看起来更物理不等于真实机器人一定能安全执行。我会把 PhysisForcing 看成一个很实用的阶段性方案它没有解决“让 AI 完全理解物理世界”这个大问题但抓住了机器人视频生成里最要命的接触和关系错误并给出了可复用的训练方法。更多生成样例附录样例可以归纳成一个观察 PhysisForcing 的优势不在单帧画质而在动作链条中少出“状态断裂”。抓取、推动、放置这三类任务里只要接触关系稳定后续规划才有利用价值。更多横向对比在复杂场景中物体状态漂移是许多模型的高频问题。更多模型对比 PhysisForcing 在多个机器人形态上保持更稳定的交互结果。PhysisForcing 生成样例模型能在多种场景中跟随指令并维持基本物理规律。更多生成样例机器人、物体和场景关系在动作过程中更少出现突然断裂。写在最后具身智能需要的世界模型要能预测动作之后真实世界会怎样变化一段看起来真实的视频只有在动作后果也可信时才适合放进机器人决策链路。PhysisForcing 的贡献就在这里它把轨迹连续、接触一致、物体关系这些过去很难直接写进损失函数的东西拆成可训练的像素级和语义级对齐信号。实验结果也给了一个清楚的方向当视频模型更懂物理机器人策略确实能从中受益。后续如果视频基础模型继续变强类似的物理对齐方法仍有用武之地它负责把训练注意力压到最容易影响机器人决策的接触和关系上并不需要重新发明世界知识。对机器人来说这或许比单纯追求更高清、更长的视频更重要。