World Action Models最新综述:三大流派与核心挑战
World Action Models: A Survey作者Qiuhong Shen, Shihua Zhang, Yue Liao, Qi Li, Zhenxiong Tan, Shizun Wang, Shuicheng Yan, Xinchao Wang核心发表机构论文源码未明确标注或暂未可靠识别论文链接arXiv:2606.20781v1发布于arXiv 预印本cs.RO一、核心贡献 / Core Contributions厘清定义与边界首次严格区分World Action Models (WAMs) 与通用世界模型、视频生成模型、Vision-Language-Action (VLA) 策略。明确指出WAM是具身预测-动作模型其未来预测必须服务于动作产生、评分或训练而非孤立生成。给出了VLA、世界模型、视频世界模型和WAM之间的形式化边界公式。系统性分类框架提出两种互补视角对现有WAM进行归纳。第一视角按“动作解码前最后未来表示的类型”分为Render-and-Decode、Latent-Only、Video-Generation-Free三种设计哲学第二视角将每个WAM分解为预测基板、骨干家族、动作耦合、部署模式四个独立但交互的设计轴。揭示设计空间权衡通过对28个以上代表性方法的解剖总结出WAM设计的一致模式——不同选择在表征丰富度、计算量、内存占用、推理延迟和动作标签成本之间进行系统性的权衡。指出领域正朝着“dream less, act more”生成更少的未来保留控制所需的信息的方向演进。统一讨论关键属性基于上述框架系统分析了WAM在可交互性、因果性、持久性、物理合理性和泛化性五方面的实现挑战并梳理了数据、评估和开放性问题为该领域提供了统一的研究路线图。二、研究背景与动机 / Background Motivation具身智能的核心挑战之一是让机器人能够在复杂、动态的环境中执行长时程任务。传统端到端VLA策略直接学习从当前观测到动作的映射p ( a ∣ o , l ) p(a \mid o, l)p(a∣o,l)但缺乏对未来的显式推理在遇到分布外情景或需要规划时表现脆弱。另一方面世界模型能够预测未来观测p ( o ′ ∣ o , a , l ) p(o \mid o, a, l)p(o′∣o,a,l)但并未规定如何利用预测来选择动作。随着大规模视频生成模型如扩散模型、自回归视频模型的成功研究者开始将这些模型引入机器人领域让机器人“想象”未来的后果后再行动。然而这种结合产生了大量混杂的方法有些直接使用像素级视频生成器再解码动作如UniPi、GR-1有些从视频骨干的中间特征中提取动作如VPP、Fast-WAM还有些完全放弃视频生成在语言或联合嵌入空间中进行预测如DUST、FLARE。这种快速扩张导致“世界模型”、“视频世界模型”、“VLA”与“WAM”的边界日益模糊缺乏统一的分类和比较框架。本综述的动机正是为了解决这一混乱。作者认为WAM不是简单的“带动作头的视频生成器”而是一种特定的预测-动作方法其核心是未来预测必须嵌入到行动管线中。通过系统梳理2023年至2025年H1的主要工作该综述旨在为研究者提供一个清晰的坐标系帮助理解不同方法之间的异同、设计权衡和演进趋势并指出当前开放挑战和未来方向。三、方法 / Methodology3.1 总体框架 / Overall Architecture本综述并非提出新算法而是建立一个用于描述和比较所有WAM的统一框架。作者将WAM形式化为一个参数化的条件联合分布覆盖了未来预测窗口和未来动作窗口p Θ ( s t 1 : t H , a t : t H − 1 | o ≤ t , a t , l ) p_\Theta\!\left(s_{t1:tH},\ a_{t:tH-1}\ \middle|\ o_{\le t},\ a_{t},\ l\,\right)pΘ(st1:tH,at:tH−1∣o≤t,at,l)其中o ≤ t o_{\le t}o≤t是观测历史a t a_{t}at是过去动作l ll是任务指令s t 1 : t H s_{t1:tH}st1:tH是长度为H HH的未来轨迹位于“基板空间”S \mathcal{S}Sa t : t H − 1 a_{t:tH-1}at:tH−1是对应长度的动作块。条件上下文记为c ≡ ( o ≤ t , a t , l ) c \equiv (o_{\le t}, a_{t}, l)c≡(o≤t,at,l)。该形式化背后隐含了两个核心设计问题预测什么未来基板选择和未来如何与动作结合动作耦合方式。为此作者提出两个互补视角设计哲学按动作解码前最后未来表示的类型划分和四轴解剖预测基板、骨干家族、动作耦合、部署模式。第一个视角提供宏观分类第二个视角提供微观组件层面的比较。二者结合能够完整刻画任何一个WAM实例。上图直观展示了VLA、世界模型和WAM的区别。WAM中的未来预测必须停留在动作路径上级联cascade、动作回滚rollout或联合预测joint均满足此要求。3.2 关键模块 / Key Modules3.2.1 设计哲学分类三种设计哲学构成了第一视角其划分依据是“动作解码前推理路径上最后使用的未来表示是什么”Render-and-Decode渲染-解码视频生成骨干一直运行到像素输出然后从渲染的未来中解码动作。典型方法包括UniPi、VLP、AVDC、GR-1、PAD等。优点是可保留丰富视觉先验输出可检查缺点是像素生成嵌入到控制延迟中推理成本高。Latent-Only仅潜在保留视频世界模型的骨干结构但在像素解码之前拦截中间表示如潜变量、去噪特征、光流场、语义掩码从中解码动作。代表方法VPP、mimic-video、Fast-WAM、MWM。优点是不生成像素大幅降低推理成本缺点是放弃了直接的视觉可检查性。Video-Generation-Free无视频生成完全移除视频生成骨干在语言/视觉语言模型嵌入、JEPA表示或几何、功能等紧凑空间中预测未来。代表方法FLARE、DUST、PointWorld、Audio-WM。优点是计算效率高、延迟低缺点是缺乏丰富的视觉未来细节可能损失动态先验。上图清晰展示了三种哲学对应的未来表示类型渲染像素、视频衍生潜变量/特征、非视频生成表示。该分类是互斥的且独立于动作耦合和骨干选择。3.2.2 四轴解剖Second View第二个视角将每个WAM表示为四个独立但交互的设计轴构成的四元组预测基板Predictive Substrate未来被表示的空间S \mathcal{S}S。包括四类像素基板Pixel-grounded解码后的RGB/RGB-D视频或带固定解码器的VAE/视频潜变量。特征基板Feature学习到的隐藏状态或token块无可固定观察解码器。几何基元Geometric primitive光流、点轨迹、深度、姿态、折线等物理坐标结构化数据。affordance图Affordance map任务相关的价值图、接触似然、进度得分等。骨干家族Backbone Family实现未来预测的函数族。包括迭代去噪网络扩散/流匹配、自回归下一帧/下一token网络、联合嵌入预测JEPA网络、混合模型以及附有动作解码器的LLM/VLM。动作耦合Action Coupling未来s ss和动作a aa在模型中如何结合。分为三种动作条件展开Action-conditioned rolloutp θ ( s ∣ c , a ) ⋅ q ψ ( a ∣ c ) p_\theta(s|c,a) \cdot q_\psi(a|c)pθ(s∣c,a)⋅qψ(a∣c)外部提供候选动作模型评估其未来结果。联合生成Joint generationp θ ( s , a ∣ c ) p_\theta(s,a|c)pθ(s,a∣c)未来和动作由一个耦合生成过程同时产生。后预测头Post-prediction headp θ ( s ∣ c ) ⋅ q ψ ( a ∣ s , c ) p_\theta(s|c) \cdot q_\psi(a|s,c)pθ(s∣c)⋅qψ(a∣s,c)先预测基板再从基板解码动作。部署模式Deployment Regime模型在控制循环中如何被调用。包括开环展开一次预测全窗口后执行、块状闭环每K步调用一次重新规划、单步闭环每步调用、交互式操作通过KV缓存等持续扩展窗口。上图展示了四轴解剖的整体结构强调这四个设计选择独立但交互决定了一个WAM的全部行为。预测基板空间从像素到affordance图形成了一个层次上层像素保留丰富细节但计算昂贵下层affordance高度任务相关且紧凑。三种动作耦合家族的示意图。动作条件展开中动作从外部进入联合生成中动作和未来共生后预测头中动作从已经生成的未来中解码。不同的绑定位置决定了延迟、可控性和每步推理成本。3.2.3 演进时间线时间线显示Render-and-Decode最早出现2023年随后Latent-Only方法在2024年涌现Video-Generation-Free方法在2024-2025年逐渐增加体现了“dream less”的演进趋势。四、实验 / Experiments4.1 数据集与评估指标 / Datasets Metrics本综述未进行基准实验而是系统梳理了现有WAM工作中使用的数据来源和评估实践。数据方面来源主要包括遥操作采集的机器人轨迹如Bridge、RT-1数据集、人类演示视频如Something-Something、Ego4D、仿真环境生成的数据如Habitat、ManiSkill、MetaWorld、以及互联网视频如HowTo100M、EgoSchema、Cosmos数据集。每种来源在多样性、动作标签成本、物理保真度上各有取舍。评估指标方面可分为三类(1) 任务成功率如仿真中的Success Rate、真实硬件上的完成率(2) 未来预测质量FVD、PSNR、LPIPS(3) 控制相关指标执行延迟、推理时间、重规划频率。作者指出当前评估存在碎片化不同方法使用不同仿真器、任务集和指标缺乏统一的基准。4.2 主实验结果 / Main Results由于缺乏统一的基准综述无法给出单一的数值排名而是总结了从已发表工作中可观察到的模式性结果。例如(1) Render-and-Decode方法在需要精细视觉推理的任务上表现优势如UniPi在MetaWorld上的成功率(2) Latent-Only方法在推理效率上显著优于Render-and-Decode但在复杂动态场景中可能损失准确性如Fast-WAM在sim-to-real迁移中的表现(3) Video-Generation-Free方法在延迟和动作标签效率上最佳但在需要精确几何推理时受限如FLARE在灵巧操作任务上略逊。总体而言几乎没有工作同时报告所有相关指标因此跨方法比较需谨慎对待。4.3 消融实验 / Ablation Study综述本身不包含消融实验但系统分析了现有工作在消融中揭示的设计权衡。关键发现包括预测基板的选择对任务成功率有显著影响像素基板提供最丰富的视觉线索但对光照变化和域偏移敏感特征基板更鲁棒但丢失细节如GR-1的VQ码本规模消融显示更大码本提升成功率但增加计算。动作耦合方式的影响Joint generation在动作和未来一致性上优于post-prediction head如PAD消融显示联合去噪比级联高~8%成功率但post-prediction head允许在推理时跳过生成大幅降低延迟如VidMan消融显示推理时跳过未来生成使延迟降低50%以上成功率仅下降2%。骨干网络扩散骨干在生成质量上优于自回归骨干但延迟更高如UWM消融显示迭代步数从25减少到5导致FVD翻倍但成功率仅降3%。五、相关工作 / Related Work本综述与多个相关领域紧密关联。通用世界模型如Dreamer、PlaNet、DayDreamer重点关注基于RL的规划但动作通常由价值网络产生而非从预测未来解码。视频生成模型如SVD、Cosmos、Wan虽然能够生成高质量未来视频但缺乏动作解码机制且常忽略因果性和可交互性。VLA策略如RT-2、OpenVLA、Octo直接学习动作不显式预测未来。视频世界模型如UniSim、DreamerV3主要使用未来预测作为RL环境的模拟器而非直接输出动作。此外LLM/VLM用于规划的工作如SayCan、PaLM-E虽能推理高层任务但通常在低层控制上依赖独立策略。本综述首次将这些分散的方向统一在WAM框架下明确了WAM的独特位置它要求未来预测必须嵌入动作路径从而区别于上述所有类别。六、局限性与展望 / Limitations Future Work评估体系不完善当前缺乏统一基准和标准化的评估协议不同方法在仿真器、任务、指标上不一致这阻碍了公平比较和进展度量。未来需要社区共同努力建立WAM专用基准涵盖多种具身形态和复杂度的任务。可扩展性问题现有WAM大多在单一场景或有限物体集上评估向真实世界的泛化能力尚待验证。特别是需要处理开放词汇、动态环境和意外干扰的场景。因果性与可交互性许多方法在生成未来时未能充分保证因果性不泄露未来信息到当前动作且无法在推理过程中动态修改条件如改变指令或目标。开发具备在线交互能力的WAM仍需突破。物理合理性预测的未来视频常违反物理规律如穿透、悬浮这削弱了动作规划的可信度。结合物理仿真器或几何先验的方法如点轨迹、接触预测虽有进展但尚未广泛集成。计算与实时性即使在Latent-Only或Video-Generation-Free方法中骨干网络尤其是大型扩散模型的推理延迟仍然难以满足高频闭环控制要求。如何在保持预测质量的同时将推理时间降低到亚秒级是关键瓶颈。动作标签依赖性后预测头方法可减少动作标签需求但通常需要进一步训练动作解码器联合生成方法训练稳定性和收敛问题仍未解决。发展弱监督或无监督的未来表示学习方法是一个有前景的方向。部署模式与记忆当前WAM通常假设固定控制频率对长时程任务中的记忆管理如何有效重规划、错误恢复探讨不足。七、总结 / Conclusion本综述系统定义了World Action Models领域给出了清晰的形式化边界和分类体系。通过两种互补视角——设计哲学和四轴解剖——全面覆盖了从2023年到2025年H1的主要工作。核心发现是WAM不是简单的视频生成器加动作头而是一族预测-动作方法其设计选择在表征丰富度、计算、内存、延迟和动作标签成本之间系统性地权衡。领域正持续朝着“生成更少的未来同时保留控制所需的信息”的方向演进使得Latent-Only和Video-Generation-Free方法越来越受到关注。该综述为研究者提供了导航地图帮助理解现有方法的异同、设计空间中的空白以及未来的开放挑战。原文摘要:World Action Models (WAMs) are embodied predictive-action models that make a forecast of the future available to action. Recent WAMs repurpose large video generation models, and a parallel line relies on language or vision-language backbones without a video-generation core. This rapid expansion has blurred the boundary among broad world models, video generation models, action-grounded video world models, Vision-Language-Action policies, and WAMs. This survey gives the field a common account. It first clarifies these boundaries, then organizes existing works through two complementary views. The first view asks what each method is required to generate, spanning rendered futures, latent futures, and video-generation-free action reasoning. The second view decomposes each method by predictive substrate, backbone, action coupling, and deployment regime. This anatomy supports a unified discussion of interactability, causality, persistence, physical plausibility, and generalization, followed by data, evaluation, and open challenges. Across these axes, a consistent design pattern emerges: WAMs are not simply video generators with action heads, but predictive-action methods whose design choices trade representational richness against compute, memory, latency, and action-label cost. The field is moving toward methods that generate less of the future while preserving what control requires. The survey homepage is available at https://world-action-models.github.io/.PDF链接:https://arxiv.org/pdf/2606.20781v1部分平台可能图片显示异常请以我的博客内容为准