In-Context World Modeling for Robotic Control作者Siyin Wang, Junhao Shi, Senyu Fei, Zhaoyang Fu, Li Ji, Jingjing Gong, Xipeng Qiu核心发表机构Fudan University、Shanghai Innovation Institute、Tongji University论文链接arXiv:2606.26025v2发布于arXiv 预印本cs.RO一、核心贡献 / Core Contributions重新定义问题指出现代VLA模型在新系统配置如相机视角、机器人形态下泛化失败的根本原因在于模型仅以当前观测和语言指令为条件隐含地将系统配置ψ \psiψ视为固定常数本文将这一问题形式化为测试时的系统识别问题并指出缺乏显式的ψ \psiψ条件化是普遍存在的失败模式。提出ICWM框架设计了In-Context World Modeling框架通过在任务执行前自生成一小段任务无关的随机交互历史作为上下文使策略能够隐式地推断当前系统的动力学特征如视角畸变、运动学参数从而在无需参数更新、无需任务特定演示的条件下实现测试时自适应。方法简洁且高效ICWM不改变VLA模型的内部结构仅通过改变输入格式将交互上下文前置来工作该上下文可以借助KV缓存重复使用单步推理额外开销接近于基线水平。全面的实验验证在LIBERO仿真基准和UR5e真实机器人平台上ICWM在未见过的相机视角上显著优于标准VLA基线平均提升13.0%以上并进一步验证了对语义场景变化和机器人形态变化的泛化能力消融实验证实模型确实在进行隐式系统识别而非简单的模式匹配。二、研究背景与动机 / Background Motivation现代视觉-语言-动作VLA模型通常将策略建模为π θ ( a t ∣ o t , l ) \pi_\theta(a_t \mid o_t, l)πθ​(at​∣ot​,l)即仅以当前观测o t o_tot​和语言指令l ll为条件。这种建模方式隐式地将系统配置ψ \psiψ如相机视角、机器人运动学参数、安装偏移等视为一个在训练数据分布中被边缘化的固定常数。当部署环境偏离训练分布时模型无法恢复正确的“动作-观测”对应关系导致性能急剧下降。传统解决方法是对每个新场景进行数据密集的微调但这在真实场景中代价高昂且不实用。人类在面对不熟悉的控制系统时能够通过短暂的随机试探例如推摇杆并观察机械臂的反应快速建立起系统动力学的内部世界模型从而从随机探索转向目标导向控制。这种校准过程是自生成的无需先验任务知识或外部指导。受此启发本文提出In-Context World Modeling (ICWM)将测试时的系统识别问题转化为上下文自适应问题。与使用演示来指定“做什么”的传统上下文学习ICL不同ICWM利用上下文窗口来理解“系统如何运作”即系统动力学。从信息论角度论文命题指出在一段简短的交互轨迹T ( o 0 : t , a 1 : t ) \mathcal{T} (o_{0:t}, a_{1:t})T(o0:t​,a1:t​)中关于隐含系统状态s 0 s_0s0​包含ψ \psiψ的互信息严格大于单张观测o 0 o_0o0​的互信息即I ( s 0 ; T ) I ( s 0 ; o 0 ) I(s_0; \mathcal{T}) I(s_0; o_0)I(s0​;T)I(s0​;o0​)。这为使用交互上下文进行系统辨识提供了理论支持。三、方法 / Methodology3.1 总体框架 / Overall ArchitectureICWM 的整体思路是在任务执行前让机器人先执行一段短小的、任务无关的随机探索probing收集一系列交互片段构成上下文前缀T { ( o i s , a i , o i e ) } i 1 N \mathcal{T} \{(o^s_i, a_i, o^e_i)\}_{i1}^NT{(ois​,ai​,oie​)}i1N​。然后将该上下文与当前观测o t o_tot​和语言指令l ll一起输入给VLA模型模型根据上下文隐式推断出当前系统的配置并生成动作。整个过程无需任何参数更新。训练和推理流程如下图所示训练阶段在包含多种系统配置如不同视角的数据集上训练模型。对于每个训练样本从交互池中随机采样N NN个任务无关的交互片段前置到任务查询之前形成完整的输入序列。模型的目标是最大化任务动作的预测对数似然L − log ⁡ π θ ( a t ∣ Ψ ( T ) , o t , l ) \mathcal{L} -\log \pi_\theta(a_t \mid \Psi(\mathcal{T}), o_t, l)L−logπθ​(at​∣Ψ(T),ot​,l)其中Ψ ( T ) \Psi(\mathcal{T})Ψ(T)表示由交互上下文诱发的隐状态通过Transformer的自注意力机制隐式地提取系统动力学信息。推理阶段在未知的新环境下机器人先进行主动探测Active Probing执行N p r o b e N_{probe}Nprobe​个随机采样目标位姿的动作收集上下文T \mathcal{T}T。然后将T \mathcal{T}T与当前观测和指令一起输入策略网络输出动作。由于上下文对固定系统配置是静态的其隐藏状态可通过KV缓存复用大幅降低推理开销。3.2 关键模块 / Key Modules上下文构造每个上下文片段是一个三元组( o i s , a i , o i e ) (o^s_i, a_i, o^e_i)(ois​,ai​,oie​)其中o i s o^s_iois​是执行动作前的观测a i a_iai​是随机采样的目标位姿o i e o^e_ioie​是执行后的观测。这些片段从机器人的自生成交互池中随机采样确保覆盖工作空间的不同区域。交互动作在机器人安全工作空间内随机采样避免碰撞任务相关物体从而不干扰初始状态。模型架构论文采用Qwen2.5-VL-3B作为骨干网络动作分词器使用FAST动作块大小为5。模型输入序列由交互上下文多个图像-动作对和任务查询当前图像和语言指令拼接而成。Transformer的自注意力机制自然地处理这种变长序列从上下文中提取出关于系统动力学的因果结构。上下文数量与探针策略默认使用N 5 N5N5个上下文片段。探针策略选择随机方向均匀采样XY-only、Z-only、R-only等均可随机策略平均表现最优。探针过程约需5-6秒仅在系统配置改变时执行一次。原论文对应图片Success Rates (%) on LIBERO for Seen (In-Domain) and Unseen (OOD) Viewpoints.原论文对应图片Additional morphological generalization evaluation on the WindowX platform. We shorten the robot’s link lengths to \100%, 90%, 80%, 70%\四、实验 / Experiments4.1 数据集与评估指标 / Datasets Metrics仿真基准LIBERO使用LIBERO的四个任务套件Spatial, Object, Goal, Long专门构建交叉视角评估协议。训练在8个方位角上进行{ 30 ∘ , 60 ∘ , 90 ∘ , 120 ∘ , 240 ∘ , 270 ∘ , 300 ∘ , 330 ∘ } \{30^\circ, 60^\circ, 90^\circ, 120^\circ, 240^\circ, 270^\circ, 300^\circ, 330^\circ\}{30∘,60∘,90∘,120∘,240∘,270∘,300∘,330∘}测试在6个未见过的OOD视角上进行{ 45 ∘ , 135 ∘ , 225 ∘ , 255 ∘ , 285 ∘ , 315 ∘ } \{45^\circ, 135^\circ, 225^\circ, 255^\circ, 285^\circ, 315^\circ\}{45∘,135∘,225∘,255∘,285∘,315∘}。视角分布如下图所示每个任务套件在每个视角下进行500个回合总计500 × 15 × 4 500 \times 15 \times 4500×15×4个回合报告成功率。真实机器人平台UR5e配备12摄像头阵列其中6个训练视角、6个测试视角。评估4个操作任务堆叠、提升、抓取放置、放玩具入篮每个任务在每个新视角进行25次试验共600次试验。任务场景如下图所示评估指标任务成功率%。4.2 主实验结果 / Main Results仿真结果在LIBERO上ICWM在所有任务套件和所有视角下均一致优于标准VLA基线MV多视角行为克隆以及显式配置基线EXP将真实相机角度作为文本输入。图4展示了在LIBERO-Long任务上的成功率对比OOD视角平均提升25.0 vs 19.8提升26.3%ICWM将OOD平均成功率比MV基线提高13.0%比EXP基线提高9.5%。在长时任务LIBERO-Long上收益最大因为长时任务放大了视角偏移带来的微小空间误差而ICWM通过持续将动作锚定在系统动力学中有效缓解了级联失败。真实机器人结果标准VLAMV在视角转移下平均成功率从68%急剧下降到17%而ICWM显著缓解了退化平均成功率提升至36.6%对比MV的30.8%提升15.8%。定性对比显示没有ICWM的标准策略会出现位置偏移或过早夹爪闭合等错误成功任务示例仿真展示了ICWM通过交互前缀解决视角歧义实现精确抓取和多阶段执行如开关炉灶4.3 消融实验 / Ablation Study上下文组件消融测试五种设置(1) 完整上下文 (ICWM)(2) 去掉动作w/o actions(3) 去掉图像w/o images(4) 去掉上下文w/o ctx.(5) 使用错误视角的上下文false ctx.即来自180°偏移视角的片段。结果如下表所示关键发现去除图像导致性能下降最大平均-56.4%说明缺乏视觉反馈时模型会模仿探索动作为任务行为反而有害。去除动作性能下降适中确认视觉流动提供了粗略空间锚点但完整校准需要成对的( o i s , a i , o i e ) (o^s_i, a_i, o^e_i)(ois​,ai​,oie​)元组。错误上下文比无上下文更差18.9 vs 22.0表明不一致的上下文会主动误导策略的世界模型而非被动忽略。这种负向迁移与正确上下文带来的增益13.6%对称证实模型确实根据上下文内容进行配置推断。探针策略消融比较随机、XY-only、Z-only、R-only四种探针策略。所有策略都显著优于无上下文的MV基线19.8%平均成功率在23.4%-25.0%之间随机策略表现最佳25.0%证明ICWM的优势来源于交互格式本身而非特定运动模式。语义变化泛化在测试场景中添加分心物或更换桌面纹理ICWM在所有条件下均优于MV分心物场景35.0 vs 27.5新颖纹理41.2 vs 37.5。可视化语义扰动如下图所示形态变化泛化在UR5e末端添加不同长度的垫片20mm、40mm、80mmICWM在所有垫片长度下保持优势在WindowX平台上系统性地缩短连杆长度至100%、90%、80%、70%在边界配置100%和70%上训练在中间90%和80%上零样本测试ICWM的退化比MV更平缓77%→62% vs 57%→28%优势从20个点扩大到34个点。可视化随机交互片段如下)WindowX形态泛化结果隐式表示的可识别性使用t-SNE可视化6个OOD视角下的隐藏表示Ψ ( T ) \Psi(\mathcal{T})Ψ(T)发现表示展现出紧密的内部视角聚类稳定性和清晰的跨视角分离可识别性证明Ψ ( T ) \Psi(\mathcal{T})Ψ(T)形成了与系统配置相关的结构化表示。五、相关工作 / Related Work上下文学习In-Context Learning用于机器人现有方法如ICRT、MimicDroid将上下文视为行为规范“做什么”需要人类在测试时提供完整的任务演示。ICWM则将其视为系统识别“系统如何运作”使用任务无关的自生成交互无需演示、奖励信号或参数更新。世界建模World Modeling传统方法需要引入专门参数和训练目标预测未来观测或推断逆动力学。ICWM隐式地实现世界建模模型利用标准序列建模的Transformer自注意力直接从任务无关的交互历史中提取时不变的因果结构如控制映射和相机视角不引入额外参数或损失项。系统辨识在机器人中的应用经典方法通过显式估计参数如相机位姿、运动学并调整控制器通常需要物理先验或大量标注数据。ICWM将系统辨识融入策略本身通过交互前缀让模型在推理时隐式地适应避免了显式建模的复杂性和数据需求。六、局限性与展望 / Limitations Future Work特定视角的瓶颈在135°等特定视角下所有方法包括ICWM表现不佳。分析认为这是由该视角引起的物体遮挡和工作空间可见性降低等几何约束造成的属于共享的感知限制而非ICWM特有的问题。未来可通过多视角融合或主动选择探针策略来缓解。语义泛化的增益较小相对于视角泛化ICWM对分心物和纹理变化的增益较小。论文认为这反映了当前数据集缺乏多样的场景-配置联合变化而非方法的根本局限。未来可构造包含更多语义-配置关联的数据。探针开销引入了5-6秒的探针阶段仅在系统配置改变时执行以及额外的推理延迟可通过KV缓存大幅降低至接近基线水平。在需要即时响应的安全关键场景中探针阶段可能不可取。未来可研究更短的探针序列或利用过去的经验替代实时探测。上下文质量的依赖错误上下文如来自不同视角的交互片段会主动误导模型。虽然探针环境可控但若随机探索不充分或工作空间受限可能影响识别效果。未来可探索自适应探针策略确保覆盖系统动力学的关键维度。泛化边界的探索论文验证了视角、场景语义、形态变化上的泛化但对于更剧烈的、训练分布完全未覆盖的系统变化如不同机器人品牌、非刚体环境效果尚需进一步研究。七、总结 / Conclusion本文提出In-Context World Modeling (ICWM)将VLA模型在新系统配置下的泛化失败重新定义为测试时的系统识别问题并通过一个简洁而有效的方案予以解决在任务执行前让机器人自生成一小段任务无关的随机交互历史作为上下文前置输入使模型隐式地推断系统动力学并自适应地调整动作。ICWM无需参数更新、无需任务演示仅通过改变输入格式即可实现零样本的测试时自适应。在LIBERO仿真和UR5e真实机器人平台上ICWM在未见过的相机视角上显著优于标准VLA基线并进一步展示了在语义场景变化和机器人形态变化上的泛化能力。消融实验证实模型确实在进行隐式的系统识别而非简单的模式匹配。ICWM为构建在现实世界中可泛化的机器人策略提供了一种优雅而实用的新范式。原文摘要:Modern Vision-Language-Action (VLA) models often fail to generalize to novel setups, such as altered camera viewpoints or robot morphologies, because they are typically conditioned only on current observations and language instructions. By ignoring the underlying system configuration as a variable, these models implicitly assume a fixed execution context encountered during training, necessitating>博客内容为准