【导语视觉 - 语言 - 动作VLA模型部署时易因环境变化性能下降复旦大学邱锡鹏教授团队提出“上下文世界建模”ICWM方法显著提升了 VLA 模型在新环境中的适应能力。】ICWM 破 VLA 模型部署痛点视觉 - 语言 - 动作VLA模型部署时相机视角等稍有变化性能就可能下降。以往的“上下文学习”靠人工演示任务环境改变时需重新收集数据、调模型费时费力。而 ICWM 让机器人在任务执行前进行随机探测将交互过程作为上下文输入模型来判断系统运作。训练推理ICWM 独特流程ICWM 设计分训练和推理阶段。训练阶段在每个任务样本前拼接与任务无关的交互片段作为上下文输入模型根据画面变化判断系统配置且直接用 VLA 主干处理交互历史简化结构并利于动作预测。推理阶段机器人先进行主动探测记录动作前后观测变化形成交互上下文再结合当前上下文、画面和任务指令判断后续动作。实验验证ICWM 性能显著在跨视角、真实机器人和多种分布外扰动实验中ICWM 表现出色。在 LIBERO 仿真基准跨视角实验中已见视角下比仅依赖多视角训练的方法平均高出8.1%新视角下高出13.0%长时序任务累积误差控制更好。在 UR5e 真实机器人平台上标准 VLA 从训练视角切换到测试视角后平均成功率从68%降至17%ICWM 稳定性更强。消融实验表明其性能提升来自交互上下文且不依赖特定探测方式不同探测策略成功率提升约15%至27%对机器人形态变化和语义扰动场景也有适应性。ICWM 不足与未来方向尽管 ICWM 提升了 VLA 模型新环境适应能力但仍有不足。部分极端视角下性能提升有限因存在严重遮挡和目标移出视野问题未来需结合多视角感知等能力。语义扰动实验中提升也有限扩充训练数据场景语义和组合配置有望提升其在该场景表现。编辑观点ICWM 为 VLA 模型发展带来新突破提升了适应能力但仍有改进空间。未来若能解决不足将推动机器人在复杂环境下的应用。