复旦团队提出 ICWM 方法：提升 VLA 模型新环境适应能力，跨视角成功率最高提升 13%-尧图建网站

【导语视觉 - 语言 - 动作VLA模型部署时易因环境变化性能下降复旦大学邱锡鹏教授团队提出“上下文世界建模”ICWM方法显著提升了 VLA 模型在新环境中的适应能力。】ICWM 破 VLA 模型部署痛点视觉 - 语言 - 动作VLA模型部署时相机视角等稍有变化性能就可能下降。以往的“上下文学习”靠人工演示任务环境改变时需重新收集数据、调模型费时费力。而 ICWM 让机器人在任务执行前进行随机探测将交互过程作为上下文输入模型来判断系统运作。训练推理ICWM 独特流程ICWM 设计分训练和推理阶段。训练阶段在每个任务样本前拼接与任务无关的交互片段作为上下文输入模型根据画面变化判断系统配置且直接用 VLA 主干处理交互历史简化结构并利于动作预测。推理阶段机器人先进行主动探测记录动作前后观测变化形成交互上下文再结合当前上下文、画面和任务指令判断后续动作。实验验证ICWM 性能显著在跨视角、真实机器人和多种分布外扰动实验中ICWM 表现出色。在 LIBERO 仿真基准跨视角实验中已见视角下比仅依赖多视角训练的方法平均高出8.1%新视角下高出13.0%长时序任务累积误差控制更好。在 UR5e 真实机器人平台上标准 VLA 从训练视角切换到测试视角后平均成功率从68%降至17%ICWM 稳定性更强。消融实验表明其性能提升来自交互上下文且不依赖特定探测方式不同探测策略成功率提升约15%至27%对机器人形态变化和语义扰动场景也有适应性。ICWM 不足与未来方向尽管 ICWM 提升了 VLA 模型新环境适应能力但仍有不足。部分极端视角下性能提升有限因存在严重遮挡和目标移出视野问题未来需结合多视角感知等能力。语义扰动实验中提升也有限扩充训练数据场景语义和组合配置有望提升其在该场景表现。编辑观点ICWM 为 VLA 模型发展带来新突破提升了适应能力但仍有改进空间。未来若能解决不足将推动机器人在复杂环境下的应用。

相关新闻

中阴线买股法今天买明天大涨的指标

如何使用openeuler/guest-components构建机密容器？新手入门完整指南

GPT-5.5 如何参与完整工作流？单轮问答、连续任务与自动化协作解析

最新新闻

如何构建高可用的后端服务？经验分享

利用GPT优化CVE申请邮件沟通：从漏洞发现到公开披露的完整指南

基于BurpSuite与ddddocr的验证码自动化识别与渗透测试实战

113、threading 多线程编程：GIL 的本质、线程安全、Lock、RLock、Condition

Pytest框架进阶：分组、跳过与参数化在API自动化测试中的实战应用

114、multiprocessing 多进程：Pool、Queue、Pipe、共享内存与 spawn/fork 差异

日新闻

Selenium元素定位全解析：从八大方法到实战策略

BurpSuite Cluster Bomb模式深度避坑指南：从原理到实战的完整爆破策略

UnblockNeteaseMusic终极教程：3分钟解锁网易云音乐灰色歌曲的完整方案

周新闻

管理者的六个层次

华为OD机试2025C卷-座位调整[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

CrabCode v1.0.7与v1.0.8 更新速览！

月新闻

FAE放射组学分析工具：医学影像特征探索的完整解决方案

基于Dify与DeepSeek构建私有知识库问答系统实战指南

餐饮老板必看：扫码点餐小程序3步搞定，别再让顾客干等了！