看完LA4VLA后发现,移除视觉VLA反而学得更好。
近年来Vision-Language-ActionVLA模型正在成为通用机器人操作的重要路线。主流做法通常是把视觉观测、语言指令和机器人动作放在一起训练让模型根据当前图像和语言目标直接预测下一步动作。但在这个范式下一个关键问题很少被单独拎出来讨论VLA 模型到底有没有真正学到“语言如何约束动作”标准 VLA pretraining 从一开始就把 visual grounding 和 action learning 绑定在一起。这样当然可以训练出视觉条件下的机器人策略但也让 language-action learning 始终被包裹在视觉主导的训练过程中。模型看起来是在根据语言执行任务实际上可能更多是在利用视觉和动作之间更直接的关联。这正是 LA4VLA 想要研究的问题Language-Action Pretraining 是否应该从标准 VLA Pretraining 中被解耦出来作为一种独立的预训练信号来研究为了探究这个问题**上交阿里提出 LA4VLA: Learning to Act without Seeing via Language-Action Pretraining。**核心思想不是让机器人最终不看图也不是否定视觉的重要性而是把语言-动作监督从视觉主导的 VLA 训练中显式拆出来在没有视觉输入的设置下让模型学习语言指令如何约束连续动作轨迹并进一步研究这种监督如何单独使用、如何与标准 VLA pretraining 结合。论文标题LA4VLA: Learning to Act without Seeing via Language-Action Pretraining项目主页https://github.com/MINT-SJTU/LA4VLA换句话说我们希望机器人不要只依赖视觉捷径而是能够掌握一类更基础的语言-动作规律即使暂时“看不见”也要知道语言中的动作词、方向词和操作意图应该对应怎样的运动模式。原文链接看完LA4VLA后发现移除视觉VLA反而学得更好。01. 为什么标准 VLA 训练中的语言监督可能不够问题的根源在于标准 VLA 训练中视觉、语言和动作的监督密度并不对等。在数据层面一条机器人示范通常包含连续的视觉观测、机器人状态和动作轨迹但只配有一条高层任务指令。比如一条完整轨迹可能对应一句 “clean the table”而执行过程中实际包含靠近、抓取、抬起、移动、放置等多个局部动作阶段。视觉和动作信号是逐帧变化的而语言信号往往在整条轨迹中保持不变。这意味着模型看到的是大量密集的 visual-action 或 state-action 对但语言与局部动作阶段之间的对应关系并没有被显式标出来。在输入层面也存在类似不平衡。图像通常会被编码成大量 visual tokens而语言指令只占输入中的一小部分。训练时模型更容易从视觉输入中找到直接的动作预测线索而不是充分学习语言指令如何约束动作。因此一个 VLA 模型可能在标准输入下看起来是 language-conditioned 的但其动作预测实际上仍然高度依赖 visual-action association。一旦视觉输入被移除、替换或者视觉线索与语言目标发生冲突模型就可能偏离语言指令。这正是 LA4VLA 想指出的问题VLA 模型不能只是在标准输入下“看起来会听指令”而应该真正学会语言如何约束动作。如果 language-action supervision 始终被视觉主导的训练过程淹没模型很容易依赖视觉捷径而不是形成稳定的语言-动作关系。因此**我们将 Language-Action Pretraining 从标准 VLA Pretraining 中解耦出来把它作为一种独立的预训练信号来研究**让模型显式学习不依赖具体图像和场景布局的 language-action priors并进一步验证这种监督如何提升下游 VLA 策略、真实机器人操作和视觉扰动下的鲁棒性。02. 机器人到底是在听指令还是在跟着视觉走为了判断 VLA 策略到底是在跟随语言还是在依赖视觉线索我们设计了一个诊断实验**保持语言指令不变只改变视觉输入观察模型预测出的动作轨迹是否仍然沿着指令方向运动。**我们选取方向明确的原子动作指令例如 “move upward to approach the target” 和 “move downward to approach the target”并构造四种视觉输入设置原始配对视觉、移除视觉、替换为同场景不匹配视觉以及替换为相反方向动作对应的冲突视觉。从图中可以看到在原始配对输入下模型看起来表现很好相反方向的指令对应的轨迹能够分开端点也大致落在指令方向上。但一旦视觉输入被移除或替换轨迹很快变得混乱原本清晰的方向区分消失。最关键的是视觉冲突设置语言仍然要求模型朝一个方向运动但视觉输入来自相反方向的动作片段。此时预测轨迹明显偏向视觉所暗示的方向而不是语言指令指定的方向。也就是说模型并不只是“不确定”而是在视觉和语言冲突时更倾向于跟随视觉线索。进一步的量化结果也验证了这一可视化观察标准配对输入下看似良好的 direction following在移除、替换或冲突视觉输入后显著下降并且在视觉冲突时出现明显反向偏移。这个诊断实验说明标准 VLA 训练可以产生表面上的 instruction following 行为但这种行为未必稳固建立在语言-动作关系上。模型看起来是在听指令实际上仍可能高度依赖配对视觉输入。这也直接引出 LA4VLA 的核心动机我们需要把 language-action supervision 更显式地暴露出来而不是始终让它和视觉观测绑定在一起。03. LA4VLA把 Language-Action Pretraining 从 VLA Pretraining 中解耦出来基于上面的诊断实验我们提出 LA4VLA 的核心思想不要一开始就把语言、视觉和动作全部耦合在一起训练而是先把 language-action supervision 单独抽出来让模型先学习语言如何约束动作。在标准 VLA pretraining 中模型同时接收视觉观测、语言指令和机器人状态并预测动作。visual grounding 和 action learning 从一开始就被绑定在一起。这样虽然可以学习视觉条件下的机器人策略但语言-动作关系也容易被更密集的视觉-动作信号淹没。LA4VLA 则将其中的 Language-Action 部分显式解耦出来。在 LA pretraining 阶段视觉输入被移除模型只能根据语言指令和机器人状态预测动作轨迹。也就是说模型暂时不能依赖图像中的目标位置、物体外观或场景布局而必须关注语言指令本身如何对应到连续动作模式。这里的 language-action supervision 并不是简单的动作类别标签。我们不是只告诉模型当前片段属于 “lift” 或 “grasp”而是希望模型学习更完整的局部动作描述与连续动作轨迹之间的对应关系。例如“Lower the object downward toward the target while holding it”对应持物状态下将物体向目标方向下放“Transport the object to the right while holding it”对应持物状态下将物体向右侧水平移动“Open gripper to release and place the object onto the target surface”对应打开夹爪将物体释放并放置到目标表面。这些 instruction 不只是说明“做什么动作”还包含动作方向、夹爪状态、是否持物以及局部物理效果。更重要的是它们尽量避免物体外观、背景布局和场景特定目标选择因此不同于普通的细粒度 subtask instruction如“把红色杯子移动到书本左边”。这些知识并不依赖某一张具体图像而是跨任务、跨场景可复用的语言-动作规律。LA4VLA 希望模型先学习这些规律形成 vision-agnostic 的 language-action priors再在后续 VLA 训练和下游微调中结合视觉输入完成具体场景中的操作。因此LA4VLA 的重点不是简单提出一个新的数据集也不是只在标准 VLA pretraining 中加入额外数据而是提出一种新的预训练视角Language-Action Pretraining 可以从 VLA Pretraining 中独立出来作为一种基础的、可单独使用、也可与标准 VLA 训练互补的预训练范式。04. LA-33K为独立的 Language-Action Supervision 提供数据基础为了实现这种预训练范式我们需要构造不依赖视觉输入的 Language-Action 数据。LA4VLA 并没有额外采集新的机器人示范而是提出了一个pipeline来重新组织已有的 VLA demonstrations。一条完整的 VLA 轨迹通常只对应一条高层任务指令但轨迹内部其实包含多个局部动作阶段。我们将这些长轨迹切分成短的 atomic action segments并为每个片段配上对应的低层动作描述。这样原本隐藏在完整轨迹中的 language-action supervision 就被显式暴露出来每个短片段都有一个更局部的语言指令以及与之对应的连续动作轨迹。在构建过程中我们使用关键帧检测、原子动作类别约束、VLM temporal segmentation 和人工核验将原始 VLA 数据转化为 vision-agnostic 的 LA 数据。最终得到的 LA episodes 覆盖 move、grasp、lift、transport、place、reorient、lower 等常见原子操作类别。最终我们构建了 LA-33K包含 33,116 条经过人工核验的 Language-Action episodes。它们来自已有机器人示范不需要额外机器人数据采集。与原始 VLA 轨迹相比LA-33K 的每个 episode 更短、更局部语言描述也更直接对齐到动作执行。但需要强调的是LA-33K 的意义不只是“多了一个数据集”。更重要的是它让原本被包裹在 VLA demonstrations 中的 Language-Action supervision 变成了可以被单独训练、单独分析、单独与 VLA pretraining 组合的监督信号。05. 实验结果LA Pretraining 带来了什么表 4 总结了 LA4VLA 在 MetaWorld 和 LIBERO 上的主要结果。我们主要看三点。第一单独 LA pretraining 已经有效而且收益覆盖仿真、跨架构和真实机器人。在 LA4VLA-1B 上MetaWorld69.73% → 83.00%13.27 ptsLIBERO92.85% → 95.30%2.45 pts在另一个 VLA 架构 StarVLA 上同样的 LA pretraining protocol 也带来提升MetaWorld58.39% → 69.91%11.52 ptsLIBERO93.70% → 94.85%1.15 pts在真实机器人任务上提升更加明显Real-world38.3% → 81.7%43.4 pts这说明LA pretraining 不是某个模型或某个仿真 benchmark 上的特定 trick。即使预训练阶段不使用视觉输入模型学到的 language-action priors 仍然可以迁移到不同 VLA 架构并显著提升真实机器人中的语言条件操作能力。第二LA pretraining 优于 matched VLA pretraining。在相同原子动作片段上保留视觉输入做 VLA pretraining并不如移除视觉输入做 LA pretrainingMetaWorldVLA 79.78% → LA 83.00%3.22 ptsLIBEROVLA 94.40% → LA 95.30%0.90 pts这说明在相同原子动作片段上LA pretraining 不只是改变了预训练信号的形式而且带来了比 matched VLA pretraining 更好的下游效果。相比保留视觉输入继续学习 vision-language-action 关联移除视觉输入后模型需要更直接地学习 instruction 与 action trajectory 之间的对应关系这种更集中的 language-action supervision反而为后续 VLA 策略提供了更有效的预训练信号。第三LA 和 VLA supervision 可以互补。这里的 No 表示不做预训练、直接下游微调VLA 表示保留视觉输入的标准 VLA pretrainingLA 表示移除视觉输入的 Language-Action pretrainingLA-VLA 表示两阶段结合 LA 与 VLA supervisionMixPT 表示在同一预训练阶段混合 LA 与 VLA 数据。在 MetaWorld 上No 69.73% → LA 83.00% → LA-VLA 86.75% → MixPT 87.53%在 LIBERO 上No 92.85% → LA 95.30% → MixPT 95.75% → LA-VLA 96.28%我们也在真实机器人上验证了 LA4VLA。三个任务分别是 Press Button、Place Book 和 Place Drink它们都需要机器人根据语言指令选择正确目标。真实机器人平均成功率No 38.3% → VLA 48.3% → LA 81.7% → MixPT 83.3%在视觉扰动下平均成功率为No 27.5% → VLA 42.5% → LA 67.5% → MixPT 70.0%因此实验结果可以概括为一句话Language-Action Pretraining 是一种独立有效的预训练信号它优于 matched VLA pretraining也可以与标准 VLA supervision 形成互补LA supervision 提供不依赖具体图像的 language-action priorsVLA supervision 保留视觉输入并提供 visual grounding。二者结合后在仿真、真实机器人和视觉扰动下都带来稳定收益。06. 为什么 LA Pretraining 有效除了下游成功率我们还进一步观察了 LA pretraining 对模型行为和内部表示的影响。从左侧的方向跟随结果可以看到经过 LA pretraining 后即使没有视觉输入模型仍然能根据语言指令预测出清晰分开的相反方向轨迹。也就是说动作方向不再轻易被其他输入带偏而是更稳定地跟随语言指令。从右侧的 t-SNE 可视化可以看到标准 VLA-trained policy 的内部表示中不同方向指令混在一起而 LA-pretrained policy 的表示会按照指令方向形成更清晰的聚类相反方向也被分到不同区域。这说明LA pretraining 不只是提升了最终成功率也让模型在动作预测前形成了更清晰的 instruction-conditioned representation。换句话说模型内部真的更好地学到了“语言如何约束动作”。07. 这篇工作的核心贡献总结来看LA4VLA 的贡献不只是提出一个新的数据集或一个新的模型而是把一个重要问题明确拆了出来Language-Action Pretraining 可以从标准 VLA Pretraining 中被解耦并作为一种独立、有效、可互补的预训练范式。具体来说本文主要贡献包括第一我们提出 LA4VLA一种 vision-agnostic language-action pretraining framework。它通过移除视觉输入让模型在预训练阶段显式学习语言如何约束动作执行。第二我们从已有机器人示范中构建了 LA-33K 数据集。该数据集包含 33,116 条经过人工核验的 Language-Action episodes不需要额外采集机器人数据而是通过重组已有 VLA demonstrations 暴露出原本隐含的 language-action supervision。第三我们系统研究了 LA supervision 的使用方式包括 LA-only、sequential LA-to-VLA 和 mixed LA-VLA pretraining。实验表明LA pretraining 不仅能单独提升性能还能与标准 VLA pretraining 互补。第四我们在多个层面验证了方法有效性MetaWorld、LIBERO、StarVLA 跨架构实验、真实机器人任务、视觉扰动鲁棒性实验以及方向跟随和表示分析。这些结果共同说明显式的 language-action supervision 是 VLA 学习中一个值得被单独建模和系统研究的关键方向。08. 结语先学会“听懂动作”再学会“看见世界”VLA 模型的目标不是只看图也不是只听语言而是把视觉、语言和动作结合起来让机器人能够在真实世界中执行复杂任务。但如果从训练一开始就把视觉、语言和动作完全耦合在一起语言-动作关系可能会被更密集的视觉-动作信号淹没。模型看起来能执行语言指令但在视觉变化或视觉冲突下可能仍然更倾向于跟着视觉走。LA4VLA 提供了一种新的思路先把 Language-Action Pretraining 从 VLA Pretraining 中解耦出来让模型在没有视觉输入的情况下学习语言如何约束动作再将这种语言-动作先验与视觉 grounding 结合起来用于下游 VLA 策略学习。这不是为了让机器人不看世界而是为了让机器人在看见世界之前先学会理解动作。Learning to Act without Seeing最终是为了更好地 Seeing and Acting with Language。重磅全网首个具身智能开源知识库来啦技术/产业/投融资/上下游推荐阅读真机强化入门的一套完整教程pi*0.6复现方案我们用低成本的机械臂完成pi0/pi0.5/GR00T/世界模型等VLA任务具身智能的WAM与世界模型一份完整指南一览具身智能的行业全局从产品经理的角度出发VLARL方向首个系统教程来啦Online RL/Offline RL/test time RL等好用高性价比面向具身科研领域打造的轻量级机械臂VLA/VLA触觉/VLARL/具身世界模型等具身大脑小脑算法与实战全栈路线来啦~从零训练你的足式机器人让你的足式机器人真正动起来~1v1 科研论文辅导来啦重磅具身智能之心论文辅导来啦近20方向顶会/顶刊/SCI/EI/中文核心/申博等