论文链接[2509.09372] VLA-Adapter: An Effective Paradigm for Tiny-Scale Vision-Language-Action ModelAbstract page for arXiv paper 2509.09372: VLA-Adapter: An Effective Paradigm for Tiny-Scale Vision-Language-Action Modelhttps://arxiv.org/abs/2509.09372项目主页VLA-Adapter一、引言尽管现有的VLA模型设计当中均采用了VL到A的各种桥接范式但是关于‘如何将VL表征映射到动作空间’是一个核心问题。目前几乎所有的方法都默认使用VLM最后一层特征作为动作生成的输入。然而动作生成与图文检索有着本质的不同动作需要细粒度的空间信息而深层特征为了服务语义理解已经丢失了这些细节。因此论文作者详细探究了以下两个问题问题一VLM内部的哪一层特征对Policy网络更有效问题二ActionQuery特征是否比Raw特征更好的选择这两个问题属于论文的核心驱动作者通过回答了这两个问题得到了上一节提到的“三大关键发现”并最终确定了VLA-Adapter的架构设计。二、实验设计2.1 两类特征特征类型符号来源特点Raw特征VLM前向传播的中间层输出来自预训练VLM被动提供ActionQuery特征可学习token插入VLM末尾从零训练主动优化2.2 四种条件配置配置特征类型层级图示对应aRaw单层分别测试第1、8、9、13、17、21、24层图abAQ单层分别测试第1、8、13、17、21、24层图bcRaw全层1-24层逐层对齐图cdAQ全层1-24层逐层对齐图d2.3 评估基准LIBERO-Long论文的VLA-Adapter框架在LIBERO-Long中评估了四种条件图中蓝色和绿色线条分别表示为单层和单层。蓝色和绿色柱状图分别为全层和全层。三、三大关键发现发现一Raw特征中间层最优Raw层数10任务平均成功率Subtask 7Subtask 9187.6%78%92%889.8%94%84%9-1388-90%82-90%74-84%2485.8%88%56%全层融合96.6%96%96%中间层效果最好浅层信息太原始缺少语义深层过于抽象丢失了空间细节。动作生成需要在‘看得清’和‘看得懂’之间找到平衡——中间层恰好提供了平衡点。发现二AQ特征深层层最优AQ层数10任务平均成功率Subtask 7Subtask 9178.2%76%78%1386.8%66%58%2490.2%74%84%全层融合92.6%96%96%AQ是从零开始学习的可查询tokjen它需要经过足够多的Transformer层才能充分聚合多模态信息。发现三多层特征单层特征特征类型单层最优全层融合提升幅度Raw89.8%96.6%6.8%AQ90.2%92.6%2.4%全层融合性能更好更稳健——避免了单层在某些任务上表现极差的风险还省去了手工选层的麻烦。四、总结VLA-Adpter的三大关键发现动作生成需要‘中间层的视觉细节’‘深层的任务语义’‘全层的丰富信息’——三者缺一不可。这三条发现可以直接推导出Bridge Attention的设计并且也解释了为什么0.5B模型可以跑出SOTA性能的原因。