OpenHLM——全身VLA下的行走-操作:sonic作为运控底层,π0.5作为VLA的初始化策略
前言在过去的一个月(特指26年6月份)我司长沙具身团队做了一系列围绕着全身vla的工作6.1完成全身VR摇操系统SONIC的复现从而可以进行全身数据的采集全身全套VR设备仅需五千如想精细则十万起步的动捕6.118条数据打通了全身VR摇操下的「采-训-推」全流程全程自主走到桌子旁自主抓取6.15今天首次把灵心巧手的手跟宇树打通实现全身自主VLA下的采训推全流程6.16完成全身vla下的自主桌面收纳任务先自主走到桌子旁后自主抓取饮料瓶放到盒子里6.18可能是国内第一个基于全身vla下双足人形的箱子搬运实验第一部分 OpenHLM: An Empirical Recipe for Whole-BodyHumanoid Loco-Manipulation1.1 引言、设计目标与任务集1.1.1 引言如原论文所说人类在进行复杂的“行走-操作”loco-manipulation任务时会协调全身各个部位的运动例如用脚踩踏板或者下蹲去拿低处架子上的物品。人形机器人具有类似的人体运动链原则上也拥有同样的潜能然而大多数现有的人形机器人系统会将躯干以上和以下的部分解耦由不同的控制器分别控制2345678通常由逆运动学来驱动手臂一个单独的、通过强化学习训练得到的控制器来驱动双腿再通过导航指令和机体根部高度信号将两者拼接在一起这种建模方式在两个方面限制了全身协调从视觉效果上看动作显得机械且不自然从功能上看下半身仅仅扮演一个可移动底盘的角色而不是参与操作的主动主体使得人形机器人在本质上更类似于一个带轮子的双臂平台鉴于此能够在机器人完整运动链上进行统一推理的协同全身控制栈被视为未来的发展方向 [9,10]但其设计空间迄今仍 largely 未被系统探索一个自然而然的起点是最近在此类栈中出现的两级层次结构[10]一个高层的视觉-语言-动作VLA模型[11]将语言和像素映射到全身指令以及用于跟踪这些指令的低层控制器 [12,13]这种分解带来了三个问题首先控制器及其之上的遥操作接口决定了可以采集到什么样的示教数据那么它们应该如何设计其次VLA 必须能够处理具有人形结构的完整自由度而许多广泛使用的VLA 主要面向静态和轮式双臂平台 [14,15]那么哪些适配才真正关键最后一旦这一流水线搭建完毕全身遥操作的成本又过高难以为每一个新物体和新指令大规模采集数据那么能否用更廉价的数据源来弥补这一缺口本文通过一项实证研究来回答这些问题该研究被组织成一份路线图由三阶段的受控单变量实验构成『I比较用于低层全身控制器的遥操作接口并最终采用基于关节的接口II沿着若干设计轴将操作类 VLA 适配到具身机器人的完整动作空间III通过将完整的行走-操作数据与静态遥操作或 HuMI [1] 示范联合训练将策略扩展到新物体和新指令』全身控制器与遥操作VLA 模型设计异构协同训练遵循这一路线图作者推出了 OpenHLMOpen Humanoid Loco-Manipulation他们发现第一遥操作接口至关重要基于关节层级的全身遥操作接口优于常见的替代方案例如仅部分暴露仿人机器人自由度的 VR 三点控制第二尽管在本体结构上存在巨大差异但在静态和轮式双臂平台上预训练的 VLA 令人惊讶地能够很好地迁移到仿人机器人的全身动作空间然而在保留演示数据上的动作 MSE 与真实世界任务进展之间的相关性较差因此它是一个糟糕的代理指标第三与更廉价的仅操作数据源进行联合训练例如固定足部、无移动的静态遥操作以及 HuMI [1]UMI [16] 的仿人版本可以在无需针对这些目标进行额外全身遥操作的情况下将策略扩展到新物体和新指令1.1.2 设计目标与任务集首先明确设计目标作者为物理仿人行走—操作系统提出三项期望目标。下文1.2节 路线图的每个小节都被构建为对其中一项目标的回应全身原生统一控制由单一策略同时控制仿人机器人所有关节将手臂、膝盖和双脚都视为可用于操作的潜在执行器在常见的解耦建模下可操作空间被压缩到类似轮式双臂平台的范围任何直接调用下肢的行为都超出了该控制器可表达的行为空间具备语言可引导性并且对每个任务的数据利用要高效单一策略应能在多种任务中驱动类人机器人并通过语言提示进行引导而不是依赖切换不同的检查点checkpoints。每项新技能都应能从数量适中的示范数据中学会可通过廉价数据实现可扩展性全身类人机器人遥操作既耗时又费力。系统应当利用更廉价、异质的数据源来降低对全身遥操作数据的需求从而更快地将技能扩展到新的物体和指令上因此对应的基准也就出来了即HLM-12 基准HLM-12 基准包含12 个语言条件任务被组织为四类能力家族针对全身行走-操作行为的不同方面。图2 展示了每个家族中的一个代表性任务带行走的抓取与放置策略将行走、抓取和放置组合为单次rollout例如Cola Placement。这些任务原则上可以通过解耦控制实现因此对任何方法来说都是基本能力检验全身工作空间扩展这些任务开始利用人形形态一些目标物体位于仅靠上半身关节活动无法覆盖的范围之外因此策略必须协调髋关节屈曲、膝关节弯曲和躯干俯仰与手臂动作以将末端执行器带到位姿例如Shelf Cube Transfer使用身体部位作为操控器这一类任务更进一步非手臂身体部位本身充当末端执行器执行操作而非仅仅支撑操作例如在BottleDisposal 中脚踩下垃圾桶的踏板将其打开此类行为超出了可由解耦控制器表达的范围在环境约束下的行走-操作这里的难点来自限制可行动作的环境或接触约束物体几何形状可能强制特定的操作轨迹例如Sword Extraction 必须沿着剑的轴线拉出或接触需求可能约束行走例如Cart Pushing 必须在协调行走的同时保持稳固的抓取姿态最后对于评估协议作者采用统一且严格的评估协议。除非特别注明对于每一个策略任务组合都在真实环境中进行五次相互独立的 rollout 评测在这五次 rollout中目标物体会被放置在不同的位置并且每一次 rollout 都会引入不同的干扰物体布局。对于每个任务作者在所有策略之间共享相同的五种初始场景配置以确保公平对比且将每一次 rollout 的得分定义为区间 [0,1] 内的任务进度比例对每个子阶段给予部分得分。与二元成功率相比任务进度能够刻画更加细致的失败模式。每个任务的打分细则列于附录 A且在报告均值的同时给出标准误差1.2 构建全身行走-操作一体化系统全身VLA的路线图接下来作者通过一系列可控实验、在每个阶段做出一次设计决策来构建该系统分为三个阶段以回答第 §1 节中提出的问题。控制器与遥操作§3.1如何设计控制器及其遥操作接口以获得高质量的全身示教数据VLA 设计§3.2需要对为静态和轮式机器人构建的 VLA 进行哪些改造才能将其转化为适用于全身人形机器人的策略异质协同训练§3.3是否可以利用更廉价的数据来源将策略的能力扩展到仅靠全身遥操作演示所无法覆盖的范围1.2.1 低层控制器与遥操作作者采用两级层次化控制框架这与近期的人形机器人行走-操作一体化系统栈的做法一致 [7,17,8,10]高层策略(在数据采集阶段为人类操作员在部署阶段为学习得到的 VLA)以视觉和语言为输入以低频率(通常为 10 Hz)输出全身参考指令一个轻量级的低层控制器接收这些指令并以更高频率(通常为 50 Hz)输出目标关节位置随后由 PD 控制器进行跟踪在这一框架固定之后随之而来的就是两个设计问题对于开篇问题高层策略与低层控制器之间的接口应当是什么样的此外低层控制器本身应当满足哪些性质作者从两个维度研究远程操作teleop接口首先是表达能力只暴露类人机器人部分自由度的接口会在设计上就使某些任务变得不可实现其次是示范质量即便表达能力相近不同接口在其引出的示范质量上仍可能存在差异而这会直接影响到学习到的策略在低层控制器方面作者研究了一个强烈影响远程操作体验和数据质量的参数未来帧预览延迟即控制器在跟踪参考运动之前能够提前看到该参考运动的时间长度第一对于基于关节的全身遥操作优于解耦控制和VR 三点控制作者比较了三种具有代表性的、适用于当前人形体行走-操作系统的遥操作方法解耦控制遥操作上半身和下半身是两个解耦的系统操作者提供的目标头部和双手腕通过逆运动学映射到上半身关节而一个基于RL 训练的下半身控制器在以上半身指令为条件的情况下跟踪底座速度和根部高度指令这种形式被包括AMO [6]、Ψ0 [8] 和GR00T N1.5/N1.6 [7] 在内的最新系统广泛采用作者在此使用GR00T 变体[18]在不计入两个夹爪维度的情况下宇树G1 上的动作空间为21 维双臂关节位置(14) 腰部关节位置(3) 根部高度(1) 导航指令(3)VR 3 点遥操作人形机器人遥操作中广泛使用的一种方案[12, 13]作者在此采用其SONIC 变体[13]操作者通过VR 头显提供头部和手腕位姿并通过其摇杆给出导航指令一个学习得到的运动学运动规划器生成下半身运动从而得到由三个上半身关键点和下半身关节位置组成的混合指令并由SONIC 控制器进行跟踪动作空间为24 维左手腕位姿(7) 右手腕位姿(7) 头部位姿(7) 导航指令(3)基于关节的全身遥操作一个便携式动作捕捉设备此处为带有身体追踪器的PICO VR 头显[19]捕捉操作员的全身动作并通过GMR [20] 将其实时重定向到每个仿人关节生成的关节轨迹由通用运动跟踪器(也使用SONIC)进行跟踪动作空间是32 维的双臂关节位置(14) 双腿关节位置(12) 腰部关节位置(3) 根部横滚/俯仰角和偏航角速度(3)作者选择了三个强调不同能力的任务在每种遥操作方式下为每个任务收集匹配的数据40 个示范并为每种遥操作方式训练一个VLAVLA 的细节见§3.2。结果见表1基于关节的全身遥操作是唯一完成所有三个任务的接口在每次执行中通过10-12 步脚步达到了80 %-87 % 的任务进度两种替代方案以不同方式退化。解耦控制以小而明显不自然的步伐行走在Cola Placement 任务上平均需要42.3 步脚步相对于基于关节的膨胀了3.5×Bottle Disposal 任务则无法完成因为踩下踏板需要该控制器无法表达的脚部运动VR 三点遥操作产生的策略在Cola Placement 任务中在可乐罐前优柔寡断地停滞不前将每次执行时长膨胀到67.8 s 并将任务进度降低到40 %且Shelf Cup Transfer 和BottleDisposal 这两个任务从构造上就是无法完成的基于这些结果作者因此采用基于关节的全身遥操作作为数据采集接口第二关节空间重定向优于原生 SMPL 录制SMPL [21] 是一种自然的人体全身运动表示方式。将 SMPL 用作动作表示可以跳过关节式采集所需的在线重定向步骤从原理上消除由不完美重定向器带来的误差作者测试了这一替代方案称为基于 SMPL 的全身遥操作SONIC 控制器原生接受 SMPL 输入因此可以直接作为替换方案使用其动作空间为 81 维SMPL 关节位置72 维来自 24 个关节 × xyz 手腕关节位置6 维用于精细手腕控制 根部滚转/俯仰角与偏航角角速度3 维在 4 个任务子集上作者为每种遥操作方式收集相同数量的示教数据二者在操作员体验、运动质量和吞吐量方面具有可比性。随后作者比较在各自数据集上训练得到的 VLA结果如图 3 所示『基于关节vs. 基于 SMPL 的全身远程操控』在关节空间训练得到的数据其平均任务进度达到 88%而基于SMPL 的仅为 75%。两种主要的失败模式构成了这一差距的大部分在 Bottle Disposal 任务中基于SMPL 训练的策略会抬起脚跟却没有足够抬起脚趾从而无法提供足够的间隙来压下踏板在 ColaPlacement 任务中它有时会走得离桌子太近把易拉罐碰倒这两种失败情况均未出现在收集的演示中作者将这一差距归因于行动空间维度要高得多81 对 32鉴于人体的运动学链条SMPL 的额外维度在很大程度上是冗余的然而 VLA仍然必须学会对它们进行整体协调而这种更为困难的学习问题会表现为上述抬脚高度和行走距离的误差。基于这一发现作者将在数据收集过程中在线地将全身示范重新映射到机器人的关节空间第三未来帧预览时延0.2 s 在平衡行走与操作两方面表现最佳作者通过动作捕捉训练的全身控制器暴露出一个可调节的预览时延用于控制它能够看到多远未来的参考动作。更长的预览时间可以带来更平滑的动作但也会在操作者发出指令与其被执行之间引入额外延迟作者在 Cola Placement 任务上对进行遍历在每个设置下收集相同数量的示教40条在各自的数据上训练一个 VLA并以平均示教时长作为远程操作难度的代理指标。结果如图 4 所示——未来帧预览延迟扫描且在时机器人响应最灵敏静止操作手感最佳但在数据采集和测试中运动表现出卡顿和” 跺地” 现象在∆t 0.6 s 时累积延迟使操作员难以承受演示时长从∼35 s 跃升至41 s任务进度骤降至13 %∆t 0.2 s 达到了最佳平衡在演示时长(35.2s)与零预览情形基本不变的情况下实现了67 % 的任务进度4这一发现对流程中的多个远程操作者都成立且∆t 0.2 s 在之后的所有任务上都产生了高质量的演示。由此所有后续阶段所构建的数据采集流程得以确定基于关节的全身遥操作在线重定向到机器人关节空间预览延迟为0.2 s1.2.2 全身 VLA 策略设计接下来转向高层策略。一个很有吸引力的起点是使用预训练的 VLA它已经具备视觉-语言推理能力以及操控先验然而现有的 VLA 几乎全部面向静态或轮式双臂平台目前没有任何一种是专为类人机器人行走-操控一体任务而设计的对于开篇问题如何将一个在静态和轮式双臂平台上预训练的 VLA 适配为适用于整躯人形机器人的策略在这一过程中哪些设计选择真正起关键作用作者将探索划分为三个方向动作与本体感知接口——将 VLA 原始的低自由度动作空间适配为人形机器人高自由度的控制指令预训练的作用——是否需要机器人预训练π0.5[22]抑或仅依靠视觉-语言预训练PaliGemma [23]甚至从零开始训练就已经足够更快速的动作生成——多步 flow matching [24] 是否可以被单步推理所取代。作者设定一个默认配置并在 4 个任务子集上一次只消融一个组件结果如图 5 所示第一动作和本体感受界面适配几乎不影响性能作者使用π0.5 [22]作为默认骨干网络并保持其内部结构不变而是专注于VLA 与人形体之间的接口。根据构造必须改变两点输出动作向量和输入本体感受状态。围绕这两个轴我们做了四种设计选择的消融动作投影初始化π0.5 的动作投影支持最多32 维动作但作者的34 维动作向量来自§3.1 的32 维加上两个平行夹爪维度一个灵巧手会使其更高需要对其进行尺寸调整作者比较了随机重新初始化与权重“手术”默认后者在输入和输出线性投影层中保留前32 维的预训练权重只随机初始化新增的条目动作排序π0.5 预训练的动作向量布局为[left arm, left gripper, right arm, right gripper]可以保持这一布局并在其后附加在末端使用针对人形机器人的腰部和腿部关节排序(默认)或者选择一种全新的人形原生排序方式(例如先排列双腿)绝对 vs. 相对动作目标预测绝对关节位置(默认)或者预测相对增量即将每个动作块中的动作都重新表示为相对于该块中第一个动作的变化量本体感知输入头部和手腕上的摄像头无法清晰观测下半身将完整的关节位置向量作为输入(默认)可以让策略直接获取自身的身体姿态但有可能导致策略偏向利用这种本体感知“捷径”而不足以利用视觉信息作者分别对每个选项单独做消融实验同时将另外三个选项保持为默认设置结果如图 5 中的琥珀色分组所示可能其中各种柱子的颜色 眼花缭乱没关系 我给你一目了然的标出来如下所示琥珀色接口消融每个柱状条仅颠倒一个设计选项性能下降幅度较小且没有哪个单一选项构成瓶颈玫红色预训练消融机器人预训练π0.5起主导作用而仅用PaliGemma 或从零开始训练则性能急剧崩塌鼠尾草色单步动作生成尽管其验证集动作 MSE 更低但两者相比 10 步基线仍低约 20 个百分点具体而言在每一种情况下“错误”的选择随机初始化的投影、人形机器人原生的关节顺序、相对动作目标、去除本体感受输入都会带来 4 个任务的平均任务进度略微下降但不会导致 rollout 行为或失败模式出现质的变化这些数值上较小的下降最合理的解释要么是鲁棒性略低要么是 5 次 rollout 评估的噪声下限就人形机器人 VLA 适配而言这四个选择中的任何一个本身都不是瓶颈。然而这并不意味着这些选项可以被任意组合作者宣称他们的额外实验表明同时移除本体感受输入并切换到相对动作会导致灾难性失败因为策略会很容易漂移到无法恢复的分布外状态由于没有任何单一替代方案优于默认设置作者在本文其余部分都保留默认配置即将对 action projection 采用权重手术weight surgery、使用预训练的双手关节顺序、采用绝对关节目标并将本体感受作为输入第二在非人形机器人上的预训练可以很好地迁移到仿人VLA 适配固定接口后作者进一步探究在存在显著具身差异的情况下基于非人形机器人数据静态和轮式双臂的预训练是否仍然能够迁移到人形机器人上或者仅仅依靠视觉-语言骨干网络是否就足够作者比较了三种骨干网络初始化方式π0.5在非仿人机器人上预训练PaliGemma相同架构但没有机器人数据随机初始化结果如图5 中的玫瑰色分组所示。差距非常明显π0.5 达到91 % 的平均任务进度PaliGemma 降至60 %而随机初始化则跌至42 %在这一差距背后隐藏着一个惊喜在保留的验证集上的动作均方误差MSE中π0.5 初始化模型与PaliGemma 初始化模型在整个微调过程中几乎无法区分然而在机器人上它们的表现却急剧分化以PaliGemma 初始化的策略在抓取方面持续较弱并且很少能从一次失败的抓取中恢复而以π0.5 初始化的策略则能够流畅地重试。由此得到两个结论首先π0.5 的操作先验尤其是其预训练数据中隐含的闭环” 看到错误、修正、重试” 的行为可以在存在具身差异的情况下迁移其次动作MSE 是衡量机器人预训练价值的一个很差的代理两个动作MSE 匹配的模型在真实机器人上的行为可能截然不同随机初始化则以不同的方式失败策略学会了一种粗糙的行走步态但其操作能力几乎完全崩溃从双臂预训练到人形机器人的跨具身差距是客观存在的但与有无机器人预训练之间的差距相比却微不足道。作者将在所有后续实验中从π0.5 进行初始化// 待更