机械臂量表与灵巧任务语义之间的差距机器人学习受限于数据稀缺性。目前尚无可供操作的互联网规模语料库而收集机器人演示数据又需要庞大的硬件设备在现实世界中运行。以自我为中心的人类数据显然是可扩展的替代方案但以往大多数人机协同训练都将其应用范围狭窄仅限于提升分布式环境下的性能或在执行相同任务时泛化到新场景。更难的问题是人形机器人能否继承那些仅存在于非人类数据中的高级任务语义例如排序的概念、将现有技能组合成新行为以及在放置过程中基于规则的排序。这并非易事原因有二。首先大多数视觉-语言-动作模型包括本文使用的π0.5基础模型都是为低维动作空间的平行爪机械臂构建的。一只五指灵巧的手每只手有29个维度双手控制则有58个维度远远超出了模型32维的动作处理能力。其次当人机动作表征的对齐依赖于逆运动学时其本身就不可靠。对于像Tesollo20个活动关节这样具有高自由度的手基于指尖目标的逆运动学和优化重定向经常会导致自碰撞或不自然的姿态。一套采集设置即可记录两种不同构造下对齐的手指运动学数据斯坦福大学和Meta团队基于Galaxea R1 Pro机器人构建了数据管道每个末端执行器都配备了Tesollo机械手20个关节或Inspire机械手6个关节以及ZED mini前视视觉系统。远程操控方面安装在MANUS手套上的Quest控制器驱动机器人数据采集。Quest控制器追踪操作者手腕相对于头戴式显示器的6D姿态而MANUS手套则提供操作者手指关节的角度这些角度被映射到机器人的手部关节从而实现灵巧控制。两个设备均以100 Hz的频率进行数据记录。随后我们使用相同的MANUS手套和Quest控制器组合来采集人体演示数据并搭配桌面式ZED mini设备未使用腕部摄像头。使用同一根手指追踪数据流同时采集人体和机器人数据使得跨实体对齐成为可能。Ego-Pi并非预测指尖位置并求解逆运动学方程来得到机器人关节构型而是采用了一种以机器人为中心的动作表示方法MANUS 手套提供的手指关节角度通过每个关节的偏移量和缩放因子逐个映射到机器人的关节空间。由于对齐过程在关节角度空间中进行因此避免了机器人侧的逆运动学计算后者往往会在Tesollo等高自由度机械手上产生自碰撞或不自然的姿态。在动作表征一致的情况下Ego-Pi通过交错动作公式来调整π0.5该公式将左手和右手动作分布在两个标记上在保留预训练动作头的同时适应了58个灵巧维度。人类和机器人数据以50/50的批次比例进行联合训练。无需机器人训练数据任务语义识别成功率达 90%。对于机器人从未演示过的目标行为任务简单的协同训练能够有效地迁移任务语义在按颜色对番茄进行分类的任务中成功率达到92%在基于规则的包装任务中成功率达到 90%而仅使用机器人的基线模型成功率分别为40% 和10%。装箱任务需要按顺序完成两项技能并且是唯一需要双手操作的任务该任务需要使用子任务预测作为辅助损失才能达到93%的成功率高于简单协同训练的27%和仅使用机器人的20%而结合骨架叠加后则达到了100%。在所有三种行为任务中该框架的成功率均达到90%或更高。通过重用人类演示来扩展灵巧学习Ego-Pi表明人类数据的作用远不止于强化分布式行为。它无需机器人进行任何目标任务的演示就能教会灵巧的人形机器人真正全新的任务结构包括排序逻辑、技能链和排序规则。其关键在于两种形态共享的一致且高速率的手指运动学数据流。随着人形机器人平台逐渐向拟人化手部设计靠拢以及以自我为中心的动作捕捉成为常规操作教授新行为的成本将从机器人远程操作时间转移到成本更低的人类演示而动作表征而非数据源则承担了协调工作。关于搜维尔科技我们热衷于动作捕捉技术的研发与推广。我们热衷于推动技术发展使其处于技术前沿甚至更前沿。在这个频道上我们想分享我们基于动作捕捉技术的最新体验。搜维尔科技与Manus数据手套总部签署代理合作协议成为其在中国大陆地区一级官方代理商。搜维尔科技现支持相关产品购买、咨询与售后支持等服务欢迎垂询。