人形机器人最难的不是走路,而是手脚并用, TeleAI提出OASIS实现仿真数据和模型闭环
把行走、平衡、双臂操作和环境接触统一起来让全身移动操作的数据生产走向可规模化在固定机械臂上让夹爪把杯子放进盒子难点大多集中在手臂和末端执行器。换成人形机器人任务就完全不同了**它要先走到桌边持续调整脚步和重心再转身、弯腰、伸手、接触物体同时确保自己不摔倒。**手在干活腿在走路躯干在平衡机器人的第一人称视角还在不断变化。这种把 locomotion 与 manipulation 紧密耦合的能力被称为loco-manipulation全身移动操作。它不是“会走路”和“会抓取”的简单相加而是人形机器人能否真正进入家庭、办公室和工业现场的分水岭。然而对于人形机器人的移动操作任务而言现有数据来源迫使在轨迹质量和数据可扩展性之间做出妥协。真实世界的遥操作能提供最高质量的轨迹但需要专属的物理空间且场景重置耗时费力。仿真技术为摆脱这一困境提供了另一条出路它无需任何物理硬件就能大规模生成干净且与机器人本体相匹配的数据。近日中国电信人工智能研究院提出了OASIS探讨了仿真数据在解决人形机器人“运动-操作”任务数据瓶颈方面的巨大潜力。原文链接人形机器人最难的不是走路而是手脚并用 TeleAI提出OASIS实现仿真数据和模型闭环本工作由中国电信集团 CTO、首席科学家、中国电信人工智能研究院TeleAI院长李学龙教授指导 TeleAI 具身智能团队创新完成。作为 TeleAI 的科研带头人他带领科研团队围绕具身智能基础模型、人形机器人全身智能与高质量数据体系展开系统研究推动人工智能能力从数字空间走向真实物理世界。TeleAI 具身智能科研团队负责人为 TeleAI 研究科学家白辰甲博士该团队长期聚焦人形机器人全身决策控制与可规模化数据体系OASIS 正是围绕“数据从哪里来、全身技能如何学、仿真能力如何落到真机”这一关键链条的最新探索。图 1 OASIS 全流程概览。所有训练演示均在仿真中收集视觉运动策略随后零样本部署到真实宇树 G1完成多类全身移动操作任务。01.真正的技术难点是把全身运动和操作放在一起很多操作任务已经能在仿真中稳定复现但人形机器人的全身移动操作要难得多。原因不只是机器人自由度更多而是移动、平衡、感知、接触和任务执行形成了强耦合任何一个环节的误差都可能沿着整条动作链被放大。固定基座变成移动基座。机械臂的底座通常稳定不动人形机器人的支撑区域却会随着迈步、转身、下蹲和跪姿持续变化。机器人在伸手或搬抬物体时物体重量和接触力还会反过来改变全身受力与重心。局部动作变成长时程全身协同。从走近目标到调整站位再到双手抓取、搬运和放置每个阶段都必须衔接。前一步站偏几厘米后面的抓取就可能失效手臂接触过猛不仅会碰坏物体也可能破坏身体平衡。仿真也不能只追求“看起来像”。场景中的尺寸、质量、摩擦、碰撞体和恢复系数都必须足够可信全身控制器也要能让动作在物理上执行。普通视觉增强可以大量随机化但全身轨迹不能随意扰动因为轻微改动就可能破坏平衡。这正说明人形全身技能的仿真数据远比一般桌面操作更难生产。也正因此真机数据采集在这里格外昂贵。长时程任务中只要中途摔倒或接触失败操作员就要扶起机器人、重新摆放全部物体、检查设备再继续。一条失败轨迹损失的不只是几秒动作而是整套场景和全身状态的重建成本。02.OASIS把全身移动操作的数据生产搬进仿真针对这道难题TeleAI 团队提出 OASIS。它的目标不只是“用仿真替代真机”而是建立一条专门面向人形 loco-manipulation 的数据生产线自动生成可交互资产在仿真中采集全身演示将每条轨迹扩展为多样视觉数据再训练可零样本迁移到真机的分层策略。第一步从一张照片生成“能碰、能抓、能推动”的物理资产把数据采集搬进仿真后新的瓶颈随即出现每个任务都需要对应的场景与物体手工建模同样难以规模化。OASIS 先用3D生成模型从单张实拍照片生成带纹理的高分辨率网格再由 Qwen3-VL 根据物体类别与视觉信息估计真实尺寸和材质。尺寸用于恢复物体尺度材质则进一步映射到密度、摩擦和弹性恢复系数等物理参数。这样得到的不只是一个“看得像”的 3D 模型而是一个可以进入物理仿真、参与接触和搬运的资产。系统还会围绕估计值随机化物理参数降低自动生成误差对策略的影响。图 2 OASIS 框架。系统将资产生成、全身遥操作、离线高保真渲染和分层策略学习解耦分别解决场景搭建、轨迹采集、视觉扩展与稳定执行问题。第二步操作员在虚拟世界里采集全身轨迹场景搭建完成后操作员佩戴 VR 头显、手柄和脚踝追踪器从机器人第一人称视角遥操作仿真中的人形机器人。人体动作经 GMR 重定向为机器人参考全身运动再由开源全身控制器 Teleopit 驱动机器人执行。这一步刻意采用 Isaac Sim 的实时渲染模式优先保证低延迟而不是追求电影级画面。系统记录机器人与物体的运动状态以及重定向后的参考动作。换句话说先把最宝贵、最难采的全身运动轨迹记录下来图像质量留到后处理阶段解决。第三步一条全身演示扩展成二十个视觉世界轨迹采集完成后OASIS 将状态序列离线回放并切换到 Path-Tracing 高保真渲染。每次回放都会改变背景纹理、光照强度与色温、相机外参。同一段“走到桌边并把杯子放入盒子”的动作可以出现在不同材质、不同光线和略有视角偏差的环境中。论文最终为每条轨迹渲染 20 个随机环境。关键意义在于操作员投入一次时间系统却能持续生产新的视觉训练样本把“人的操作时长”与“数据集规模”真正解耦。第四步上层规划全身动作下层负责稳定执行OASIS 采用分层视觉运动策略。上层 Flow Matching 规划器结合文本指令、头部与双腕三路相机图像以及最近的参考动作历史一次预测未来 32 帧的全身参考运动下层控制器以更高频率闭环跟踪将参考运动转换为身体与双手共 43 个自由度的关节目标。团队还采用课程式 rollout 训练模型先在干净的真实历史上学习随后逐步接触自己预测产生的误差历史。这样做是为了让策略在长时间执行中学会纠偏避免前面一个小误差滚成后面的全身失稳。03.真机验证任务越复杂仿真的价值越明显团队在宇树 G1 上设置了四项难度递增的任务。它们并非只测试手臂是否能抓住物体而是覆盖站位调整、全身搬抬、持续接触和跪姿操作等不同形态直接检验策略是否真正掌握了 loco-manipulation。数据采集提速 1.84 倍在同一名操作员、同一套底层控制器、每项任务均采集 50 条成功轨迹的条件下OASIS 在四项任务中都比真机遥操作更快而且任务越复杂优势越明显。差距主要不在单次动作执行而在轨迹之间的恢复成本。真机每完成一次都需要人工把机器人和物体恢复到初始状态仿真则可以一键复位。任务越长、物体越多、姿态越复杂复位成本越高。论文还记录了一个很直观的细节团队在真机采集擦拭任务时曾因接触力过大损坏显示器在仿真中类似失败只需要重新开始。图 3 真实宇树 G1 上的四类移动操作任务包括走近桌面并放置杯子、全身搬抬篮筐、接触式擦拭显示器以及跪姿进入桌下完成擦拭。表 1 采集 50 条成功轨迹所需时间。最复杂的跪姿桌下擦拭任务达到 1.84 倍提速。视觉随机化打通Sim-to-Real 的桥梁消融实验显示关闭全部视觉随机化后四项任务的平均真机成功率仅为 5%加入完整的纹理、光照与相机外参随机化后平均成功率达到 83%。其中光照影响最大但三种随机化联合使用效果最好说明它们分别填补了不同维度的视觉差距。随着每条轨迹的渲染环境增加成功率持续上升并在 15 至 20 个环境附近趋于饱和。这一结果说明仿真的价值并不只是“便宜地复制数据”而是主动制造真机采集难以覆盖的视觉变化。纯仿真数据不再只是补充而能直接支撑真机任务在相同轨迹总数下团队比较了纯仿真、纯真机和仿真加真机三种数据配置。只用 OASIS 仿真数据训练的策略在真实机器人上的成功率与真机数据训练相当部分任务甚至更高将两类数据混合后整体表现进一步提升。这背后的逻辑很清晰仿真负责提供广泛、多样、可重复的视觉与场景覆盖真机负责补充真实接触和传感特性。二者不是简单替代关系而是可以形成互补的数据组合。04.人形仿真从验证工具走向数据基础设施OASIS 最值得关注的不只是 1.84 倍的采集提速也不只是一次成功的 Sim-to-Real 实验。它指向的是一个更重要的变化高保真仿真开始有能力承担人形机器人全身移动操作的数据生产。对于固定基座机械臂仿真操作已经有相对成熟的工具链对于人形机器人真正困难的是让腿、躯干、双臂、双手和视觉在动态平衡中共同完成任务。OASIS 通过自动资产生成、全身遥操作、离线视觉扩增和分层控制把这条原本高度依赖真实场地与昂贵硬件的链路搬进了虚拟世界。团队也明确指出了下一步挑战。目前 OASIS 主要随机化视觉条件动作多样性仍受操作员演示限制因为直接扰动全身状态很容易破坏平衡自动生成资产的几何与物理参数也可能在复杂接触任务中产生误差。未来若能进一步实现物理可行的轨迹增强和更准确的资产标定仿真数据的规模与质量还有更大上升空间。从“会走、会抓”到“边走边干活”人形机器人需要的不是两套孤立能力而是一套统一的全身智能。OASIS 的意义正是让这类最难采、最难训、最容易失败的全身技能第一次拥有了一条可规模化的数据路径。团队与论文信息本工作由中国电信人工智能研究院TeleAI具身智能团队重点完成并与复旦大学、华东理工大学、上海交通大学研究人员联合开展。白辰甲博士与李学龙教授为论文通讯作者李学龙教授指导相关研究。论文题目OASIS: From Simulation Data Collection to Real-World Humanoid Loco-Manipulation论文地址https://arxiv.org/abs/2606.08548项目地址https://oasis-humanoid.github.io/重磅全网首个具身智能开源知识库来啦技术/产业/投融资/上下游推荐阅读真机强化入门的一套完整教程pi*0.6复现方案我们用低成本的机械臂完成pi0/pi0.5/GR00T/世界模型等VLA任务具身智能的WAM与世界模型一份完整指南一览具身智能的行业全局从产品经理的角度出发VLARL方向首个系统教程来啦Online RL/Offline RL/test time RL等好用高性价比面向具身科研领域打造的轻量级机械臂VLA/VLA触觉/VLARL/具身世界模型等具身大脑小脑算法与实战全栈路线来啦~从零训练你的足式机器人让你的足式机器人真正动起来~1v1 科研论文辅导来啦重磅具身智能之心论文辅导来啦近20方向顶会/顶刊/SCI/EI/中文核心/申博等