YD/T 6770—2026《人工智能 关键基础技术 具身智能基准测试方法》
一、标准基础档案发布单位工业和信息化部2026 年第 3 号公告批准发布日期2026-02-13实施日期2026-06-01属性通信行业推荐性标准YD/T国内首份具身智能统一评测标准项目代号 EAI Bench牵头编制中国信息通信研究院联合 40 余家机器人、AI 企业共同制定官网地址工业和信息化标准信息服务平台二、内容范围适用于人形机器人、双臂服务机器人、四足巡检机器人等全部具身智能系统覆盖“感知 - 决策 - 执行”全链路性能评测支持两类测试环境计算机仿真虚拟场景、线下实景实训场地。具身智能 embodied artificial intelligence研究、开发、实现AI 算法 物理实体硬件融合让机器能自主和真实物理世界互动、适应环境变化。注释补充“物理实体” 不只是人形机器人覆盖所有带感知、执行能力的硬件 人形机器人、机械臂服务机器人、无人车、无人机、巡检四足机器人、智能移动设备全都算。它不是只跑在电脑里的纯 AI 大模型是有身体、能动手动脚、能感知真实世界的人工智能。具身智能系统 embodied artificial intelligence system一套完整闭环智能系统完整链路 感知环境 → 识别理解信息 → 自主做决策 → 执行动作 → 从过往操作经验里自我学习、适应新环境。注释拆解系统两大核心模块传感模块摄像头、雷达、力传感器、麦克风等接收图像、距离、声音、触觉等多类外界信息动作执行模块电机、减速器、机械臂、行走底盘等输出控制指令完成移动、抓取、开关门等动作。通俗理解一套完整可落地的机器人整机软硬件是实现 “具身智能” 的载体。具身智能系统通过传感器模块处理多模态输入并通过动作模块输出控制指令使得物理实体在物理世界中自主完成任务。具身智能系统任务 embodied artificial intelligence system task给定场景、限制条件后系统把一个大目标自动拆成一连串分步动作一步步执行最终完成目标的完整流程。举例高层目标把货架上纸箱搬到工作台 系统自动拆解任务导航至货架 → 2. 视觉定位纸箱 → 3. 机械臂抓取 → 4. 移动到工作台 → 5. 平稳放置 这一整套完整流程就叫具身智能系统任务。缩略语13D全称 Three Dimensional中文释义三维在这份具身智能标准里一般指代三维空间感知、三维建模、三维重建这类机器人视觉相关技术。2lx 勒克斯全称 lux中文释义勒克斯是光照度的国际标准单位用来规定测试场景里的环境光照条件保障不同厂商的测试环境参数统一、结果可横向对比。3RGB全称 Red Green Blue中文释义红绿蓝是工业视觉、机器人摄像头通用的色彩模式用来规范视觉采集、图像识别环节的色彩参数标准。三、具身智能基准测试框架YD/T 6770—2026 具身智能基准测试标准的核心总框架完整定义了一套标准化机器人评测流水线分为四大模块流程逻辑环境设置 → 测试任务库输入 → 测试过程核心执行 → 指标计算输出评测结果所有企业、实验室、政企采购评测人形 / 四足 / 双臂机器人都必须遵循这套统一流程保证不同厂商机器人性能可以公平横向对比。1. 环境设置测试前置准备分两大场景测试前必须先搭建标准化环境分为仿真虚拟、真实实景两类① 3D 交互式仿真测试环境电脑虚拟场景低成本初测包含三类基础素材3D 物体资产箱子、工具、桌椅、障碍物等测试道具三维模型本体仿真模型被测机器人数字仿真模型环境属性光照 (lx 勒克斯)、空间尺寸、地面摩擦力、RGB 色彩参数等统一环境条件② 真实场景部署验证评估线下实体场地最终落地实测覆盖五大主流商用落地赛道工业制造、商业零售、应急安全、家庭服务、医疗健康2. 测试任务库统一标准化考题作为测试输入相当于机器人的标准化试卷统一所有被测机器人的考核内容构建方法规定怎么设计导航、抓取、开门、分拣等标准任务泛化评估协议设置规定如何测试机器人在陌生新场景的适应能力防止机器人只在固定演示场景表现好。3. 测试过程框架核心执行评测1测试对象两类被测主体全覆盖算法模型单纯具身智能大模型、感知决策算法整机系统装好算法、带机械结构的完整实体机器人2四种标准化测试方法可单独用也可组合静态仿真测试虚拟环境、无动态障碍物基础能力摸底动态仿真测试虚拟环境加入移动行人、滑动障碍物测动态避障真实环境测试线下实体场地实景跑任务最贴近真实工作工况组合式测试仿真 实景交叉测试综合验证虚实一致性4. 指标计算跑完测试后统一计算 5 项硬性量化指标作为机器人性能唯一评判标准任务成功率给定任务能完整做完的次数占比核心指标任务执行效率完成单次任务平均耗时衡量运行速度人工干预率机器人卡住、出错时需要人类介入协助的频率数值越低自主能力越强场景扰动衰减率环境出现障碍物、光线变化后任务成功率下降幅度数值越小鲁棒性越好平均任务能耗完成单次任务消耗电量直接关系续航、运营成本四、具身智能基准测试方法1. 环境设置3D 交互式仿真测试环境4条强制要求13D 物体资产要求仿真平台必须能导入、自定义各类测试道具模型 物体可修改的属性包含RGB 颜色、表面纹理、长宽尺寸、物理材质金属 / 塑料 / 布料等。 作用用来模拟不同外观、重量、摩擦力的工件测试机器人视觉识别、抓取适配能力。2本体仿真模型机器人数字模型文件格式兼容支持机器人行业通用的URDF、MJCFMuJoCo两种主流模型文件精度硬性规定必须使用机器人原厂官方模型文件仿真模型的外形尺寸、重量、关节力矩、摩擦、动力学参数必须和实体真机完全一致。 核心意义避免 “仿真里性能很好真机落地翻车” 的虚实不一致问题。3环境可调功能仿真工具必须具备三类编辑能力模拟光照强弱、明暗切换对应标准里光照单位 lx 勒克斯自由切换、调整摄像头视角模拟机器人机载 RGB 相机视角自由摆放、移动场景内物体搭建不同测试任务布局。4仿真还原标准3D 仿真场景必须做到真实世界 1:1 等比例复刻空间尺寸、物体距离、障碍物位置和实景完全对应保证仿真测试数据具备参考价值。2. 测试任务库任务库必须包含「原子技能→基础任务→长线程任务」三级逐层验证机器人能力上限构建方法1原子技能最基础单项动作定义机器人最小、不可拆分的单一基础动作考核目的单独验证机械、感知底层动作稳不稳定举例附录 A.1 标准示例前进、转向、抓取、松开、视觉识别单个物体、避障、升降机械臂等作用先筛底层硬件 / 基础感知有没有故障。2基础任务多个原子技能简单组合规则由多个原子技能拼接场景里目标物体不超过 2 种举例识别纸箱原子识别 抓取纸箱原子抓取全程只涉及「纸箱」1 种物体开门原子识别门把手 原子旋转抓取仅门把手 1 个对象特点短流程、低复杂度测简单组合动作。3长线程任务多段基础任务串联贴近真实工作规则2 个及以上基础任务拼接完整模拟真实工作流程举例导航到货架基础任务 1→抓取货物基础任务 2→导航到工作台基础任务 3→放置货物基础任务 4作用模拟工厂、商超完整作业流程测机器人连续自主工作能力。泛化能力的标准化测试方法核心目的给机器人制造各类环境干扰、任务变量测试它在【非完美演示环境】下能不能稳定完成任务避免厂商只在固定样板场景刷高分。a感知能力只测视觉 / 传感识别不涉及决策、动作1测试任务视觉理解类任务标准规定的干扰变量模拟真实环境变化光照强弱lx 勒克斯、物体纹理、物体颜色、动态移动物体干扰、相机倾斜偏移、物体被遮挡、场景混入无关杂物。2通俗举例原本识别白色纸箱换成昏暗灯光、纸箱贴花纹贴纸、一半被塑料桶挡住、旁边来回走过人看机器人还能不能精准识别目标箱子。b决策推理能力只测逻辑判断、语义理解不涉及抓取移动动作1测试任务语义交互类任务干扰变量依靠颜色 / 重量 / 尺寸 / 材质区分物体、模糊口语指令、常识逻辑判断。2原文示例模糊指令“拿一个水果放到盘子上”无指定苹果 / 香蕉机器人自行区分水果类物体多选项模糊需求“从冰箱拿一罐能量饮料可乐、苹果汁、红牛任选” 重点考核机器人听懂模糊人类指令、自主区分物体属性做选择的逻辑推理能力。c行动能力只测机械执行、运动适配不涉及识别与思考1测试任务动作执行类任务干扰变量改变物体 / 场地物理属性物体轻重变化、地面摩擦力、物品易碎程度、地面温度、斜坡凹凸等。2通俗举例抓取 1kg 纸箱稳定换成 5kg 重物、光滑油面地面、易碎玻璃杯测试机械臂力度、行走平衡会不会失控。d感知决策认知能力视觉识别 逻辑推理联动1测试任务视觉语言类任务核心规则备注仅改变物体外观不会要求变更动作2举例指令 “拿起红色水杯”水杯换成红色马克杯、红色塑料杯外观变但任务动作都是 “抓取水杯”。 考核不管目标长什么样只要语义匹配机器人都能识别并执行同一套动作。e感知行动能力视觉识别 机械动作联动1测试任务视觉动作类任务核心规则备注物体视觉外观一变对应的抓取 / 移动动作就要同步调整2举例抓取长方体盒子用侧夹换成球形皮球视觉识别后自动切换环抱抓取姿态。 考核视觉感知到物体形态变化能实时调整机械执行动作。f决策行动能力语言指令推理 机械动作联动1测试任务语言动作类任务核心规则备注不同语言指令对应完全不同的空间动作流程2举例指令 1“把杯子放到桌上”指令 2“把杯子放进抽屉” 两条指令语义不同机器人规划的移动、放置动作完全不一样考核听懂语言并匹配对应行动。g感知决策行动一体化能力全链路终极考核1测试任务视觉语言动作类任务覆盖全部链路视觉识别物体 → 理解模糊语言指令 → 自主规划全套抓取 / 移动动作干扰物体外观、尺寸、位置、环境光线全部随机变化2通俗完整例子场景里混杂苹果、矿泉水、纸巾语音模糊指令 “拿一个解渴的东西放到托盘” 光线昏暗、苹果被遮挡、瓶子大小不一机器人要自主识别、推理、抓取、转运整套流程无人工干预。3. 测试过程测试对象具体包括1模型包括模块化和端到端等不同的算法模型实现方式2已部署模型的整机系统本体形态包括不限于人形、轮臂式、四足、自主移动机器人AMR等。测试方式可采用静态仿真、动态仿真测试和真实环境测试三种方式具体如下指标计算附录A原子技能是具身智能不可进一步分解的最小单元可组合用于构建复杂动作。通过构建原子技能库可以检验具身智能的基础行动能力。