一、文章主要内容RoboBench 是一款针对多模态大语言模型(MLLMs)作为“具身大脑”的综合评估基准,聚焦机器人操纵任务中的高层认知能力。它围绕具身执行全流程,定义了指令理解、感知推理、泛化规划、可用性预测、故障分析五大核心维度,覆盖14项能力、25类任务和6092个问答样本。数据集融合真实机器人数据与自定义采集内容,包含多机器人形态、多属性物体、多视角场景等真实场景元素。通过“MLLM作为世界模拟器”的创新评估框架,突破传统符号匹配局限,可评估规划的物理可行性与逻辑合理性。对14款主流MLLMs的测试显示,现有模型在隐式指令理解、时空推理、复杂规划等方面存在显著不足,Gemini-2.5-Pro表现最佳但仍与人类水平有差距。二、核心创新点全面的评估维度设计:首次整合具身认知全流程的五大核心维度,而非孤立评估单一能力,完整覆盖从意图理解到故障诊断的认知链条。高真实度与多样性任务:结合大规模真实机器人数据与自定义采集,涵盖单臂/双臂/移动机器人、多属性物体、遮挡场景等,缩小仿真与现实差距。创新的规划评估框架:提出“MLLM作为世界模拟器”,通过解析任务依赖关系图、模拟关键物体状态变化,评估规划的物理可行性与执行有效性,超越传统文本相似度或选择题评估。系统的模型能力洞察:对14款SOTA模型进行大规模测试,明确现有模型在隐式指令、时空感知、跨场景规划等方面的核心瓶颈,为具身智能发展提供明确方向。