Robobench: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models as Embodied ...-尧图建网站

一、文章主要内容RoboBench 是一款针对多模态大语言模型（MLLMs）作为“具身大脑”的综合评估基准，聚焦机器人操纵任务中的高层认知能力。它围绕具身执行全流程，定义了指令理解、感知推理、泛化规划、可用性预测、故障分析五大核心维度，覆盖14项能力、25类任务和6092个问答样本。数据集融合真实机器人数据与自定义采集内容，包含多机器人形态、多属性物体、多视角场景等真实场景元素。通过“MLLM作为世界模拟器”的创新评估框架，突破传统符号匹配局限，可评估规划的物理可行性与逻辑合理性。对14款主流MLLMs的测试显示，现有模型在隐式指令理解、时空推理、复杂规划等方面存在显著不足，Gemini-2.5-Pro表现最佳但仍与人类水平有差距。二、核心创新点全面的评估维度设计：首次整合具身认知全流程的五大核心维度，而非孤立评估单一能力，完整覆盖从意图理解到故障诊断的认知链条。高真实度与多样性任务：结合大规模真实机器人数据与自定义采集，涵盖单臂/双臂/移动机器人、多属性物体、遮挡场景等，缩小仿真与现实差距。创新的规划评估框架：提出“MLLM作为世界模拟器”，通过解析任务依赖关系图、模拟关键物体状态变化，评估规划的物理可行性与执行有效性，超越传统文本相似度或选择题评估。系统的模型能力洞察：对14款SOTA模型进行大规模测试，明确现有模型在隐式指令、时空感知、跨场景规划等方面的核心瓶颈，为具身智能发展提供明确方向。

相关新闻

Mamba4Net: Distilled Hybrid Mamba Large Language Models For Networking

RK RV1126B 以太网 PHY 移植：MAE0621A-Q3C 接入全过程拆解

从零实现猫狗识别：CNN模型构建与优化实战

最新新闻

Vault-Operator高可用性配置：确保密钥管理服务永不中断的终极指南

Instatic与自定义元素：Web Components集成实例

CANN工业过程控制IPDT辨识基准

Codex与Claude不是同类工具：AI编程选型的本质是任务匹配

从Zipline迁移到Spectre：完整迁移指南和性能对比分析

AI 3D场景自动化生成：从文本到可用资产的Hi3D+Codex方案实践

日新闻

SSRF漏洞攻防实战：从原理到绕过技巧与防御策略

Playwright自动化测试实战：从零搭建现代Web测试框架

Zip炸弹漏洞剖析：从GuardDog安全工具瘫痪看文件解压的资源耗尽攻击与防御

周新闻

管理者的六个层次

华为OD机试2025C卷-座位调整[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

CrabCode v1.0.7与v1.0.8 更新速览！

月新闻

FAE放射组学分析工具：医学影像特征探索的完整解决方案

基于Dify与DeepSeek构建私有知识库问答系统实战指南

餐饮老板必看：扫码点餐小程序3步搞定，别再让顾客干等了！