NVIDIA联合多所顶尖高校打造的“全能机器人大脑“
这项研究来自NVIDIA与伊利诺伊大学厄巴纳-香槟分校、加州大学圣地亚哥分校、香港理工大学、密歇根大学、南洋理工大学、约翰斯·霍普金斯大学以及蒂宾根大学等多所顶尖机构的联合团队于2026年6月18日发布在预印本平台arXiv论文编号为arXiv:2606.20905。有兴趣深入了解的读者可以通过该编号查询完整论文。现在机器人领域正面临一个听起来有些滑稽的困境——为了让机器人变得聪明工程师们往往需要给它装上一大堆专家顾问一个专门认路的导航专家、一个专门记事的记忆专家、一个专门看图说话的视觉专家……这些专家各自为政互相传话结果一旦某个专家出错整条链子就断了。这就像你雇了一支豪华团队来帮你搬家但厨师只管厨具、司机只管开车、搬运工只管箱子没人能统筹全局最后你的沙发被搬到了阳台电视被放进了储物间。Vesta的出现就是为了解决这个群龙无首的混乱局面。它的核心思路很简单——把所有这些专家的能力全部塞进一个人的脑子里。而且实验结果表明这个全能选手不仅没有因为什么都学而变得平庸反而在几乎每项测试中都打败了那些术业专攻的专家模型。一、为什么机器人需要全能大脑而不是一群专家顾问要理解Vesta解决的是什么问题不妨先想象一个在超市工作的人形机器人。它需要同时具备好几种截然不同的能力当地面脏了它要规划出最高效的清洁路线当有顾客过来询问它要理解问题并给出合理答复当它不确定某样东西该被放回货架还是扔进垃圾桶时它需要结合常识作出判断当它完成了一个区域的清洁之后它还要记住自己做过什么以免重复劳动。这四件事在今天的机器人领域通常是由四个完全独立的模型分别负责的。这种专家团队模式在实验室里看起来很美好因为每个专家都可以在自己的领域里达到最高水准。但当你把这些专家拼到一起部署到真实世界问题就接踵而来。首先多个大型模型同时运行计算资源的消耗是惊人的其次专家之间传递信息本身就会引入延迟更要命的是一旦某个专家输出了一个错误的结论这个错误会像多米诺骨牌一样在传递过程中被后续专家放大和继承最终导致整个系统崩溃。研究团队把这种现象称为级联失败。Vesta的解决思路是把所有专家合并成一个也就是用一个统一的基础模型同时承担定位、导航、空间推理和长期规划四大能力。而且这个模型在面对真实机器人任务时还要能够记住过去发生了什么并基于这段记忆做出下一步决策。二、Vesta是怎么被喂出来的——数据混合的讲究Vesta的基础是阿里云的Qwen3-VL-8B模型这是一个已经具备强大视觉和语言理解能力的大模型。研究团队对它进行了专门的增强训练而这个过程最关键的部分是精心设计的训练数据配方。整个训练数据集被分成六大类别每类的比例都经过仔细斟酌。占比最大的是空间智能相关数据约占总量的27.1%这类数据专门训练模型理解三维空间中物体的位置关系。紧随其后的是导航数据占21.8%以及物体定位数据占20.8%。通用视觉语言数据占16.2%这部分数据的作用是防止模型在专项训练中忘掉原本的通用能力。剩余的约9.8%是具身推理数据最后约4.3%来自真实机器人操作的实际数据。这个数据配方的设计哲学很清晰大头给空间相关能力因为机器人理解世界本质上是在理解空间保留一块给通用能力防止模型变成单纯的机器人工具而失去泛化能力最后用少量真实机器人数据来做落地校准让模型知道理论最终要服务于真实操作。在定位能力的训练上研究团队采用了一种主干加尾巴的策略。主干部分使用了Objects365、COCO和LVIS等大规模通用物体检测数据集这些数据集覆盖了数以千计的物体类别能让模型建立起扎实的通用识别基础。尾巴部分则专门加入了机器人视角的数据包括第一人称视角的观察、以操作为中心的标注以及随时间推移的交互序列。这些数据帮助模型适应机器人特有的观察条件比如视角受限、物体被部分遮挡以及需要预判哪个位置适合抓握等。导航能力的训练数据来自R2R、RxR和ScaleVLN三个经典数据集这些数据集在Habitat和Matterport3D等虚拟环境中被渲染成实际的导航轨迹。在训练时模型不仅要看当前帧还要接收历史帧作为参考以便理解自己走过了哪条路。三、让机器人有记性——记忆模块的设计机器人任务中有一类格外棘手的挑战就是那些跨越很长时间段的任务比如把杂货从纸袋里一样一样取出来分门别类放好或者在四个抽屉里找一块糖果并记住哪个抽屉已经翻过。这类任务有个特点下一步要做什么高度依赖于之前发生了什么。用研究者的术语说这是非马尔可夫问题——当前状态不能完整描述你需要知道的一切。Vesta的处理方式是给自己配备一个明确的记忆模块。这个记忆模块的工作方式其实非常朴素但朴素不代表无效。每走完一个步骤系统就把这一步的关键信息打包存档包括步骤编号、时间戳、当时的视觉画面、模型做出的决策以及整体目标。当需要做下一步决策时这段历史记录会被重新注入到模型的输入中让它回忆起之前做了什么。历史图像的数量是有上限的研究团队用了两种不同的采样策略来从历史中挑选哪些帧被保留下来一种是均匀采样均等地从历史时间轴上取点另一种是偏向近期的采样越近的帧被选中的概率越高因为刚刚发生的事情通常与当前决策更相关。值得一提的是第一帧永远会被保留因为任务的起始状态对于理解整体进度至关重要。研究团队还在决策过程中引入了链式思考机制。在给出每个子任务的预测之前模型会经历四个思考阶段先做观察描述当前看到了什么再做进度评估判断整体任务完成了多少然后进行推理分析下一步应该做什么以及为什么最后才输出具体的行动指令。这四个阶段只有行动指令会被写入记忆其余是辅助思考过程。后来的消融实验证明仅用图像记忆或仅用文字记忆的效果都比两者结合差。纯图像记忆的模型看到画面却难以理解任务进度容易过早切换行动纯文字记忆的模型则过度依赖文字捷径频繁输出继续当前任务这种敷衍的答案。图像加文字的混合记忆才能两全其美。四、导航能力——一个模型追平了导航专家在视觉语言导航领域衡量一个模型好不好最核心的指标是它能否把智能体引导到正确目的地。研究团队用了R2RRoom-to-Room数据集的未见场景验证集来测试Vesta这个验证集包含1839个导航任务都发生在训练时从未出现过的场景中。Vesta在这项测试中取得了55.5%的成功率与此前的导航专家模型InternVLA-N1几乎持平后者的成功率是55.4%。Vesta在成功率和预言成功率两个指标上甚至微微领先只是在路径效率方面略微逊色。相比之下那些没有专门训练导航的通用模型——包括RynnBrain、RoboBrain 2.5和Qwen3-VL——成功率全部是零。这说明导航能力需要专门训练但同时也说明如果训练数据到位一个通用模型完全可以达到专家水准。消融实验进一步验证了这一点。当研究团队用完全相同的架构和训练资源只做导航数据训练时得到的专家模型成功率为54.1%只做具身推理数据训练时成功率为零而统一训练的Vesta成功率达到了55.5%反而比纯导航专家还高了1.4个百分点。这个结果出人意料却意义重大不同任务之间的联合训练不但没有相互干扰反而产生了正向迁移让模型在各个维度上都有所提升。五、具身推理——看图回答这里发生了什么具身推理是一种比普通图像问答更复杂的能力它要求模型不仅理解图像中有什么还要理解智能体应该做什么、能从哪里抓取物体、物体放在哪里最合适。研究团队在十个认知类基准和五个定位类基准上对Vesta进行了综合测试。在认知类测试中Vesta的平均分是68.7而最强的竞争者RynnBrain得了64.8RoboBrain 2.5得了56.6Qwen3-VL得了55.7。Vesta在Open-X VQA上得了89.3分远超RynnBrain的74.0在MindCube空间推理测试上得了80.9分而RynnBrain只有56.6RoboBrain 2.5只有29.2。在EgoTaskQA这项以第一人称视角理解人类任务的测试上Vesta得了81.9分比基础模型Qwen3-VL高出超过24分。在定位类测试中Vesta的平均分是69.9超过了所有其他模型。RoboBrain 2.5紧随其后得了69.4两者接近但Vesta在CrossPoint这项需要理解跨视角对应关系的任务上以76.0分大幅领先RynnBrain只有44.3Qwen3-VL只有28.7。值得特别提到的是那些纯导航专家模型在具身推理测试中的表现近乎灾难性——InternVLA-N1由于过度专项训练出现了灾难性遗忘在面对任何非导航问题时都机械地输出转向指令完全失去了回答问题的能力。这是只会一招的专家模型最典型的短板。六、动作规划——在流水线式的真实任务中辗压对手动作规划测试的场景是这样的机器人面对一段预先录制好的操作视频每隔固定时间它要从候选动作列表中选出当前最合适的子任务并持续追踪任务进度。这个测试分为两个数据集AgiBot公开数据集提供了五类标准机器人操作任务包括清理桌面、放置水果、分拣零件、折叠衬衫和补充货架内部的以人手为主角的Egocentric Human-Hand数据集则包含了60种极为多样化的现实任务从组装手机到雕刻石头再到修剪地毯每种任务只有一条轨迹。Vesta在这项测试中的表现令人印象深刻。总体平均分达到75.4而最接近的竞争者RoboBrain 2.5只有38.5Qwen3-VL和RynnBrain分别是33.6和33.5。具体到各个子任务Vesta在清理桌面上得了74.4分对手最高只有38.7在放置水果上得了91.0分对手最高81.6在分拣零件上得了64.0分对手最高18.1在折叠衬衫上得了80.3分对手最高38.3在补充货架上得了82.3分对手最高33.0。即便是在那60个高度多样化、完全零样本的人手任务上Vesta也以60.5分对27.0分大幅领先。这个测试还特别关注过渡时刻——也就是机器人从一个子任务切换到下一个子任务的那一刻。过渡时刻在训练数据中天然稀少因为大多数时候机器人都在继续执行当前任务。研究团队发现将过渡时刻的训练样本按2倍比例过采样能显著提升过渡阶段的准确率同时整体表现也有明显改善进一步提升到3倍则收益递减还会轻微损害执行阶段的准确率。于是2倍成为了默认配置。七、在真实机器人上验证——三个考验记性的任务所有的基准测试都是在虚拟环境或预录视频上进行的最终能否在真实机器人上有效运作才是检验一切的终极考场。研究团队使用了I2RT公司的双臂YAM夹持机器人设计了三个专门考验记忆和推理能力的实测任务。第一个任务是寻找物品一件物品被随机放置在四个抽屉中的某一个里机器人要逐一打开抽屉查找找到后取出放到桌上。任务的挑战在于如果同一个抽屉被打开两次任务立即判定失败。这意味着机器人必须记住自己已经开过哪个抽屉不能重复劳动。第二个任务是数水果桌上摆着一个野餐篮和若干水果系统指定要放入几个水果机器人就要一个一个地把正确数量的水果放进去然后关上篮子。这考验的是计数能力以及在一系列重复动作中不出错地停在正确步骤。第三个任务是记住糖果桌上放着一块糖、一个盒子和两个不同颜色的托盘。机器人要把糖放进盒子、关上盖子然后把盒子放到与糖果颜色相匹配的托盘上。难点在于一旦盒子关上糖果就不再可见机器人必须凭记忆知道盒子里装的是什么颜色的糖。每个任务各测试20次分三种配置对比纯执行模型没有规划器、执行模型加Qwen3-VL规划器、执行模型加Vesta规划器。结果显示加入Vesta规划器之后三个任务的平均成功率比纯执行模型提升了38.3%比使用Qwen3-VL规划器提升了25%。这个结果在统计上的置信度超过4个标准差意味着这不是偶然现象。研究团队还指出在失败案例中大多数失败来自执行模型本身的动作错误而非规划器的判断失误这说明规划器已经相当可靠。归根结底Vesta这项研究的意义不只是又一个比别人强的模型。它回答了一个在机器人研究领域争论已久的问题把所有能力塞进一个模型真的可行吗长期以来很多研究者认为每个任务太复杂、差异太大让一个模型同时精通所有任务几乎是不可能的。Vesta的结果给出了一个明确的可以——而且不只是也还行而是比专家团队集体出战还要强。当然这项研究也坦诚地指出了自己的局限。目前的测试只在一种机器人平台和三种任务上进行了验证真实世界的机器人场景远比这复杂模型的规模停留在80亿参数级别更大规模下的表现尚未探索记忆模块目前依赖人工设计的规则而不是从数据中自我学习。这些都是研究团队明确列出的未来工作方向。这对普通人意味着什么如果这条路线继续发展下去未来家庭助理机器人、医疗陪护机器人、工厂操作机器人的内部设计可能会大幅简化部署成本会降低可靠性会提升。机器人不再需要是一群专家的拼凑而可以是一个真正理解上下文、有记忆、能推理的整体。那个超市里的清洁机器人或许某一天真的能够在打扫地板的同时礼貌而准确地回答你芝士片放在哪个货架的问题了。QAQ1Vesta和普通机器人控制模型有什么本质区别A传统机器人系统通常使用多个专门模型分工合作一个负责导航、一个负责识别物体、一个负责规划任务。Vesta把这四种能力——定位、导航、具身推理、动作规划——全部统一进一个模型。好处是减少了模型之间的传话误差降低了计算资源消耗也避免了某个专家出错后错误层层放大的问题。实验证明这个全能选手甚至比各领域的专家模型还要表现得好。Q2Vesta的记忆功能是怎么实现的AVesta用一个明确的记忆模块来记录任务过程。每完成一个步骤系统就把当时的图像、时间戳、步骤编号和决策结果存档。下次做决策时这些历史记录会被重新注入模型输入让它回忆之前发生了什么。历史图像数量有上限通过均匀采样或偏向近期的采样来选取哪些帧保留第一帧永远被保留。实验证明图像加文字的混合记忆比单独用其中一种效果更好。Q3Vesta在真实机器人上测试了哪些任务效果如何A研究团队用双臂夹持机器人测试了三项任务在四个抽屉里找物品不能重复开同一个抽屉、把指定数量的水果放进篮子、把糖放进盒子后凭记忆找到颜色匹配的托盘放置。每项任务测试20次。加入Vesta规划器后三项任务的平均成功率比没有规划器的版本提升了38.3%比使用Qwen3-VL规划器的版本提升了25%统计置信度超过4个标准差。