Masked IRL:大语言模型助力机器人理解模糊指令
想象一下在不久的将来你在仓库或办公室工作被要求帮一名新员工熟悉基本工作流程。不同寻常的是这名新员工是一台机器人。为了完成教学任务你可能会采用示范加讲解的方式——亲身演示操作步骤同时用语言说明你在做什么。假设你让机器人在你开Zoom会议期间把咖啡放到桌上同时不打扰到你。这意味着机器人需要懂得与你和笔记本电脑保持距离以免影响会议进行。要让机器人具备这种行为能力就需要用清晰展示完整任务的数据对其进行训练。此前计算机科学家们尝试通过大量实体演示或详尽的文字说明来向机器人传授操作任务但如果两者不能兼备机器人很可能会误解任务要求。由于同时提供演示和说明对人类来说相当费时费力麻省理工学院计算机科学与人工智能实验室CSAIL的研究人员开发了一套自动化机器人教学系统。该系统不仅能自动理清模糊指令还将所需的演示数据量减少了近五倍。他们将这套方法命名为掩码逆向强化学习Masked IRL。该方法利用大语言模型根据用户演示数据对含糊提示进行扩展说明另一个大语言模型则筛选出算法在制定运动方案时应重点参考的信息从而帮助机器人在家庭、办公室和工厂等环境中安全完成各类任务。当用户与机器人交互时并不总是愿意把任务的每个细节都说清楚我们的方法在这种场景下就能派上用场麻省理工学院博士生、CSAIL研究员、该论文第一作者黄旼勇Minyoung Hwang表示我们的目标是让机器能够真正理解用户的需求同时把人工操作降到最低限度。黄旼勇指出Masked IRL能够帮助机器人在人类可能不会主动描述但又至关重要的环境要素中安全导航。例如当机器人去厨房帮你取零食时它可能并不知道要绕开你的笔记本电脑工厂中的机器人在将物品放入不同箱子时也需要在货架间小心穿行。在此类场景中学习新任务时Masked IRL通过机器人的传感器采集周围环境信息并记录每一次动觉示教的运动过程。所谓动觉示教是指人类通过直接移动机器人的肢体来教它完成特定动作就像给机器人做物理治疗一样——弯曲关节示范抓取、移动和放置物体的方式。麻省理工学院的系统随后会调用大语言模型将这一系列动作即运动轨迹与最优路径进行比较并对提示中含糊不清的表述进行扩展例如将靠近具体化为靠近桌面。结合轨迹对比与明确后的指令大语言模型逐步理解训练动作对任务的重要意义。第二个大语言模型则负责评估环境细节例如障碍物的位置和目标物体的形状。在此过程中它会对认为与当前任务无关的要素进行掩码处理即忽略并为每项细节打分相关的标记为1不相关的标记为0。例如用户在演示期间是否靠在桌子上会被评定为0视为无关信息。所有被标记为1的细节则会由算法纳入最终行动方案。这种掩码机制使Masked IRL在三维仿真和真实环境测试中均优于同类基准方法因为它帮助机器人学会了如何判断信息的优先级。借助该系统无论是虚拟机器人还是实体机器人都能灵活地在障碍物之间移动物体例如绕过笔记本电脑、将咖啡杯移到桌面不同位置。在这些任务中Masked IRL识别用户未明确表达的偏好的准确率比同类基准方法高出最多15个百分点。在仿真实验中CSAIL研究人员还发现Masked IRL的学习效率更高——与基准方法相比它只需更少的演示次数就能掌握移动杯子的技能。研究还表明当大语言模型对指令进行明确化处理时机器人的表现明显优于直接执行模糊指令的情况。这种更加精准的方法同样在真实机械臂上得到了验证机器人能够执行训练阶段从未见过的指令。经过50次动觉示教训练后机器人能够在避开用户电脑的同时小心地将杯子递向用户——它学会绕开障碍物正是得益于对保持距离这一笼统指令的具体化理解。此外机器人还在靠近桌面的同时完成了擦桌任务并在远离人和桌子的前提下将一袋薯片递给用户。Masked IRL目前能够感知并理解用户未明言的信息但未来或许还能看见这些信息。CSAIL研究人员计划为该系统配备摄像头使其具备拍摄周围环境的能力从而能够识别并聚焦于特定目标。例如当用户指示机器人拾取玩具时它可能会注意到附近的香蕉并在处理目标物体之前自动将其忽略。该论文由黄旼勇与三位CSAIL同事共同完成包括博士生亚历山德拉·福西-斯梅雷克Alexandra Forsey-Smerek、博士后纳撒尼尔·丹勒Nathaniel Dennler以及麻省理工学院助理教授、航空航天系暨CSAIL成员安德烈亚·博布Andreea Bobu。该研究得到了塔塔集团通过麻省理工学院生成式AI影响力联盟奖项的部分资助以及美国国防部的支持。相关成果将于2026年6月在IEEE国际机器人与自动化大会上正式发表。QAQ1Masked IRL是什么它能解决什么问题AMasked IRL掩码逆向强化学习是麻省理工学院CSAIL团队开发的一套机器人教学系统。它的核心作用是帮助机器人理解人类模糊的任务指令自动补全用户没有明说的细节同时将所需的演示数据量减少近五倍让机器人能在家庭、办公室和工厂等场景中更安全、准确地完成任务。Q2Masked IRL中的两个大语言模型分别负责什么A第一个大语言模型负责对模糊指令进行扩展和具体化例如将靠近转化为靠近桌面并结合运动轨迹理解动作的意义。第二个大语言模型则评估环境中各项细节的相关性将重要信息标记为1无关信息标记为0只让关键细节进入最终行动方案从而提升机器人的执行精准度。Q3Masked IRL和其他同类方法相比有哪些优势AMasked IRL在多个方面优于同类基准方法识别用户未明说偏好的准确率最高提升15%所需演示数据量减少近五倍学习效率更高在真实机械臂测试中机器人能够执行训练阶段从未见过的新指令展现出较强的泛化能力。