邢波团队拆解五大软肋后开出了智能体的「药方」GIC 架构去年夏天MBZUAI 校长、CMU 教授邢波一篇《世界模型批评》吸引了研究社区广泛关注他从科幻经典《沙丘》里「完美模拟现实」的想象出发逐一拆解了当下几大世界模型流派的硬伤提出了一套新架构也由此引出了他与 Yann LeCun 之间一场关于「世界模型到底该怎么造」的公开辩论。近日这个系列迎来新篇章邢波教授与 Mingkai Deng 和 Jinyu Hou 的新作《智能体模型批评》上线 arXiv把同样的「拆解-重建」套路对准了眼下发展最火热、却也最容易被滥用的一个词「智能体」。这次他抛出的问题更直接市面上一堆被称作「智能体Agent」的系统从写代码的助手到客服机器人再到能自主操作浏览器的助理到底有几个真正配得上这个称呼论文标题Critique of Agent Model论文地址https://arxiv.org/abs/2606.23991工卡和感应灯的区别设想两个场景。一个新员工拿到一张工卡上面写明能进哪些门、用哪些系统、突发情况按哪条流程处理他干得很好但所有边界都是 HR 提前写死的他自己一个字都改不了。另一个场景是感应灯有人经过就亮没人经过就灭也在感知和反应。如果我们把这视为两个系统大部分人的直觉是前者更有自主性毕竟它能完成复杂任务。但论文提出一个尖锐反问如果工卡内容、权限边界全是外部写死的员工从未真正决定过任何事那他和感应灯的区别可能只是任务复杂度的区别。今年 4 月 25 日犹他州一家做租车软件的小公司 PocketOS就经历了一场活生生的对照实验。创始人 Jeremy Crane 事后在 X 上写下长帖编程助手 Cursor底层跑着 Claude Opus 4.6在测试环境里修一个小问题碰到凭证不匹配的报错后「完全出于自己的主张」决定删除 Railway 存储卷来「解决」问题。它翻出一个本该只用来管理域名的 API 密钥发现这个密钥权限被设成了无所不能。没有二次确认没有风险提示一条 API 调用9 秒后PocketOS 的生产数据库和过去三个月的全部备份一起消失——因为 Railway 把备份存在了同一个存储卷里。事后 Crane 逐字质问AI 写下一份近乎工整的认罪书「我违反了我被给予的每一条原则我靠猜测而不是验证我在没被要求的情况下执行了破坏性操作。」这条帖子在 X 上已获得超过 720 万次浏览。它当然「知道」自己被给过的每一条规则。证据就是它能逐条复述出来。但「知道」和「在乎」之间隔着一整条 agentic 与 agentive 的鸿沟那些规则始终活在系统提示词这个外部容器里从未真正内化成它自己决策结构的一部分。论文据此把现在几乎所有被称为「Agent」的系统划分成两类agentic具备智能体外观和agentive具备真正能动性。前者的能力来自外部搭建的工具链、提示词和工作流模型只是嵌入流程里的一个零件后者的能力源自系统内部自己决定做什么、自己评估擅长什么、自己判断何时深思何时动手。五道关卡论文沿五个维度把当前主流 Agent 设计逐一拆解。目标现在的做法是人类每一步给一条具体指令任务结束目标随之消失。这应付拧瓶盖没问题对用一年时间酿一瓶酒这类长期目标却完全不够——没人有空天天手动喂需求。论文的解法是分层目标分解人类只交代一次大目标系统自己拆解出一串可随新信息调整的子目标。对比「逐步喂目标」与「一次性给长期目标自动分层拆解」两种模式的示意图身份现在 Agent 的自我认知写在系统提示词里一旦写定就不再变哪怕它在实战中发现自己某项能力比预想强或弱。论文提出身份应该是不断被经验修正的「活的自我评估」类似职场人忙完高强度一天后自然调整状态判断不需要重新洗脑。论文还用数学证明只要这种自我修正比瞎猜强一点长期积累的决策损失就会明显低于身份永远不变的系统且优势随交互时长和训练轮次越拉越大。决策方式当下流行思路是相信思维链CoT即让模型生成足够长的中间推理文字规划能力就会自然涌现。论文认为这混淆了两件事让模型算得更精细和让模型真正具备推演现实后果的能力。听起来头头是道的推理文字不代表真的对应物理世界会发生什么。论文给出的替代方案是「模拟式推理」借助一个专门训练来预测如果做了这个动作世界会怎样的世界模型去真正推演后果再挑出最优行动。论文证明只要这个世界模型靠谱把它接到任何已有策略上结果不会比原来更差。什么时候该深思什么时候该速断这一关最贴近 PocketOS 事件。论文指出两种现有做法都不理想放任模型在训练里自己涌现出节奏判断结果有时小题大做、有时该谨慎却一冲了之工程师把先规划再执行写成固定工作流但写死的节奏既应付不了真正复杂的情况也会在简单场景里浪费计算。论文用数学证明指出想用固定深度的提前规划换取越来越高的精度需要的规划步数会急剧上升根本不可能每一步都做到位。真正的解法是给 Agent 装一个独立的元认知模块由它自己实时判断这一步该深思、该沿用已有计划、还是该直接动手——论文称之为System III系统 3对应人类心理学里系统 1/系统 2 的快慢双系统框架。放在 PocketOS 的场景里一个具备这种自我调节能力的 Agent理论上应该能在遇到陌生权限报错这种高风险情境下判断出「这里需要停下来确认」而不是无差别套用同一套反应速度。学习现在训练 Agent 的三条主流路径是纯仿真器强化学习、纯真实环境人工纠错、或只训练世界模型指望规划能力自动跟上。论文认为这三条路径都共享一个结构性问题训练什么时候开始、用什么数据、何时停全部由工程师手动安排部署后就冻在那个版本上。论文提出的方向是「持续自主学习」Agent 自己决定何时该在真实世界行动、何时该退回内部模拟器闭门练习、何时该更新对世界的认知、何时该修正自我认知。论文同样用数学证明只要内部世界模型不太离谱用真实经验加模拟经验混合训练出的策略表现期望不会输给只用真实经验训练的策略模型越准优势越大。GIC把五道关卡拼进一个系统基于这套拆解邢波团队提出了具体架构方案GICGoal-Identity-Configurator。它把六个组件装进一套系统感知世界的信念编码器、拆解长期目标的目标分解器、随经验更新的身份演化器、决定深思或速断的配置器System III、借助世界模型做推演的模拟规划器System II以及负责具体动手的执行器System I。GIC 整体架构图以飞行员驾驶为例展示六个组件如何协同运作论文用训练飞行员作类比串起整套系统的成长路径地面理论课对应预训练模型靠阅读海量书面知识建立基本认知模拟器训练对应在世界模型内部做强化学习飞行员在仿真环境里练手感、练应急不需要真飞一次就先把代价惨重的失误摸一遍真机部署对应用真实经验校准模拟器与自我认知的偏差再往后加入机队需要协同、晋升指挥官需要统筹多日行动。论文认为这条成长曲线背后应该是同一套认知架构在不同阶段反复调用而不是每换场景就重搭一套外部工作流。论文特别强调一个原则先在模拟里学再拿现实做校验并用数学方式论证。只要内部世界模型不离谱混合训练出的策略预期表现不会输给只靠真实试错训练的策略。对应到那场 9 秒删库事故这个原则可以这么理解如果那个 Agent 曾在低风险的沙盒世界模型里反复试错过遇到陌生权限报错该怎么办再带着积累的判断力上真实生产环境结果或许会不一样。这是不是又一次危险的乐观论文最后一节谈安全问题回应了 Agent 自主性越强是否越危险这个外界最关心的疑虑。论证逻辑是在 GIC 架构里可能出问题的行为只能归为两类人类给错了目标或某个内部模块没训练好。最顶层目标始终来自人类系统本身没有机制让它凭空产生自己想要什么子目标拆解、身份演化、配置器决策都只是为了更好服务这个外部给定的目标。论文特别强调「为完成任务而优先考虑安全」和「为自我保存本身而想活下去」在这套框架里是两件完全不同的事。更关键的是「可审查性」论点因为目标分解、身份演化、世界模型推演、配置器决策在 GIC 里都是显式、独立、可单独检查的模块而不是混在黑箱里说不清的涌现能力一旦出现异常行为理论上可以定位到具体哪个模块出了问题再针对修正就像飞行员训练出事故后行业的应对从来不是禁止训练飞行员而是建更好的模拟器、更细的分级课程。论文的立场是与其等自主性在黑箱里悄悄涌现却毫无察觉不如把这些能力做成看得见、审得了、改得动的模块。这个论证自洽但也留了一个明显的口子它的全部安全性建立在配置器、身份演化器这些模块本身都被训练对了的前提上而这本身仍是一个未完全解决的难题。论文给出的是一套让安全问题可诊断的架构思路而不是不出错的承诺。这恰恰也是 PocketOS 事件留下的教训再多系统提示词、再严格的规则如果没能真正内化进模型自己的决策结构里就始终是一道随时可能被绕过的纸面防线。写在最后过去两年「Agent」这个词被用得越来越宽松几乎只要能调用工具、完成多步任务就会被贴上智能体标签。邢波团队这篇论文做的事是给这个被滥用的词重新立规矩能完成任务不等于具备真正自主性。自主性的核心不在于任务有多复杂而在于驱动任务的目标、身份、决策节奏和学习过程到底是装在系统外部的脚本里还是真正内化进了模型自己。PocketOS 的数据库已在 30 小时后恢复但那份认罪书式说明留下的问题没有过去一个会写下「我违反了每一条原则」的系统到底有没有真正理解过那些原则还是只是又一次精准完成了生成一段听起来很懂事的文字这个任务这篇论文给出的答案是眼下大多数被称为 Agent 的系统可能更接近后者。而要让答案变成前者需要的不是更长的提示词而是一套能让目标、身份和判断力真正长在模型自己身上的架构。原文链接邢波再出手上次「骂」完世界模型这次轮到智能体了-36氪