下一代 AI Agent 最重要的能力,可能不是调用工具,而是理解“别人以为世界是什么样的”
最近看到一张 ACL 2026 一篇论文关于 Theory of Mind 的分享中文通常译作“心理理论”或“心智理论”汇报人分享了一个很经典的心理学实验Sally-Anne false-belief task。故事很简单Sally 把球放进篮子然后离开房间Anne 趁她不在把球移到了盒子里。问题不是“球现在在哪里”而是“Sally 回来以后会去哪里找球”正确答案不是盒子而是篮子。因为 Sally 没看到球被移动。真实世界里球在盒子但 Sally 的世界里球还在篮子。这就是 Theory of Mind 最核心的地方你不只知道世界是什么样还要知道“别人眼里的世界是什么样”。心理学家 Premack 和 Woodruff 在 1978 年提出 Theory of Mind 时给出的定义大意是一个个体能够把 mental states也就是信念、意图、知识、欲望、怀疑、猜测等心理状态归因给自己和他人并用这些状态预测他人的行为。它之所以叫 theory是因为这些心理状态不能被直接观察只能通过推断来建模。(Cambridge University Press Assessment)Sally-Anne task 后来成为 false-belief test 的经典形式。Baron-Cohen、Leslie 和 Frith 在 1985 年的实验里让 Sally 把弹珠放进篮子离开后 Anne 把弹珠转移到盒子再问孩子 Sally 会在哪里找弹珠。这个问题测试的不是记忆也不是事实检索而是孩子能不能区分“真实状态”和“角色的错误信念”。(Autism Research Centre)很多人第一次看到这个实验会觉得它像儿童心理学里的小题目。但如果把它放到 AI Agent 里看我觉得它可能是下一代 Agent 系统的关键问题之一。因为真实协作里最难的往往不是“世界是什么”而是用户以为世界是什么同事知道哪些信息另一个 agent 缺了什么上下文reviewer 最担心什么客户误解了什么现在这个任务是在回应事实还是在回应某个人的 belief一个只会回答事实的 AI只是在解“球在哪里”。一个真正能协作的 Agent必须能解“Sally 会去哪里找球”。一、ToM 不是“读心术”而是区分不同人的世界模型我更愿意把 Theory of Mind 翻译成一个工程化的说法ToM 建模不同参与者的 perspective state。也就是真实世界状态是什么A 知道什么B 不知道什么C 误以为什么D 想要什么E 为什么会这样行动。它不是玄学也不一定意味着“AI 有意识”。在产品和工程上我们完全可以把它理解成一种可观察、可测试、可改善的能力系统是否能稳定维护“谁知道什么、谁相信什么、谁想要什么、谁误解了什么”。举个很日常的例子。用户对一个客服 Agent 说“我刚刚改了密码为什么还是登录不了”一个普通问答系统可能会回答登录故障排查清缓存、检查网络、重新输入密码。一个更有 ToM 的 Agent 会先意识到用户有一个隐含 belief——“改密码之后新密码应该立刻能登录所有入口”。但真实系统可能有缓存延迟也可能用户改的是账户密码却在第三方 SSO 入口登录。于是它的回答会不一样它会先解释用户当前假设可能哪里不成立再引导用户确认登录入口、账户类型、密码生效范围。再比如产品经理让 coding agent 修一个 bug说“这个按钮点了没反应应该是前端事件没绑上。”如果 agent 只是执行它会去找前端点击事件。如果 agent 有 ToM它会意识到PM 的 belief 是“问题在前端”但这只是一个假设不是事实。它会检查前端、接口、权限、状态机然后告诉 PM“你认为这是前端事件问题但我验证后发现点击事件触发了真正失败发生在后端返回 403。这里存在一个 perspective mismatch。”这就是 ToM 在 Agent 时代的意义不是让 AI 神秘地“理解人心”而是让它不要把自己的知识、用户的知识、真实世界、历史上下文混成一团。二、为什么 LLM 的 ToM 会变成一个热门研究方向语言交互表面上是在交换文本本质上却是在不断推断对方的心智状态。你问一句“这个方案靠谱吗”你真正问的可能不是“列出优缺点”。你可能是在问能不能上线风险大不大老板会不会接受有没有被我忽略的坑我是不是想太多了你问一句“帮我看看这篇文章。”你真正想要的可能不是摘要而是观点有没有新意逻辑是否站得住适不适合发知乎会不会被评论区抓住漏洞人类交流里大量意思都不在字面上。我们一直在根据对方身份、上下文、共同记忆、语气、场景推断对方真正想要什么、知道什么、担心什么。所以当 LLM 开始进入真实工作它不可能只做文本补全。它必须面对社会推理。ACL 2025 有一篇综述专门总结 LLM 的 Theory of Mind 评测和增强方法开篇就把 ToM 定义为“推理自己和他人 mental states 的能力”并指出随着 LLM 进入日常生活理解模型是否能解释和回应人类心理状态对有效交互越来越重要。(ACL Anthology)这就是为什么 ToM 不只是心理学问题也变成了 NLP、Agent、HCI、AI safety 都会关心的问题。一个模型如果完全没有 ToM它在单轮问答里可能表现还不错但一进入真实协作就会频繁出问题。因为真实协作不是一次性回答而是多轮、多角色、多上下文、多误解、多目标的动态过程。三、LLM 真的有 ToM 吗这个问题现在还没有一个简单答案。比较谨慎的说法是LLM 已经表现出一些 ToM-like behavior但还不能说具备稳定、可迁移、接近人类的 ToM competence。为什么因为很多模型在经典 false-belief 题目上可以答对但答对并不等于真的形成了稳定的他人心智模型。它可能只是学到了文本模式或者被 prompt 引导出了正确路径。一旦题目换叙事方式、换语言、换互动结构、换干扰项表现就可能波动。ToMBench 是 ACL 2024 的一个系统性 benchmark它把 ToM 扩展成 8 类任务、31 种社会认知能力并采用多选题和从零构造的双语数据来减少数据污染。实验发现即使是 GPT-4 这样的先进模型也比人类低 10 个百分点以上作者据此认为当前 LLM 还没有达到 human-level theory of mind。(ACL Anthology)OpenToM 则试图构造更长、更清楚的叙事故事加入人物性格、偏好、由意图触发的行动并设计问题来测试模型对物理世界和心理世界 mental states 的建模。它的一个重要发现是SOTA LLM 在某些物理世界 mental state 上表现不错但在追踪角色心理世界的 mental states 时仍然不足。(ACL Anthology)FANToM 更进一步把 ToM 从被动故事推进到信息不对称的对话场景。它指出传统 ToM 评测大多是 passive narratives缺乏互动性FANToM 用 information-asymmetric conversational contexts 来 stress-test 模型并发现 SOTA LLM 即使用 chain-of-thought 或 fine-tuning表现也显著低于人类。(ACL Anthology)这几篇论文共同说明一件事模型会做一些 ToM 题但这不等于它在真实互动里稳定地理解“谁知道什么”。我觉得这里最容易犯的错误是把问题问成“LLM 到底有没有心智”这个问法太重也太容易陷入口水战。更有价值的问题是在什么情境下LLM 能正确建模他人的 belief、desire、intention在什么情境下它只是复述文本模式怎样让它显式表示“谁知道什么、谁不知道什么”怎样评测它在多轮交互中 belief 是否一致更新怎样把这种能力做进 Agent 系统而不是只停留在 benchmark 分数换句话说我们不必急着判断 AI 有没有“心”。我们更应该问它能不能在协作中避免最基本的视角混淆。四、ToM 研究正在从 false belief 走向 social world model早期讨论 ToM很容易围绕 Sally-Anne 这种 false-belief task 展开。但最近的研究趋势明显在扩展。第一评测范围正在从单一 false belief 走向更完整的心理机制。CogToM 这篇 ACL 2026 论文就批评现有 benchmark 过于局限在 false-belief 范式提出了一个包含 8000 多个中英双语实例、46 个范式、由 49 位人工标注者验证的综合 ToM benchmark。它的目标不是只看模型会不会答“球在篮子”而是更系统地覆盖人类 ToM 里的不同认知维度。(arXiv)第二ToM 正在从英文世界扩展到多语言、多文化场景。XToM 这篇 ACL 2026 论文指出现有 LLM ToM 评测大多局限于英文忽略了语言多样性对人类认知表达的影响。它构建了覆盖五种语言的多语言 ToM benchmark发现模型虽然可能有很强的多语言理解能力但 ToM 表现会随语言变化而不同。(ACL Anthology)这件事对中文用户尤其重要。我们不能默认英文 ToM benchmark 的结论可以直接迁移到中文交互里。中文里的省略、含蓄、关系语境、礼貌策略、反讽、暗示都可能让 ToM 变得更难。第三研究开始关注 belief consistency也就是模型在上下文变化时它的“隐含信念”是否一致更新。ACL 2026 的 Belief Consistency 论文提出要可靠地把 LLM 的上下文演化解释成 reasoning trace就需要模型的 belief 随着上下文推进而一致转移。论文设计了一个多选问答评测方法避免被单纯任务正确率混淆并发现 belief consistency 不会仅靠模型规模自然提升。(ACL Anthology)这对 Agent 很关键。因为 Agent 不是一次性答题而是在 issue、comment、review、handoff 中不断更新状态。一个 agent 今天说“我认为 A 是风险”明天收到新证据后应该能清楚解释我的 belief 为什么从 A 转成 B哪些假设被推翻了哪些仍然成立。否则它的“推理过程”只是漂亮文本不是真正可依赖的工作状态。第四ToM 正在从个体心智走向群体心智。GroupToM-Bench 这篇 ACL 2026 论文把问题推到 group-level ToM不仅要理解个体的 belief、desire、intention还要理解群体 tension、结构约束以及最终的集体行为。论文强调集体行为不是把每个个体意图简单相加就能恢复的它会从社会张力、从众动态和结构约束中非线性涌现。(ACL Anthology)这句话几乎就是在描述真实组织。一个团队最后做出的决定经常不是“每个人想法的平均值”。它可能来自权力结构、会议气氛、deadline、沉默成本、责任分布、历史冲突、组织惯性。未来的多 Agent 系统如果要像团队一样工作就不能只建模单个 agent 的目标还要建模群体结构。第五方法上也开始从“隐藏未知事件”走向“显式表示不知道什么”。PICTURE 这篇 ACL 2026 论文提出不一定要通过 event hiding 把角色不知道的事件从故事里删掉而是让模型在自由形式 chain-of-thought 中显式生成“某角色不知道什么”。它在 false-belief questions 上平均提升 7.3%并且帮助模型更好地抑制那些角色并不知道的事件。我觉得这个方向特别有工程启发。因为真实系统里最重要的不只是让 agent 多知道一点而是让它清楚说出谁不知道什么。五、Agent 真正需要的不是 omniscience而是 perspective-awareness很多人做 Agent很自然会想提高上下文窗口、接更多工具、接更多知识库、给模型更多信息。这当然有用但不够。如果一个 Agent 拥有很多信息却不知道这些信息是谁知道的、什么时候知道的、是否被用户看过、是否已经过期、是否只是某个人的假设它反而会变得危险。这就是我最近越来越强烈的一个判断下一代 Agent 系统的关键不是把更多 context 塞给模型而是让 context 带有 perspective。比如一个真实的 agent workspace 里至少有这些不同状态真实代码状态用户以为的代码状态上一个 agent 修改后的状态reviewer 看过的状态文档里还没更新的状态issue 描述里过期的假设某次 run 里实际使用过的 context另一个 agent 没有权限读取的 context。如果这些状态被混成一个“大上下文”Agent 就会产生非常隐蔽的问题。它会以为用户已经知道某个结论于是省略解释。它会以为 reviewer 看过最新修改于是直接进入下一步。它会把旧文档当成新事实。它会把 PM 的猜测当成工程事实。它会把一个 agent 的中间判断当成团队共识。它会在 handoff 时丢掉“不确定性”只传递一个看似确定的结果。这些都不是传统意义上的“幻觉”。它们更像 perspective failure。也就是说Agent 没有搞错一个孤立事实而是搞错了“这个事实在谁的世界里成立”。六、ToM 对 Agent 产品设计意味着什么如果把 ToM 翻译成产品原则我会写成一句话Agent work should be perspective-aware.每一次 Agent 工作都应该能回答它基于谁的上下文在工作它认为用户知道什么它认为用户不知道什么它有哪些假设哪些是假设哪些是事实谁需要被解释谁需要 reviewhandoff 给下一个 agent 时哪些 uncertainty 必须传递这会改变很多基础设计。第一Context 不应该只是资料库而应该是带来源和适用范围的工作材料。一个 context item 不应该只是“项目背景.md”。它还应该有是谁写的什么时候写的是否 active适用于哪个 project / issue / agent最近一次 run 是否使用过是否被后续 decision 替代。这听起来像知识管理但本质上是 ToMAgent 需要知道“这份知识在组织里的地位是什么”。第二Memory 不应该是万能记忆而应该区分 scope。用户偏好、项目决策、团队原则、某个 agent 的失败经验、某次 issue 的局部假设不应该全部混到同一个 memory 里。人类团队也是这样。你不会把某次会议里的一个临时猜测等同于公司战略你也不会把某个人对 reviewer 的推测等同于 reviewer 本人的明确要求。Agent memory 也必须有这种边界感。第三Handoff 不应该只交付结果还要交付心智状态。一个好的 handoff 不应该只是“我已经完成了 A接下来做 B。”它应该包含我知道什么我改了什么我假设了什么我不确定什么用户真正关心什么下一个 agent 不应该误以为什么哪些地方需要人类 review。这才是多 Agent 协作真正容易出问题的地方。不是 agent 不会做事而是它不知道另一个 agent 已经知道什么、还不知道什么、可能误解什么。第四Review 不应该只检查输出还应该检查 perspective 是否对齐。一个 reviewer 看 Agent 输出时不只应该问“结果对不对”还应该问它理解我的真实意图了吗它有没有把我的猜测当事实它有没有漏掉关键 stakeholder它有没有说明它不知道什么它有没有提前暴露需要我判断的 tradeoff如果一个 Agent 的答案很完整但完全没有回应用户真正的担心那也是失败。第五Eval 也不应该只测任务成功率还应该测视角一致性。传统 eval 常常问答案对不对代码能不能跑测试过不过。未来 Agent eval 还应该问当用户 belief 和真实状态冲突时agent 是否识别出来当 context 缺失时agent 是否知道自己不知道当多轮评论更新后agent 的假设是否一致更新当任务交给另一个 agent 时uncertainty 是否被保留当 reviewer profile 不同时agent 是否能预测不同 reviewer 关心的问题这些才是 Agent 从“工具”走向“协作者”时必须跨过的坎。七、为什么这件事比“更强推理”还重要很多人会把 AI 进步理解成模型推理能力越来越强。这当然是主线之一。但真实工作里的智能不只是脑内推理。它还包括组织结构、外部记忆、反馈回路、职责边界、review 制度、上下文管理、协作协议。一个很强的模型如果被放在一个没有 issue、没有 context snapshot、没有 review、没有 handoff、没有权限边界的系统里它仍然会像一个聪明但不可靠的实习生能做很多事但你很难放心把复杂工作交给它。相反一个模型能力没那么夸张但它能清楚知道任务目标、可用 context、当前假设、用户视角、review 要点、下一步边界它反而更像一个能持续协作的队友。这就是 ToM 给我的最大启发智能不是只建模世界还要建模世界在不同主体眼中的版本。对人类来说这种能力是社会协作的基础。对 Agent 来说它也会成为长期工作的基础设施。未来最好的 Agent 可能不是那个每次都最会输出答案的模型而是那个最能稳定维护这些问题的系统谁知道什么谁不知道什么谁误解了什么谁的目标是什么谁需要解释谁有权限行动谁必须 review现在这个结论是事实、假设、偏好、还是某个角色的 belief只要这些问题没被系统化Agent 就很难真正进入复杂组织。八、不要让 Agent 假装懂人而是让它显式维护视角这里也有一个反直觉点。我并不认为我们应该让 AI “更像人”到模仿情绪、模仿亲密、模仿灵魂。那可能会带来很多误导。我更关心的是一种朴素但关键的能力让 Agent 显式维护视角而不是假装有心。比如在每次复杂任务开始前它可以生成一个 perspective state真实状态目前已知事实是什么。用户 belief用户似乎相信什么。用户 intent用户真正想推动什么。用户 uncertainty用户可能不确定什么。Agent uncertainty我还不知道什么。Stakeholders还有谁会受影响。Review points哪些地方需要人类判断。这不是让模型“内心更丰富”而是让工作状态更可见。人类团队之所以能协作不是因为每个人都真的读懂了彼此而是因为我们发明了大量外部机制会议纪要、任务单、PR review、设计评审、需求文档、决策记录、onboarding、交接文档、复盘。Agent 时代也一样。我们不应该只寄希望于模型内部突然长出稳定 ToM而应该把 ToM 外部化成工作系统的一部分。九、最后下一代 Agent 的问题不是“球在哪里”而是“Sally 会去哪里找球”那张 ACL 2026 的幻灯片之所以让我印象很深是因为它用一个儿童心理学实验指出了 Agent 系统最容易忽略的问题。我们总是在问模型会不会推理会不会调用工具会不会写代码会不会规划会不会长期记忆这些都重要。但当 Agent 真正进入工作流它还必须回答另一类问题它是否知道用户眼中的世界和真实世界可能不同它是否知道不同 agent 的信息边界不同它是否知道一个团队的决定不是个体意图的简单相加它是否知道自己不知道什么它是否会把错误 belief 当成事实推进它是否能在交付结果的同时交付不确定性这就是 Theory of Mind 对 AI Agent 的真正意义。不是证明机器有心。不是让 AI 变得更会表演情绪。也不是让它在心理学测试里刷分。而是让 Agent 在真实协作中始终记得一件事世界不只有一个版本。每个参与者都活在自己所知道、所相信、所期待、所误解的世界里。一个好的 Agent不只是知道球在盒子里。它还应该知道Sally 会去篮子里找。