AGI 不只是预测下一个 token而是预测下一个世界核心观点大语言模型预测的是语言 token但真正通向 AGI 的系统需要预测的是行动之后的世界状态。AGI 的关键不是“更会聊天”而是能把感知、建模、预测、规划、行动、反馈和学习连成持续闭环。1. 问题大模型只是预测下一个 token 吗很多人说现在的大语言模型本质上只是“预测下一个 token”。这句话本身没有错。LLM 的训练目标确实可以被简化理解为给定前面的上下文预测后面最可能出现的 token。但这个说法容易造成一个误解好像“预测”是一件很低级的事。实际上预测并不低级。真正高质量的预测背后一定包含对结构、规律、上下文、因果关系和经验分布的压缩。一个完全不懂中文的人不可能稳定预测下一句话。一个完全不懂代码的人也不可能稳定补全复杂工程里的函数。一个完全不懂数学的人更不可能在证明过程中接出合理的下一步。所以“LLM 只是预测下一个 token”这句话问题不在于它错了而在于它只描述了训练形式没有解释能力来源。更关键的问题是AI 预测的对象到底是什么今天的大语言模型主要预测的是语言 token。但一个真正通向 AGI 的系统必须预测的不是下一个语言片段而是下一个世界状态。2. token 是什么为什么这里不用“词”在中文语境里把 token 翻译成“词”其实不太准确。因为中文里的“词”通常会让人想到“词语”比如“人工智能”“世界模型”“大语言模型”。但模型里的 token 不一定是一个完整词语。它可能是一个汉字一个英文单词半个英文单词一个标点符号一个空格一段代码符号一个子词片段所以“预测下一个 token”比“预测下一个词”更准确。这也是本文标题里保留 token 的原因它既是技术概念也是后面“世界 token”这个比喻的基础。3. 从语言 token 到世界 token如果说 LLM 是在预测下一个语言 token那么 AGI 更接近于预测下一个“世界 token”。这里的“世界 token”不是严格技术术语而是一个比喻。它指的是世界在下一个时刻可能出现的状态。比如一段视频的下一帧一个动作之后的物体位置一次工具调用后的返回结果一次沟通之后的对方反馈一次代码修改之后的系统行为一个商业决策之后的市场变化语言模型回答的问题是下一个 token 可能是什么智能体真正要回答的问题是如果我现在做 A世界会怎么变这两者的差别非常大。4. 语言模型、世界模型和 Agent 的区别可以先用一个简单对比看清楚三者的边界类型主要输入主要输出核心能力典型问题LLM文本上下文下一个语言 token / 文本回答语言建模、知识压缩、推理生成下一句话应该是什么多模态模型文本、图像、音频、视频跨模态理解或生成感知融合、表示对齐图像/视频/声音里发生了什么世界模型当前状态、动作、目标、历史未来状态预测内部模拟、状态转移预测如果做 A会发生什么Agent目标、工具、环境反馈动作序列与任务结果规划、工具调用、反馈修正如何完成这个目标AGI 系统环境、记忆、目标、工具、反馈持续行动与自我改进广泛环境中的学习与行动闭环如何在新环境中持续达成目标从这个角度看AGI 不是简单把 LLM 做得更大。LLM 是核心部件但不是完整系统。一个真正能够完成广泛目标的系统还需要记忆、工具、环境、反馈、验证、规划和持续学习。5. 世界模型为什么重要世界模型不是知识库。知识库回答的是世界里有什么世界模型回答的是世界接下来会怎样比如一个 AI 帮你改代码它不能只生成一段看起来合理的代码。它还要预测这段代码放进现有工程后会不会编译失败会不会破坏已有接口会不会引入新的 bug会不会影响部署测试结果如果失败应该怎么定位再比如一个机器人去拿杯子它不能只知道“杯子是什么”。它还要预测手臂移动之后杯子的位置、重心、摩擦、碰撞以及动作偏差会带来的后果。这就是世界模型的意义。它本质上是一个内部模拟器让智能体在真正行动之前先在内部推演未来。6. AGI 的核心闭环真正的 AGI不是单点能力而是一个闭环系统。这个闭环可以表达为感知环境建立内部模型预测未来状态规划行动执行动作接收反馈修正模型和策略换成更直白的话看见世界理解当前状态预测不同动作的后果选择最接近目标的动作执行动作接收环境反馈修正自己的模型下一次做得更好这也是为什么世界模型、Agent、具身智能、工具调用、长期记忆和强化学习这些方向会在今天同时变得重要。它们不是孤立热点而是在补齐同一个智能闭环。7. 具身智能不只是机器人而是反馈入口具身智能这几年很热但它的核心价值不是“给 AI 装一个人形身体”。真正重要的是让 AI 进入真实反馈闭环。文本里有大量人类知识但文本不是世界本身。一个模型读过一万次“杯子会掉下去”和它真正观察杯子滑落、听到碎裂声音、尝试接住失败、下次调整动作是完全不同的学习体验。人类不是先读完物理学才学会走路。小孩是在摸、推、摔、撞、试错中逐渐建立世界模型的。所以具身智能补齐的是观察世界执行动作世界变化获得反馈修正模型当然AI 的“身体”不一定非得是人形机器人。浏览器可以是身体终端可以是身体代码解释器可以是身体手机可以是身体无人机、机械臂、企业系统 API 也都可以是身体。身体的本质是它拥有一组可执行动作这些动作会改变环境而环境会把结果反馈回来。从这个角度看Agent 调用工具其实就是数字世界里的具身智能。8. scaling law发动机很重要但不是整辆车我倾向于认为单纯靠 scaling 不够但没有 scaling 也不行。过去几年 AI 的巨大进步确实来自模型规模、数据规模和算力规模的扩展。Scaling 不是骗局它是真正的发动机。但发动机不是整辆车。如果一个系统只有更强的语言预测能力却没有稳定的记忆、行动、反馈、验证和世界模型那它依然更像一个强大的语言系统而不是能在复杂环境中长期完成目标的 AGI。更准确的说法是Scaling 提供智能底座闭环决定智能能不能进入世界。模型越强底座越好但如果没有工具、记忆、环境反馈、验证机制和行动闭环智能就很难从“回答问题”升级为“完成目标”。9. 为什么 AGI 更像系统工程如果把过去几十年的 AI 发展放在一起看会发现很多方向都像是在补齐 AGI 的一个器官计算机视觉给 AI 眼睛语音识别和语音生成给 AI 耳朵和嘴巴大语言模型给 AI 语言、知识和文化经验多模态模型让 AI 统一文字、图片、视频、声音Agent 和工具调用给 AI 数字世界里的手机器人和具身智能给 AI 物理世界里的身体长期记忆让 AI 积累经验世界模型给 AI 一个预测未来的内部模拟器强化学习和自动验证让 AI 从结果中修正自己这些方向看起来分散但实际上都指向一个完整结构感知 → 建模 → 预测 → 规划 → 行动 → 反馈 → 学习。这也是为什么 AGI 不太可能只是某个单一模型突然变大之后自然出现。它更可能是多个能力模块逐渐汇合的结果。10. 一个更实用的判断框架以后判断一个 AI 系统是不是更接近 AGI可以不只看它“会不会回答”而是看它是否具备下面几个能力感知能力能否接收文本、图像、声音、视频或环境状态记忆能力能否积累长期经验而不是每次从零开始世界建模能力能否预测行动之后的状态变化规划能力能否比较不同动作路径并选择更优方案行动能力能否调用工具、操作软件或影响物理环境反馈能力能否观察结果并识别预测是否失败修正能力能否根据反馈更新模型、策略或执行路径迁移能力能否把经验迁移到新任务和新环境如果一个系统只会回答问题它还只是一个强语言模型。如果一个系统能在环境中持续感知、预测、行动、反馈和改进它才开始接近真正的智能体。11. 最后的判断AGI 的核心不是简单让模型变大也不是简单给 AI 一个机器人身体。真正的 AGI应该是一个能够持续完成这个闭环的系统理解世界 → 预测世界 → 选择行动 → 改变世界 → 接收反馈 → 更新自己。LLM 预测语言 token。多模态模型预测感知 token。世界模型预测状态 token。Agent 用行动验证预测。具身智能让反馈来自真实世界。而真正的 AGI是把预测和行动连成持续闭环。从预测下一个 token到预测下一个世界状态再到主动改变世界。这可能就是 AI 通往 AGI 的真正路径。