【科研快讯】从“预测下一个词“到“预测世界运行“:世界模型如何重塑AI认知范式
【论文信息】论文中文标题2026十大AI技术趋势论文英文标题Top 10 AI Technology Trends 2026所在期刊/会议智源研究院发表日期2026年2026年AI行业正经历一场深刻的范式变革。核心焦点从参数有多大转向能否理解世界如何运转。智源研究院发布的《2026十大AI技术趋势》指出我们正从预测下一个词跨越到预测世界的下一个状态Next-State Prediction, NSPAI开始掌握时空连续性与因果关系从数字空间的感知迈向物理世界的认知与规划。这一转变标志着人工智能向通用认知智能迈出关键一步。过去几年大语言模型LLM的崛起让AI在自然语言处理领域取得了突破性进展。从GPT到Claude从Gemini到国产的文心、Qwen、DeepSeek各大厂商在模型参数规模、训练数据和推理能力上展开激烈竞争。然而一个根本性问题始终困扰着研究者当前的大模型虽然能够流畅地生成文本甚至代码但它们真的理解这个世界吗事实是传统语言模型的本质仍是统计关联学习器——它们擅长找到训练数据中的模式并预测下一个最可能的token但这并不等同于理解因果关系、遵守物理定律或进行长期规划。一句经典的批评指出一个能够完美预测下一个词的系统未必理解椅子为什么能支撑人的重量或者重力会让物体坠落。这一局限性在具身智能、自动驾驶、科学发现等需要与物理世界交互的场景中尤为突出。AI需要从见多识广的鹦鹉进化为真正理解因果的手艺人这催生了世界模型World Model研究的兴起。所谓世界模型是指能够对环境动态进行建模、预测状态演变、理解因果机制的AI系统被认为是通往通用人工智能AGI的关键里程碑。从自回归到因果预测NSP范式的核心跃迁传统语言模型的训练目标是最大化下一个token的预测概率这种自回归范式在语言任务上表现出色但难以捕捉现实世界的多层因果结构。相比之下Next-State PredictionNSP要求模型不仅预测下一个观察结果而是预测环境在干预下的完整状态演变——这要求模型理解系统的内在动力学、因果图结构和潜在干预效应。以自动驾驶场景为例传统模型可能被训练为在看到红灯时输出停车但NSP模型需要理解红灯亮起→驾驶员视觉感知→决策制定→刹车系统激活→车速下降→车辆停止这一完整的因果链条并能预测链条中任一环节变化如刹车失灵会导致什么结果。这种预测能力是实现真正安全关键系统的基础。世界模型的技术架构演进当前世界模型的研究呈现多路径并行探索的格局。在架构层面研究者正尝试将Transformer与图神经网络、物理先验模型相结合构建能够同时处理视觉、语言和物理模拟的统一框架。典型代表包括DeepMind的Genie系列、MIT的Gaia-1以及国内智源研究院推进的多模态世界模型项目。在训练范式上NSP催生了新的数据形式和训练目标。不同于仅需文本的LLM预训练世界模型需要视频、动作、状态轨迹等多模态数据以及干预-结果配对的因果数据。这推动机器人遥操作数据、物理仿真引擎生成数据的规模化采集与标注。值得关注的是字节跳动Seed团队提出的MoLE-Syn方法从分子结构视角重新审视大模型的推理过程将长链思维定义为共价键、氢键、范德华力等通用拓扑结构为理解模型内部因果机制提供了新思路。物理世界建模从直觉物理到形式物理人类从婴儿期就具备对重力和支撑等物理规律的直觉理解这种直觉物理学是常识推理的基础。当前世界模型研究的一个重要方向是让AI系统获得类似的物理先验知识。清华大学的星衍天文AI模型是一个典型案例通过计算光学与AI算法结合它将韦布望远镜的等效探测口径从6米提升至10米已发现160余个宇宙早期候选星系。更重要的是该模型展现了AI在理解物理约束如光速、引力透镜并进行符合物理规律推理的能力。香港中文大学MMLab提出的Vision-DeepResearch系统则通过多轮视觉与文本交互检索在复杂图像推理任务上超越了GPT-5并推出了VDR-Bench评测标准为评估AI的物理世界理解能力提供了基准。具身智能与世界模型的协同进化世界模型的发展与具身智能Embodied AI密切相关。具身智能强调AI系统需要拥有身体并与环境交互而这种交互反过来为世界模型的训练提供了最直接的数据来源。特斯拉Optimus Gen-3、宇树科技G1等人形机器人的量产推进以及天行者等产品在物流、制造场景的落地都在产生大量感知-动作-结果的轨迹数据。这些数据正是训练世界模型的核心原料——模型可以从中学习如果我执行动作A状态S会变成什么的条件预测能力。60%性能提升DeepMind的IsoDDE在药物设计关键指标上相比AlphaFold 3提升60%以上几秒内可完成科学家15年才能找到的结合位点预测30倍算力增长自2021年以来全球AI总算力增长30倍为世界模型的规模化训练提供基础2倍以上内容全面性港大LightRAG框架结合知识图谱与双层检索内容全面性指标提升2倍以上40倍推理加速复旦大学与微软亚洲研究院的ArcFlow技术将生成式AI推理步骤从40-100步压缩至2步加速40倍以上20%解决率提升华为CLI-Gym方案使开源模型在Terminal Bench上的解决率提升20%接近闭源模型水平影响分析世界模型的出现正在重塑AI产业格局。从技术层面看它代表了一种从数据拟合到因果理解的范式转换——过去我们用更多数据训练更大模型现在我们开始教AI理解为什么而非仅仅是什么。在产业应用端这一转变的影响将是深远的。首先自动驾驶、医疗诊断、金融风控等高可靠性要求的场景将从世界模型中获得显著收益——这些领域不仅需要模式识别更需要在罕见情况下进行因果推理和安全规划。其次具身智能的发展将加速机器人需要准确的世界模型来规划复杂任务、预测行动后果、进行安全控制。最后科学研究范式也可能因此改变——AI不再只是数据分析工具而可能成为理解物理规律、发现新机制的硅基科学家。然而这一转变也带来新的挑战。世界模型对计算资源的需求远超传统语言模型算力供需紧张已导致云服务价格上调463%腾讯云、国产算力产品预购超50亿美元字节跳动。同时因果推理能力的提升也引发了关于AI系统可解释性和可控性的新讨论——当AI开始理解世界运行规律时如何确保其行为符合人类意图和价值观成为必须回答的问题。从国际竞争角度看世界模型已成为AI新赛点。头部厂商正加速布局OpenAI、Google、Anthropic均将推理和规划能力作为下一代模型的核心卖点而国内DeepSeek R2、GLM-5等模型也在强化代理编程和复杂任务推理能力。这场从感知智能到认知智能的竞赛将深刻影响未来十年的AI格局。编辑点评从预测下一个词到预测世界的下一个状态这一跨越不仅是技术路线的演进更是AI认知哲学的根本转变。世界模型正在为AI打开一扇通往物理世界的大门——它不仅要知道这是什么更要理解为什么会这样以及如果这样会怎样。这一转变的意义堪比当年从规则系统到统计学习的范式革命。不同的是这次AI要学习的不是语言中的统计规律而是整个宇宙的因果语法。当然道路仍然漫长当前的世界模型仍主要在特定领域发挥作用向通用世界模型的跨越还需要在架构创新、数据基础设施、评测体系等多个层面持续突破。但可以确定的是AI正在从聪明的鹦鹉进化为理解因果的匠人这场静悄悄的认知革命值得我们密切关注。