世界模型:连接数字与物理的‘认知层’,或成众多概念底层基础设施
【现象引出热炒概念与世界模型的关系】过去几年元宇宙、Web3.0、仿真数据平台、数字孪生、物理 AI 等概念轮番登场普通人很容易被搞混。它们和世界模型有什么关系答案是它们不完全是同一回事但都指向数字世界与物理世界边界模糊这个大趋势。世界模型更像是这些概念的‘认知层’或‘底层操作系统’负责让 AI 理解并推演世界。【概念分类同一张地图里的不同类别】过去几年科技圈热炒的概念大致可以分为三类。第一类是‘空间体验’代表是元宇宙它想让人类在虚拟空间里社交、工作、消费、生活。第二类是‘生产关系’代表是 Web3.0它想用区块链重构数据所有权、身份和激励方式。第三类是‘技术能力’包括仿真数据平台、数字孪生、物理 AI 和世界模型它们都试图用数字手段理解、模拟、预测或生成物理世界。世界模型属于第三类但它更底层它不是某一种具体应用而是一种让 AI 在脑中建立可推演世界的能力。元宇宙可能依赖它仿真数据平台是它的前身数字孪生是它的近亲物理 AI 是它的宿主Web3.0 则基本跟它不在同一个技术图层。下面一个一个拆开讲。【元宇宙世界模型可能是其‘发动机’】元宇宙最火的时候大家描绘的是一个沉浸式虚拟社会里面有 Avatar、虚拟地产、数字资产、线上演唱会、远程办公它的核心是一种空间体验人可以走进去、社交、消费、创造。但元宇宙当时最大的瓶颈是内容生产建一座虚拟城市需要海量美术和工程资源成本极高体验却还很初级很多项目最后变成空荡的展厅或投机的土地买卖用户进去转一圈就不知道干嘛。世界模型如果成熟可以直接用文本生成可交互的 3D 世界相当于给元宇宙装了一个‘自动生成器’。Google Genie 3 已经展示了雏形输入一句话就能生成一个能实时探索的世界。未来你可能只需要说‘我想去 1920 年代的上海外滩走走’世界模型就为你生成一条街道、一批 NPC、一段剧情。所以两者不是一回事元宇宙是‘目的地’世界模型是‘修路和造城的工具’。世界模型不一定非要做成元宇宙但元宇宙要实现低成本、大规模、可交互很可能离不开世界模型元宇宙没做成的部分世界模型有可能替它补上。【Web3.0和世界模型基本不在一个图层】Web3.0 的核心是区块链、去中心化、代币经济、用户拥有数据它想解决的是互联网的所有权和激励问题而不是‘世界怎么被机器理解和模拟’。打个比方世界模型研究的是‘AI 怎么在脑子里过一遍世界’Web3.0 研究的是‘这个世界的数字资产归谁、怎么交易’。两者可以结合——比如在由世界模型生成的虚拟世界里用 NFT 交易土地或者用 DAO 治理虚拟城市规则——但技术内核完全不同。所以 Web3.0 和世界模型基本不是一回事它们的关系更像是Web3.0 可能是未来虚拟世界的‘经济规则’世界模型是‘物理规则’一个是社会科学问题一个是工程技术问题。【仿真数据平台世界模型的 1.0 版本】这个是最接近的。过去几年自动驾驶公司花了很多钱做仿真平台比如 CARLA、51World、Unity 自动驾驶仿真、NVIDIA DRIVE Sim。它们的核心价值是在虚拟世界里生成极端场景让自动驾驶算法低成本训练。这些平台的问题在于场景大都需要人工搭建或基于规则生成。暴雨、暴雪、异形障碍物、行人突然横穿这些 Corner Case 需要设计师一点一点建模效率很低而且规则生成的场景往往不够自然算法练多了会过拟合到人工痕迹上。世界模型做的事情是用 AI 自动生成这些场景它不是靠设计师手工摆放障碍物而是从真实数据中学到物理规律然后生成无限接近真实的变体。小鹏宣称其世界模型支撑的仿真测试每天等效跑 3000 万公里地平线能让模型在 30 秒内生成一条可控驾驶视频。所以仿真数据平台和世界模型可以看作同一事物的 1.0 和 2.0前者靠人工和规则后者靠 AI 生成。世界模型不否定仿真数据平台的价值而是把它智能化、自动化、规模化。【数字孪生世界模型比它多了一个‘预测未来’的能力】数字孪生这几年在工业、城市、能源领域很火它的核心是对物理世界做高精度的 1:1 镜像。比如给一座工厂建一个数字版实时同步设备状态用来监控、运维、优化给一座城市建一个数字版用来模拟交通流量、管网压力、灾害响应。数字孪生是‘现在的镜子’它回答的问题是现实世界现在怎么样世界模型则是‘未来的沙盘’它不仅要知道工厂现在怎么样还要能预测如果这条产线加速设备会不会过热如果机器人这样移动会不会撞到货架如果明天来台风电网负荷会怎样。它回答的问题是现实世界将会怎么样以及我该怎么行动。所以世界模型包含数字孪生的一部分能力但又往前迈了一步从‘复刻现实’到‘推演未来’。你可以把数字孪生理解为世界模型的一个组件或前置条件但世界模型的野心更大。【物理 AI世界模型是它的核心组件之一】黄仁勋和英伟达近年一直在提‘Physical AI’也就是能在物理世界里行动的 AI。自动驾驶汽车、人形机器人、工业机械臂、无人机都属于这个范畴。物理 AI 要行动需要三个东西 - 感知看到世界 - 理解知道世界规律 - 决策选择动作。世界模型负责的是中间那层——理解世界规律并预测未来它让 AI 不只是看到前面有障碍物而是能预判障碍物接下来怎么动以及自己不同动作会导致什么结果。所以你可以说世界模型是物理 AI 的核心组件但不是物理 AI 的全部物理 AI 还包括传感器、执行器、控制算法、安全系统等等。世界模型是物理 AI 的‘大脑皮层’负责在行动前做推演。【关系图解一张图看懂关系】如果把它们放进一个层次结构里大致是这样的底层基础设施算力、GPU、云、传感器、数据采集认知层世界模型——理解并推演物理世界的规律应用工具层仿真数据平台、数字孪生——把认知能力落地为训练或监控工具行动层物理 AI——在真实世界里行动的机器人、自动驾驶汽车等体验层元宇宙——人类沉浸其中的虚拟空间规则层Web3.0——所有权、身份、经济激励规则。世界模型处在‘认知层’向上支撑应用工具、行动系统和虚拟体验向下依赖算力和数据。它不是任何一个概念本身但可能是很多概念的共同底座。【总结判断世界模型可能是这些概念的‘操作系统’】这些概念之所以容易混淆是因为它们都指向同一个大趋势数字世界和物理世界的边界在模糊。元宇宙想让人类更多生活在数字世界Web3.0 想让数字世界的资产归个人仿真数据平台想用数字世界训练物理世界的 AI数字孪生想实时同步两个世界物理 AI 想让 AI 在物理世界行动世界模型则是让 AI 脑中拥有一个可推演的世界是连接数字与物理的‘认知层’。世界模型不一定取代这些概念但它可能成为很多概念的底层基础设施就像操作系统不取代 App但 App 都跑在操作系统上。元宇宙、仿真平台、数字孪生、物理 AI 这些 App最终可能都需要世界模型这个操作系统来调度对世界的理解。所以过去热炒的概念和世界模型是不是一个东西严格来说不是但很多概念当初吹过的牛可能最终要靠世界模型来实现。