当所有人还在争论 Sora、Veo、Runway 谁的视频生成效果更好时一种全新的技术方向已经悄然出现——不再生成内容而是生成世界。写在前面当大家还在讨论 Sora、Veo、Runway 谁的视频生成效果更好时一批团队已经把目标放到了更远的地方。它们不想生成一段视频。也不想生成一张图片。它们想直接生成整个世界World——你可以在里面自由移动、探索、交互甚至影响整个世界的发展。这其中DreamForge 提出了本地 AI 资产生成引擎的思路Google DeepMind 的 Genie 3 已经实现了实时交互式世界生成而学术界将这一方向统称为World Model世界模型。很多人第一眼看到这些进展以为只是AI 游戏生成工具。其实并不是。这些尝试在回答一个更根本的问题AI 能否不只是理解语言、生成画面而是真正理解并模拟整个物理世界的运行规律如果答案是可以那么未来游戏、影视、数字人甚至 AI Agent 和机器人都可能因此彻底改变。今天我们就来聊聊 DreamForge 背后的技术路线以及它为什么被很多人认为是 World Model 时代的重要一步。一、DreamForge 到底是什么先说结论DreamForge 是一个本地部署的 AI 资产生成引擎它的终极目标是实现完整的世界/关卡自动生成。根据 DreamForge 官方网站dreamforge-ai.com的描述它的核心定位是AI-powered platform for automated digital asset creation. Deploy locally for absolute data sovereignty and zero usage caps.AI 驱动的自动化数字资产生成平台支持本地部署实现完全的数据主权和零使用限制。注意几个关键词本地部署——完全离线运行零云端依赖数据不出内网自动化资产生成——不是 AI 游戏引擎也不是 AI 视频工具而是批量生成游戏可用资产零使用限制——没有 API 调用次数上限没有按量计费目前 DreamForge 已经支持的能力包括能力类别具体功能3D 模型与角色批量生成游戏就绪、带贴图、已优化 LOD 的 3D 模型、道具套装和完整绑骨角色图片、图标与视频自然语言编辑生成图标和图片完整视频生成需 32GB 显存音频与本地化生成音乐、音效、语音支持即时多语言本地化文本与代码生成游戏脚本、叙事文本和代码片段而官方明确标注了Coming Soon的功能是Full animation generation and entire level/game creation.完整动画生成与整关卡/游戏创建。这说明生成整个世界并非已上线的功能而是 DreamForge 路线图上的核心目标。目前的 DreamForge 更像是通往世界生成的基础设施层——先把 3D 模型、材质、音效、脚本等世界积木的生成能力做扎实再向完整关卡和世界生成演进。这一点非常关键它不是在画饼而是在按步骤搭建。在硬件适配方面DreamForge 针对消费级 GPU 做了深度优化最低门槛是RTX 5070 Ti也支持 AWS G6 / Google Cloud G2 云实例。目前已集成Unreal Engine和UnityBlender、Godot、Roblox Studio 的集成正在路上。二、DreamForge、Sora、Genie 3三条完全不同的路线很多人第一反应这不就是 Sora 的升级版吗其实完全不是。它们代表了三条截然不同的技术路线。维度SoraOpenAIGenie 3DeepMindDreamForge核心定位视频生成模型实时交互式世界模型本地 AI 资产生成引擎输出形态视频片段可探索的实时 3D 世界3D 模型/图片/音频/代码等资产生成方式一次性生成逐帧自回归生成持续运行批量离线生成资产用户角色观看自由移动、探索、交互开发者用于构建游戏世界状态不保存保存并回忆数分钟内不涉及资产级部署方式云端云端研究原型完全本地化运行帧率N/A视频20-24 fps720p取决于硬件三者可以这样理解Sora更像一台AI 摄影机——它拍摄一个已经存在的世界通过学习视频数据但你只能看不能进去。Genie 3更像一个AI 世界生成器——它不是拍摄世界而是在你进入的那一刻创造世界你可以实时在里面走动。DreamForge更像一个AI 资产工厂——它不直接生成世界而是为开发者批量生产构建世界所需的一切素材让世界生成的成本从几百人几年降低到几小时几块钱。这是三个完全不同的概念但它们指向同一个终局AI 参与世界的构建。三、真正的核心什么是 World Model世界模型DreamForge 官网和 Genie 3 官方页面都反复提到一个词World Model。那么什么叫世界模型3.1 从心理学到 AI世界模型的概念并非新事物。早在1943 年苏格兰心理学家 Kenneth Craik 就在《解释的本质》中提出人类大脑会构建现实的小规模模型用来预测和理解外部事件。这一观点后来被发展为心智模型理论成为现代认知科学的基础。在 AI 领域世界模型的发展可以分为几个关键阶段时间里程碑意义2018David Ha Jürgen Schmidhuber 发表《Recurrent World Models Facilitate Policy Evolution》正式将世界模型引入深度学习领域2022Yann LeCun 提出 JEPA 架构主张通过自监督学习在隐空间中预测世界状态2023LLM 被发现天然蕴含世界知识大语言模型成为世界模型的 backbone2024OpenAI 发布 Sora视频生成模型成为世界模拟的显式实现2025DeepMind 发布 Genie 3首个实时交互式世界模型20-24 fps3.2 世界模型学的是什么过去的大模型学习的是语言规律——所以 ChatGPT 会聊天。后来的视频模型学习的是像素序列——所以 Sora 会生成视频。而 World Model 学习的是世界的运行规律如果球掉下来会发生什么重力如果风吹过树林会怎样流体力学如果玩家向左移动下一帧应该看到什么视角变化如果太阳落山光照应该怎样变化光影物理这些不是死记硬背而是 AI 在预测世界的未来状态。2026 年清华大学 FIB-Lab 发表在 ACM Computing Surveys 上的综述论文将世界模型分为两大核心功能理解世界隐式表示AI 通过学习将外部世界转化为抽象的隐变量就像人类对世界的概念理解。预测未来显式模拟AI 通过生成视频或 3D 环境来显式模拟世界的未来状态。Yann LeCun 有一句话被广泛引用如果没有世界模型AI 就永远无法达到人类水平的智能。所以很多研究人员认为未来 AI 最重要的能力不是语言而是对物理世界的理解和预测。四、实时世界生成是如何做到的——以 Genie 3 为例DreamForge 的完整世界生成尚在路线图中但 DeepMind 的 Genie 3 已经给出了实时世界生成的真实范例。理解 Genie 3 的机制就能理解 DreamForge 未来要走的路。4.1 逐帧自回归生成Genie 3 不是提前做好地图而是玩家移动 ↓ AI 接收当前位置 动作指令 ↓ 基于世界描述预测下一帧 ↓ 渲染新的画面20-24 fps ↓ 玩家继续移动 ↓ 继续预测……整个世界是逐帧自回归生成的——每一帧都基于世界描述和用户动作实时计算。这意味着地图理论上可以无限延伸每一次移动AI 都在重新创造世界。这和传统游戏最大的区别就在这里传统游戏地图已经画好了引擎只是渲染你看到的部分。世界模型地图还没有诞生直到你走过去它才开始生成。4.2 世界一致性与记忆如果只有实时生成其实很多 AI 视频模型也能做到。真正困难的是世界的一致性。Genie 3 在这方面取得了突破。官方描述Previously seen details are recalled when revisited – and environments can handle sustained interaction without degrading.重访时能回忆之前看到的细节环境能承受持续交互而不退化。Genie 3 的环境可以保持数分钟的一致性并能回忆最长约一分钟内的特定交互变化。这比 NeRFs 和 Gaussian Splatting 等方法更加动态和细致。举个例子你进入森林发现一棵红色的大树。十分钟以后再回来它还应该在那里。如果 AI 每次都重新生成那刚才的大树可能没了河流位置也变了整个世界就崩了。4.3 Promptable World Events可提示世界事件Genie 3 还引入了一个叫做Promptable World Events的功能——你可以通过文本指令改变生成的世界比如改变天气条件、引入新的物体和角色。这增加了场景的丰富性也让 AI Agent 能在更多样的环境中学习应对意外情况。4.4 基于 Street View 数据Genie 3 的一个独特之处在于它基于 Google Maps 的 Street View 数据进行训练因此可以创建扎根于现实的新世界。你可以输入一个真实地点Genie 3 会以此为基础生成一个可探索的 3D 环境。五、DreamForge 的差异化本地化 资产生态既然 Genie 3 已经能实时生成世界DreamForge 的价值在哪里答案在于定位不同维度Genie 3DreamForge目标用户研究人员 / Agent 训练游戏开发者 / 工作室交付物可探索的实时世界游戏可用的离散资产部署方式云端研究原型完全本地化零云端依赖数据主权数据需上传云端数据始终留在本地引擎集成独立运行直接集成 Unreal / Unity使用成本实验性未商业化一次性部署无限使用DreamForge 走的是一条务实路线先解决资产生产这个最痛的环节——游戏开发中美术资产生产往往占成本的 60% 以上。强调本地部署和数据主权——对于大型游戏厂商核心资产不上云是硬需求。直接对接现有引擎——不要求开发者抛弃 Unreal/Unity而是融入现有工作流。向世界生成演进——当资产生成能力成熟后自然过渡到用 AI 资产自动拼装完整关卡。这是一种自下而上的世界生成路径先把零件做好再组装成世界。而 Genie 3 走的是自上而下的路径直接生成整个世界哪怕目前只能维持几分钟。两条路线殊途同归。六、为什么 AI 游戏可能因此彻底改变目前游戏开发最大的成本不是程序而是内容。以《原神》为例一个城市可能需要几百位美术几十位策划大量关卡设计师几年时间如果未来世界本身可以 AI 自动生成那么开发团队可能只需要定义规则森林应该长什么样怪物有什么生态NPC 如何生活剩下的全部交给 AI。实际上学术界已经在这个方向上取得了实质性进展GameNGen实现了完全基于神经网络的游戏引擎能以 20 fps 运行实时交互游戏。WHAM能生成一致且多样化的游戏序列并保留用户对游戏世界的修改。DreamerV3在没有人类数据和领域特定调优的情况下解决了超过 150 个任务包括在 Minecraft 中收集钻石。所以很多业内人士认为未来游戏开发的重心可能从手工制作内容变成定义世界规则AI 负责生成和演化。七、World Model AI Agent会发生什么很多人忽略了另一件事如果把 AI Agent 放进 World Model事情就完全不同了。想象一下一个 NPC不是脚本而是拥有长期记忆、推理能力、工具调用和自主规划的 AI Agent。它生活在一个 World Model 生成的持久世界中。即使玩家离线世界依然继续运行。这就是很多 AI 公司正在研究的Persistent World持久世界。DeepMind 已经在这个方向上迈出了一步他们将SIMA一个能在虚拟环境中执行任务的 AI Agent放入 Genie 3 生成的世界中。Genie 3 负责模拟世界SIMA 负责在世界中完成任务。Genie 3 本身不知道任务目标它只是根据 Agent 的动作模拟世界的未来。2023 年的 Generative Agents 研究已经证明25 个拥有记忆、性格和目标的 AI 智能体组成的虚拟小镇能进行自然的社交互动甚至会自发组织活动。而 2025 年的 AgentSociety 平台已经能模拟上万个智能体的社会演化。当 World Model 提供了舞台AI Agent 提供了演员我们离一个真正自我演化的数字世界就更近了一步。八、未来不仅是游戏World Model 的应用远不止游戏。DreamForge 官方路线图和行业趋势都指向更广阔的方向自动驾驶World Model 本来就是自动驾驶的重要研究方向。汽车必须预测未来几秒世界如何变化。代表模型GAIA-1是第一个生成式自动驾驶世界模型能根据文本、图像和动作输入生成逼真的驾驶场景视频。Drive-WM则引入了闭环控制能根据规划结果动态调整生成的场景。具身智能 / 机器人World Model 为机器人学习提供了安全的虚拟训练场。突破性进展DayDreamer让机器人能在真实世界中直接学习运动技能只需要几个小时就能学会走路。RoboScape是第一个物理感知的具身世界模型用它生成的合成数据训练的机器人策略在真实世界中的表现比传统模拟器数据训练的提升了30% 以上。数字人与数字员工数字人不再只是一个聊天界面而是生活在一个由 World Model 生成的真实世界中——每天工作、学习、交流。XR扩展现实未来戴上 AR 眼镜整个世界实时生成而不是提前建模。AI 教育学生进入历史世界直接探索古罗马探索恐龙时代而不是观看视频。Genie 3 官方已经将探索历史时代列为应用方向之一。九、距离真正的 AI 世界还有多远当然目前一切仍处于早期阶段。距离真正意义上的《头号玩家》还有很远。Genie 3 的已知局限官方公布局限说明动作空间有限Agent 自身能执行的动作范围仍然有限多 Agent 交互准确模拟多个独立 Agent 在共享环境中的交互仍是研究挑战真实地点精度目前无法完美精确地模拟真实世界地点文本渲染清晰可读的文字通常只在输入描述中包含时才能生成交互时长支持数分钟的连续交互而非数小时行业共同挑战清华大学综述论文总结了世界模型面临的六大开放问题物理规则与反事实模拟——Sora 经常生成物体穿透、重力异常等不符合物理规律的内容社会维度丰富性——对人类行为和社会互动的模拟仍较初级基准测试缺失——不同模型之间难以公平比较模拟到现实的鸿沟——虚拟训练的策略如何有效迁移到真实世界模拟效率——Transformer 的自回归特性导致推理速度慢无法满足实时需求伦理与安全——数据隐私、有害场景模拟、虚假信息等风险不过DreamForge、Genie 3 等项目给行业展示了另一条路线不是生成内容而是生成世界。这个方向本身就已经足够令人兴奋。十、我的一些思考过去几年AI 的发展路线一直都是文本 → 图片 → 视频 → 音乐 → 代码。大家都在解决同一个问题如何让 AI 生成更好的内容。DreamForge 和 Genie 3 则开始解决另一个问题如何让 AI 生成一个能持续运行的世界。这是一个层级完全不同的问题。未来 AI 的竞争也许不再是谁生成图片更漂亮、谁生成视频更逼真而是谁能够模拟整个现实。如果说 ChatGPT 教会 AI 如何理解语言Sora 教会 AI 如何理解画面那么 World Model 也许正在教 AI理解这个世界。而 DreamForge用本地化部署和资产生态的方式为这条路上补上了开发者可用性这一块拼图。也许几年后再回头看DreamForge 不一定会成为最终的赢家Genie 3 也可能只是世界模型发展中的一个中间态。但它们很可能会像当年的 Transformer、ChatGPT 或 Sora 一样成为 AI 发展历程中的重要节点。写在最后DreamForge 目前还只是一个预览版本Genie 3 也仍是研究原型但它们释放出的信号已经非常明确生成式 AI 正在从生成内容Content Generation迈向生成世界World Generation。这不仅意味着游戏开发方式可能发生变化也意味着 AI 将逐步具备对环境、空间、时间和因果关系的理解能力。未来当 World Model、AI Agent、机器人和 XR 技术进一步融合时我们面对的或许不再是一个个独立的 AI 应用而是一个能够持续运行、自我演化、可交互的数字世界。参考资料DreamForge 官方网站https://dreamforge-ai.com/Genie 3 — Google DeepMindhttps://deepmind.google/models/genie/清华大学 FIB-Lab 世界模型综述论文Understanding World or Predicting Future? A Comprehensive Survey of World ModelsACM Computing Surveys 2026论文链接https://arxiv.org/pdf/2411.14499 代码仓库https://github.com/tsinghua-fiblab/World-ModelDavid Ha Jürgen Schmidhuber (2018)Recurrent World Models Facilitate Policy Evolution世界模型开山之作Yann LeCun (2022)JEPA 架构主张自监督学习预测世界状态SIMA — Google DeepMindhttps://deepmind.google/blog/sima-2-an-agent-that-plays-reasons-and-learns-with-you-in-virtual-3d-worlds/Generative Agents (2023)25 个 AI 智能体虚拟小镇研究AgentSociety (2025)万级智能体社会模拟平台免责声明本文基于公开资料整理旨在技术科普与趋势分析不构成任何投资建议。DreamForge 和 Genie 3 的能力描述以各自官方网站为准本文如有疏漏欢迎指正。