这项来自哈萨克斯坦DreamForge AI Lab的研究以技术报告形式发布于2026年6月论文编号为arXiv:2606.30292作者隶属于DreamForge AI Lab感兴趣的读者可以通过该编号查阅完整原文。你有没有玩过这样的游戏——画面里的一切都是真实的电影感树叶在风中颤抖光线打在地面上有真实的阴影你往左走整个世界就跟着向右流动。现在有一群研究者在做一件更疯狂的事他们不想让你在一个程序员预先写好的游戏世界里移动而是想让AI在你玩的时候实时地画出你眼前的每一帧画面——就像你走到哪里AI就把那里的景象现场创作出来而不是提前存好的。这就是世界模型这个概念的核心。DreamForge AI Lab发布的这份报告描述了他们做到这件事的方式以及做到什么程度、还差什么。他们把这个系统叫做DreamForge-World 0.1 Preview一个版本号里带着预览二字的诚实系统——他们并没有宣称做出了完美的东西而是清清楚楚地告诉你这是目前能做到什么下一步打算解决什么问题。---一、什么是世界模型为什么这件事很难要理解这项研究的意义先得弄清楚世界模型究竟在解决什么难题。把普通的AI视频生成比作一个画家提前画好一幅画然后给你看那么世界模型要做的事就完全不同——它更像是一个即兴表演的魔术师你每做一个动作他就在你面前现场变出对应的画面而且上一秒的画面还得和这一秒的画面衔接得天衣无缝。你往前走了几步背景就要对应地近了一些你转身回头刚才身后的场景就得还在那里不能凭空变样。这里有两个核心难题同时存在。第一个难题是速度普通的AI视频生成可以花几分钟慢慢渲染一段视频但世界模型不行它必须以每秒十几帧的速度不停地生成新画面否则你就会感觉到明显的卡顿根本没法玩。第二个难题是记忆AI生成的每一帧都会变成下一帧的参考记忆就像你在脑子里记住走过的路一样。但AI自己生成的画面并不完美每积累一点小误差几分钟后这些误差就会叠加起来导致画面质量越来越差或者你转身回来时发现场景已经面目全非。目前业内顶尖的系统比如谷歌DeepMind的Genie系列、Matrix-Game 3.0、WorldPlay等都在努力解决这两个问题其中记忆问题尤为关键——这些系统花了大量精力去建立持久空间记忆让AI真的能记住你曾经去过的地方长什么样。DreamForge的这个团队选择了一条不同的路。他们没有追求顶级的画面质量也没有先去解决记忆难题而是问了自己一个更务实的问题用消费级显卡、用较少的训练数据、用相对低的开发成本能把这件事做到什么程度---二、站在巨人的肩膀上聪明地拼积木而不是从头造砖DreamForge团队的核心思路可以用聪明地拼积木来形容。他们没有从零开始训练一个全新的AI模型——那需要海量的算力和数据是大公司才能玩的游戏。相反他们找到了几块已经造好的、质量很高的积木然后把它们以独特的方式组合在一起。第一块积木叫做LongLive 1这是由英伟达实验室团队基于一个叫做Wan2.1的开源视频生成模型改造出来的系统。你可以把Wan2.1理解为一个擅长生成短视频的AI而LongLive 1对它进行了改造让它能够做流式续写——也就是不断地生成下一帧、下一帧、再下一帧就像一台永不停歇的摄像机。LongLive 1有几个关键的技术设计包括KV缓存重用可以理解为AI把之前算过的结果存下来下次不用重新算从而节省时间、短窗口注意力AI每次只重点关注最近的几帧而不是从头看到尾这样速度更快、以及帧锚点机制在画面开头固定一个参考点防止后续画面漂移太远。这些设计让LongLive 1在速度上已经相当出色。第二块积木叫做Matrix-Game 2.0的动作控制模块。这是另一个研究团队开发的系统专门解决如何把玩家的键盘和鼠标操作转化为AI生成画面的变化——你按下W键往前走AI就要把画面往前推你移动鼠标往左看AI就要把视角往左转。Matrix-Game 2.0在大约1200小时的游戏操作录像上训练了这个控制模块它知道当玩家做出某个动作时画面应该怎么变化。DreamForge的做法是先把LongLive 1适配到游戏画面风格再把Matrix-Game 2.0的控制模块移植进来然后花少量时间做针对性的微调让这两块积木能够协同工作。这个过程中他们只用了64小时的精选游戏视频作为训练数据——相比之下Matrix-Game 2.0用了1200小时谷歌的Genie用了30000小时。这个差距非常悬殊但也正是DreamForge想要证明的通过聪明的方法组合能用更少的数据达到可用的效果。---三、一步一步地让AI学会看着玩家做事在具体的技术实现上团队按照顺序走了几个关键步骤每一步都有清晰的目的。第一步他们在LongLive 1的基础上训练了一个骨干LoRA。LoRA是一种高效的微调方法可以把它理解为给一个已经训练好的AI模型穿上一件定制外套——不改变模型的核心结构只在外层加一些调整参数让模型的输出风格变化。这件外套的参数规模设为64阶rank-64相对较高能承载更多的风格调整。通过这个步骤原本擅长生成各种风格视频的LongLive 1开始专注于生成游戏风格的画面。训练数据来自三个来源NitroGen数据集的游戏视频、GameGen-X的开放世界游戏数据集以及团队自己手工收集的高质量素材。这个阶段还没有加入玩家控制纯粹是让AI熟悉游戏世界的样子。第二步加入动作控制。团队将Matrix-Game 2.0的动作控制模块的权重直接移植到LongLive 1的Diffusion Transformer一种特定的AI模型架构上然后做短暂的微调让移植过来的控制模块能和已经适配好的游戏风格骨干协同工作。所谓残差动作通路可以理解为玩家的操作信号作为一个独立的输入渠道叠加在AI生成画面的过程中就像在烹饪的食谱上额外加了一份实时调味——基础的烹饪方式不变但玩家的每个操作都会微调最终的味道。第三步针对第一人称和第三人称两种视角分别训练了两个独立的高阶LoRA。这一点很有意思因为第一人称视角你就是那个在世界里走动的角色和第三人称视角你从外面看着一个角色在世界里走动对AI来说是完全不同的任务。第一人称的难点是让镜头运动感觉自然如同真人在走路时的视角晃动第三人称的难点则更复杂需要同时协调角色的移动、镜头的跟随、背景的视差变化近处的东西移动快远处的移动慢等多个因素。强行用一个控制器覆盖两种视角会导致两边都不好所以团队选择分别训练各自为政在最终使用时根据玩家选择的视角切换对应的控制模块。训练过程中还用到了一个叫做Depth Anything 3的深度估计模型专门帮助AI理解场景中不同物体之间的远近关系从而让视角控制更加稳定。---四、如何让AI接受图片和视频作为游戏的起点解决了控制问题之后团队还想让系统更灵活不只是从文字描述开始一个游戏会话还能从一张图片或者一段视频继续下去。LongLive 1本身是一个文字生成视频的系统它的原始接口只接受文字描述。DreamForge要做的是让它也能接受图片和视频作为开始。他们的解决方案相当直接把输入的图片或视频通过模型自带的VAE编码器可以把VAE理解为一个压缩打包机把画面转换成AI内部能处理的数字格式处理成和AI内部生成的内容完全相同格式的历史记录然后把这段历史记录插到生成序列的最前面AI就会认为这些已经发生过的画面是自己生成的然后从这里继续往后生成。这种方式的好处是不需要另外训练一个专门的图生视频模型直接利用已有的框架就能实现。代价是图片或视频只能锚定起点一旦AI开始自主生成后续内容后续的稳定性完全依赖于自回归auto-regressive就是AI不断用自己生成的内容作为下一步的参考历史的质量。---五、把所有这些拼起来能看到什么——六个用户可见的能力最终DreamForge-World 0.1 Preview对用户暴露出六个可以实际体验到的能力它们不是彼此独立的模块而是共同运行在同一个自回归生成循环里。最基础的是纯文字启动模式用户输入一段文字描述比如一片废土上的战后城市黄昏时分AI就会从这个描述开始生成世界然后玩家可以通过键盘和鼠标在这个世界里移动和探索。多模态入口则扩展了这个起点玩家可以提供一张截图或者一段视频片段作为起点AI从这个视觉状态继续往后生成而不是凭空从文字开始。键盘和鼠标控制是最核心的交互能力玩家的每个按键和鼠标移动都会影响下一帧的生成结果。双视角支持让系统同时拥有第一人称和第三人称两种控制模式分别调用不同的控制模块尽量保证两种视角下的体验都合理。中途重新设定提示词是一个特别有趣的功能——在游戏进行中玩家可以改变文字描述AI会在保留当前视觉历史的前提下朝新的描述方向发展。报告里给出了一个具体的例子一个正在进行中的海岸场景玩家在文字框里输入海啸AI就在接下来的画面里逐渐生成了海浪涌来的景象整个转变过程不需要重新启动会话。最后系统支持分钟级别的持续生成在大约一分钟的时间窗口内生成质量相对稳定这是目前最适合体验的交互时长。---六、速度和内存表现消费级显卡能跑到多快报告非常详细地列出了系统在不同硬件和精度设置下的实际运行速度这些数据是以端到端的实际吞吐量来测量的包含了AI推理、画面解码和传输等所有环节的开销不是孤立的模型速度。系统提供两条解码路径。默认路径使用Wan2.1原配的VAE解码器在一块RTX 4090显卡上以bf16精度运行时大约能达到每秒10帧以fp8精度一种更激进的压缩方式能用更少的内存存储权重运行时能达到约12帧内存占用分别约为9GB和5GB。在更高端的H100服务器显卡上同样条件下分别能达到约15帧和17帧。第二条路径使用一个叫做LightTAEW 2.1的更轻量级解码器这是一个专门为Wan系列模型设计的快速解码方案。使用这条路径后RTX 4090在bf16精度下能达到约12帧在fp8精度下能达到14至15帧内存分别降至约8GB和4GB。H100则能达到约18帧和19帧。轻量解码器让系统在一块消费级的RTX 4090显卡上以fp8精度运行时达到了14到15帧每秒的流畅度内存占用仅约4GB这对于一个实时AI世界生成系统来说是相当紧凑的。推理栈在LongLive 1原有的基础上做了多项针对实时交互的优化加入了异步流式处理让画面生成和显示两个过程并行进行不互相等待实施了KV缓存量化对AI内部存储的中间计算结果进行压缩减少内存占用并且引入了一种叫做Deep Forcing的训练无关缓存管理方式用来减少长时间运行后AI输出质量下滑的速度。---七、诚实地说出它还做不到什么这份报告让人印象深刻的一点是它对自身局限的坦率描述。最核心的缺失是持久空间记忆。目前的系统没有维护一张已经生成过的世界地图。你在一个场景里往前走了一段然后转身往回走AI会重新合成那个区域的画面而不是还原你之前看到的样子。报告用一个具体的例子说明这个问题玩家在一个有树木的场景里旋转镜头转回来之后原本空旷的位置出现了之前不存在的树场景结构也发生了变化。这是当前系统最明显的体验缺陷也是业内几乎所有具备持久记忆的系统如Matrix-Game 3.0、WorldPlay、Infinite-World等正在重点攻克的核心问题。第二个局限是长时间运行后的画面退化。系统支持分钟级别的连续生成但AI每次用自己生成的画面作为下一步的参考累积误差会越来越大。报告展示了一个具体的退化案例随着时间推移画面出现了明显的颜色过饱和和纹理细节模糊虽然在更晚的帧里颜色有所恢复但精细的纹理细节损失是不可逆的。第三个局限是控制精度。键盘和鼠标的操作确实影响着AI生成的画面但这种影响并不像真正的游戏引擎那样精确。激进的镜头移动比如快速旋转有时会让画面出现不稳定第三人称视角的控制比第一人称更容易出问题。整体延迟是实时的但还不到传统游戏那种几乎无感的响应速度。此外系统目前不支持声音生成不支持多个AI角色同时交互也无法可靠地与场景中的持久物体发生物理互动。---八、用64小时的数据和用30000小时的系统站在同一个舞台上在训练数据规模上报告做了一个非常直白的比较。DreamForge的整个系统包括骨干LoRA训练和两阶段动作控制模块训练总共使用了64小时精选的游戏和控制视频。Matrix-Game 2.0使用了约1200小时的有交互标注的数据是DreamForge的约18.8倍。谷歌的Genie使用了30000小时经过筛选的平台跳跃游戏视频是DreamForge的约468.8倍。这个对比并不是在说DreamForge的效果比这些系统更好——恰恰相反在画面质量、记忆能力、控制精度等多个维度上顶尖系统都领先很多。这个对比想说明的是在大幅压缩训练数据规模的前提下通过聪明地组合现有开源模型、进行针对性的迁移和微调能够构建出一个覆盖多项交互能力的可用预览系统。这对于资源有限的小团队或研究者来说提供了一条相对可行的路径。---九、接下来要做什么以及这个系统现在能用吗目前DreamForge-World 0.1 Preview是一个预览版本团队并未开源模型权重也没有提供公开的体验入口可访问trydreamforge.com了解最新动态。DF-World 0.5是团队规划中的下一个版本如果许可、安全和工程条件允许有可能会公开发布。在技术路线上团队接下来最优先的目标是持久空间记忆候选方向包括潜在记忆检索让AI能回忆它之前生成过的空间状态、相机感知记忆把摄像机的位置和朝向信息纳入记忆系统、闭环训练让AI在有意识地走回头路的场景下训练、以及在自己生成的历史上做自我训练。除了记忆团队还在探索更大的视频骨干模型、更强的动作控制架构、改进双视角稳定性、将多模态输入从仅用于初始化扩展到可在运行过程中持续更新以及为生成画面加入同步的实时音频。---说到底DreamForge这个团队做的事情与其说是在和谷歌、腾讯这样的大公司争最好的效果不如说是在回答一个不同的问题这件事的门槛到底有多低一个小团队、一块消费级显卡、64小时的数据能走到哪一步从结果来看他们确实走到了一个值得记录的位置实时、可控、支持多种输入方式、双视角、能在中途改变世界的样子——即便画面在一两分钟后开始退化即便转头回来场景就变了这套东西在很短的时间窗口内运行时已经能给人一种AI在实时为你创造世界的真实感受。这意味着什么它意味着这项技术并没有那么遥远。当记忆问题被解决当控制精度进一步提高当更大的骨干模型被更高效地适配每个普通人都有可能在自己的电脑上用文字或一张图片描述一个世界然后真的走进去。有兴趣深入了解技术细节的读者可以通过arXiv编号2606.30292查阅DreamForge AI Lab发布的完整技术报告。---QAQ1DreamForge-World 0.1 Preview和真正的游戏有什么本质区别A传统游戏的世界是程序员预先写好的AI世界模型是在你玩的时候实时画出来的没有固定的地图。好处是世界理论上可以无限生成坏处是目前AI的记忆不可靠转身回来场景就可能变了而且控制精度远不如真正的游戏引擎。Q2DreamForge-World 0.1 Preview为什么只用64小时数据比其他系统少那么多A因为他们没有从头训练模型而是直接借用了LongLive 1这个已经训练好的视频生成模型的能力再把Matrix-Game 2.0的控制模块移植进来只需要少量数据做针对性微调大量的基础能力来自已有的开源模型。Q3DreamForge-World 0.1 Preview现在在哪里可以用A目前DreamForge AI Lab没有开放公开体验也没有开源模型权重这个版本是内部预览状态。团队计划推出DF-World 0.5作为下一个版本是否公开发布取决于许可和安全条件可以关注trydreamforge.com获取最新消息。