高效相机控制、长程记忆与实时流式推理的协同优化论文来源DreamX-World 1.0: A General-Purpose Interactive World Model (arXiv:2606.16993v1)**核心摘要**DreamX-World 1.0 是一个面向多领域照片级真实、游戏风格、艺术风格的通用交互式世界模型支持文本与图像驱动的长程视频生成。该系统通过多源数据引擎融合虚幻引擎合成数据、游戏录制与真实世界视频构建了覆盖相机轨迹、动作信号与事件标注的统一训练表示。在模型架构层面团队提出了高效投影位置编码 E-PRoPE在保持相机控制精度的同时降低约百分之三十的推理延迟通过几何引导的记忆检索与残差循环机制实现了场景在长时间交互中的内容一致性借助事件指令微调模型能够响应涉及多实体交互的组合式事件描述。在推理侧通过分布匹配蒸馏将双向视频生成器转化为少步自回归世界模型并结合强化学习后训练与量化、并行化等系统级优化在八块 RTX 5090 上达到最高十六帧每秒的流式生成速度。在基础评测中该模型以五十四亿参数规模取得相机控制分数七十三点七五、综合分数八十四点七六的成绩。一、从被动生成到交互模拟世界模型的技术跃迁视频生成技术在过去几年经历了从简单图像合成到复杂 cinematic 视频生成的快速演进。当前主流的视频扩散模型已经能够产出高质量的短视频片段然而这些系统本质上是被动式的视觉合成器用户输入一段文本或一张图片模型返回一段预先确定的视频期间无法对画面内容施加实时干预。交互式世界模型则将这一范式推向了新的维度——它要求系统不仅生成视觉内容还要持续响应用户的控制信号并在长程时间跨度内保持场景状态的一致性。具体而言一个实用的交互式世界模型需要同时满足三项核心能力。第一当用户改变相机轨迹时系统应当呈现与之前观察一致的场景而非生成一个看似合理却与历史内容无关的新视角。第二当用户重新访问此前观察过的区域时场景的布局与物体身份应当保持稳定不应出现内容突变。第三用户通过文本提示触发的事件应当能够修改当前世界状态而非仅仅叠加一层视觉特效。这三项要求在单一模型需要同时覆盖照片级真实、游戏风格与艺术风格等多种视觉域时难度呈指数级增长。构建这样的系统面临数据与算法的双重挑战。在数据层面没有任何单一数据源能够同时提供覆盖多种视觉域、带有可靠相机与动作标注的大规模视频。在算法层面相机控制需要精确的几何条件机制长程生成需要克服自回归过程中的误差累积而实时交互则对推理延迟提出了严苛要求。DreamX-World 1.0 正是在这一背景下提出的全栈解决方案其技术路线涵盖数据构建、渐进式训练、推理加速与系统评估四个层面。图 1DreamX-World 1.0 在照片级真实、游戏风格与艺术风格三种视觉域下的交互式视频生成效果。模型支持精确的相机导航与事件控制能够生成跨风格的长程一致视频序列。二、多源数据引擎打破视觉域与标注精度的两难训练交互式世界模型的前提是拥有多样化、带标注的视频数据。DreamX-World 1.0 的数据引擎整合了虚幻引擎合成数据、游戏录制与真实世界视频三条管线通过统一的几何处理与质量过滤流程形成覆盖多视觉域的训练表示。虚幻引擎合成数据精确几何与丰富动作的基石虚幻引擎五UE5构成了数据引擎中规模可观的一部分。其独特价值在于能够提供逐帧的精确标注每一帧都包含离散动作向量以键盘式控制信号编码如 WASD 控制平移、IJKL 控制旋转以及相机位姿位置与欧拉角。第三人称片段还额外记录了角色的世界坐标与朝向从而支持相机与智能体的联合推理。UE 数据的生成采用两阶段管线设计。第一阶段由第一人称自由相机引擎与第三人称角色驱动引擎在线探索场景通过导航网格系统NavMesh采样目标点结合随机化的朝向与俯仰角调整生成候选轨迹。该阶段设置了碰撞检测、最小时长与路径长度约束以及卡住检测机制用于剔除无效轨迹。第二阶段将验证通过的轨迹进行离线渲染使用 UE 的电影渲染队列Movie Render Queue输出高质量帧序列并同步保存位姿、动作与元数据。渲染作业通过多 GPU 分布式调度执行支持断点续传与自动故障恢复。图 2虚幻引擎数据生成管线。轨迹通过在线探索与验证收集随后进行离线渲染输出包含相机位姿、动作信号与元数据的视频片段。运行时层支持分布式渲染与故障恢复。真实世界与游戏数据的补充融合为了弥补合成数据在视觉多样性上的局限团队从 SpatialVID、RealEstate10K、Sekai 与 DL3DV 等公开数据集中采集真实世界视频。相机位姿通过 MegaSaM 在稀疏关键帧上估计再通过插值获得连续轨迹。游戏数据则来自 Sekai-Game 与 OmniWorld-Game其引擎导出的位姿被转换到与 UE 及真实世界数据统一的相机坐标系中。所有来源的数据经过三阶段质量控制基础过滤剔除时长或帧率不足、文字叠加过多、黑边占比过大或视觉变化微弱的片段几何清洗对真实世界视频进行位姿归一化检查内参一致性、平移突变、快速旋转、垂直抖动与无效朝向视频描述与属性标注为每个保留片段生成全局描述涵盖场景、主体、动作与时序变化并进一步标记美学质量、运动强度、场景类别、视觉风格、主体类型与运动类别区分纯相机运动的三维场景与同时包含物体运动的三维加时间场景。图 3数据清洗、过滤与属性标注流程概览。流程涵盖基础过滤、几何清洗与属性标注三个维度确保训练数据在质量、几何一致性与语义丰富性上达到统一标准。事件指令数据的结构化构建针对事件交互需求团队从清洗后的数据池中筛选包含可见状态变化的高质量片段进行结构化事件描述标注。每个标注包含一个全局描述概括静态场景上下文与整体时序演化与多个时间对齐的实体级事件记录。每条事件记录明确指定实体引用、事件谓词、空间锚点与时间区间。对于组合式事件每个参与对象拥有独立的事件记录对象间的交互如碰撞、传递在全局描述中显式说明。数据集混合了单对象事件与组合事件使模型能够同时学习原子指令与组合指令的响应方式。三、渐进式训练从相机控制到长程交互的逐步解锁DreamX-World 1.0 以 Wan2.2-TI2V 模型为初始化基础通过四个递进阶段逐步解锁相机控制、记忆持久化、事件交互与自回归长视频生成能力。每个阶段在前一阶段的基础上增加新的条件机制同时保持已有能力的稳定性。图 4DreamX-World 1.0 系统整体架构。数据系统提供多源异构数据经过渐进式训练相机训练、记忆融合、事件与强化学习、自回归与蒸馏后模型支持流式推理与实时交互。高效投影位置编码 E-PRoPE轻量且精确的相机控制相机控制是交互式世界模型的首要能力。投影位置编码PRoPE通过将相机内参与外参直接编码为注意力矩阵中的投影子矩阵实现了对相机轨迹的精确响应。然而PRoPE 需要在完整分辨率的视频令牌集合上计算额外的注意力层几乎使计算成本翻倍这对长视频的训练与推理构成了显著瓶颈。团队观察到PRoPE 主要捕捉的是视角依赖的高层语义而非细粒度的纹理细节。基于这一洞察他们提出了高效投影位置编码E-PRoPE。其核心思想是对空间维度进行降采样在计算 PRoPE 注意力之前将输入令牌沿空间维度下采样并投影到低维的查询、键、值空间。以五秒七百二十像素视频为例Wan2.2 五亿参数的变分自编码器将其映射为一万八千四百八十个令牌而 E-PRoPE 将其下采样至四千零九十六个令牌空间下采样比超过四点五倍。这一设计使训练时间降低约百分之五十推理延迟降低约百分之三十。此外E-PRoPE 省略了标准 RoPE 子矩阵仅保留投影子矩阵因为扩散 Transformer 骨干网络中的原始注意力已经提供了充分的时空归纳偏置。PRoPE 注意力的输出通过上采样恢复到原始分辨率后以残差形式叠加到原始 DiT 注意力输出上。在训练阶段DiT 骨干网络被冻结梯度仅回传至 PRoPE 参数。实验表明E-PRoPE 在 Omni-WorldBench 评测上取得了与完整 PRoPE 相当的相机控制分数七十三点七五对七十三点八九同时推理延迟从八十秒降至五十九秒。图 5E-PRoPE 组件架构。该组件附加在每个 DiT 注意力层上通过对空间降采样的令牌计算投影注意力显著降低计算开销同时保持相机控制精度。记忆条件场景持久化跨越时间窗口的内容一致性当模型生成长视频时一个常见的失效模式是当此前观察过的内容离开局部上下文窗口后模型在重新访问该区域时可能渲染出不同的场景。为了解决这一问题团队在训练阶段引入了记忆条件机制。模型输入由三部分令牌序列拼接而成记忆帧从更早历史中提取的预测干净隐帧、近期历史帧目标窗口之前的最新去噪隐帧以及目标帧需要被去噪的带噪隐帧。这三部分沿令牌维度拼接后进入 DiT 的自注意力流。训练时仅在目标帧上计算损失。记忆帧的检索基于几何线索利用相机位姿与视角重叠度选择与目标视角高度相关的历史帧而非仅按时间距离选取。检索后的记忆帧附加对应其原始时间位置的 RoPE 嵌入避免远距离记忆被当作目标帧的相邻帧处理。对于大时间间隔团队采用轻量级时间位置处理策略借鉴 NTK 感知 RoPE 缩放、YaRN 与随机位置编码等方法。记忆条件面临训练与推理之间的暴露偏差训练时条件帧来自真实数据而推理时条件帧由模型自身生成包含预测误差。团队采用 Stable Video Infinity 提出的误差注入方法仅对条件令牌施加扰动同时保持目标隐帧干净。这使得模型学会在记忆帧有帮助时加以利用在记忆帧包含明显错误时回退到学习到的先验分布。图 6记忆条件场景持久化训练框架。基于几何的检索选择非局部记忆帧与近期历史帧和目标帧共同打包进入 DiT 自注意力流。残差循环路径对条件令牌施加扰动增强对不完美记忆隐变量的鲁棒性。事件指令微调支持多实体组合式交互现有交互式世界模型在事件控制粒度上存在差异部分系统支持全局或局部世界事件提示部分支持文本触发的动态事件还有系统专注于动作条件的长程记忆与实时流式生成。然而公开系统中鲜有能够显式处理组合式事件的方案——即在同一生成过程中多个对象按照结构化指令出现、行动并相互交互。DreamX-World 1.0 通过事件指令微调阶段填补了这一空白。用户可以通过自然语言描述每个对象出现的粗略区域或关系、执行的动作以及对象间的交互方式模型在单次前向传播中响应所有指定事件。训练使用前述结构化事件指令数据在保持架构不变的情况下对完整 DiT 进行微调。事件语义完全通过文本条件接口输入结构化事件指令被渲染为涵盖全局场景与逐实体动态的自然语言提示。微调混合了事件指令样本与非事件训练片段以保留模型的一般世界生成能力。团队采用保守更新与严格梯度裁剪避免破坏预训练的视觉与运动先验。自回归长视频生成与蒸馏从双向到流式的能力迁移双向视频扩散模型在生成质量上表现优异但其设计假设一次性访问全部时间步的信息难以直接用于流式交互场景。为了将双向模型转化为少步自回归生成器团队采用因果强制Causal Forcing、分布匹配蒸馏DMD与长程学生展开Long Student Rollouts相结合的策略。具体流程为首先在大规模高质量视频数据上使用因果强制训练少步自回归模型使其接近双向教师的视觉分布。随后借鉴 LongLive 的方法在长序列上进一步适应模型使用局部时间窗口与 Infinity-RoPE 扩展自回归上下文缓解长视频生成中的身份漂移、背景突变与提示弱化等问题。对于相机控制团队在少步自回归学生中引入 E-PRoPE 分支并以双向 E-PRoPE 教师为蒸馏目标。为了保持图像到视频I2V的质量每个采样 DMD 窗口的第一帧隐变量被解码为图像作为教师的图像条件使教师能够在长视频的局部时间窗口上监督相机控制自回归学生。图 7面向相机控制长视频蒸馏的 DMD 强制训练管线。E-PRoPE 自回归学生通过 DMD 监督从双向 E-PRoPE 教师蒸馏而来在保持流式自回归采样接口的同时实现长程一致性。强化学习后训练蒸馏后的质量与控制能力恢复分布匹配蒸馏虽然显著降低了采样步数但激进的蒸馏过程可能削弱视觉多样性、运动质量与相机可控性。为此团队在蒸馏后引入强化学习作为后训练阶段以提升视频质量并强化相机控制。由于蒸馏后的模型已经以极少步数运行强烈的奖励更新可能导致训练不稳定。团队采用渐进式更新策略使模型逐步变化。对于每个文本-图像-相机条件当前模型生成多个长程展开候选。完整展开保留自回归上下文从中采样的短片段用于奖励计算与 DiffusionNFT 训练。奖励模型之一测量水平平移与旋转的准确性另一个评估生成片段的视觉质量。KL 正则化平衡两项奖励并使更新后的模型保持接近原始蒸馏模型。这一后训练阶段使模型在保持少步推理效率与长程生成稳定性的同时显著改善了相机指令跟随能力与视觉质量。图 8强化学习后训练概览。模型首先生成长程自回归展开随后采样短片段进行视频质量与相机控制奖励模型评估融合后的奖励驱动保守的 DiffusionNFT 软更新将展开范围与优化解耦。四、推理加速与实时部署全栈优化的工程实践交互式世界模型的实用价值最终取决于推理延迟。DreamX-World 1.0 通过自回归流式推理接口、DiT 去噪优化、VAE 解码加速与异步流水线并行在八块 RTX 5090 上实现了最高十六帧每秒的流式生成。自回归流式推理接口视频以块为单位逐段生成每个块从噪声出发在文本提示、块相对相机轨迹与滚动键值缓存的条件下经过蒸馏后的少步采样器去噪随后将生成的令牌写回缓存供后续块使用。这一设计使推理保持流式友好——模型只需携带自回归历史无需重新生成先前视频内容。对于相机控制的图像到视频生成推理流程与文本到视频几乎相同唯一区别在于第一个块的第一帧被替换为输入图像从而将生成视频锚定到参考帧。所有后续块遵循与文本到视频相同的滚动缓存流程。相机控制以块相对形式表示第一块使用相对于其首帧的位姿后续每块使用相对于前一块末帧的位姿。这种块局部相对参数化使相机条件与当前自回归上下文对齐防止条件信号在长序列中衰减。图 9自回归流式推理流程。蒸馏后的采样器逐块生成视频更新滚动键值缓存并使用块相对相机控制实现连续解码块发射与实时交互。DiT 去噪的多层级优化在 DiT 去噪侧团队综合了精度、并行、内核与时步级别的优化。注意力层采用 INT8 SageAttention前馈网络层通过 AngelSlim 量化至 FP8。长时空令牌序列通过序列并行在多个 GPU 间分片仅同步必要的注意力与归一化统计信息在保持全序列计算能力的同时降低单卡激活内存。高频 Transformer 块算子被重写为融合 Triton 内核合并逐元素操作、布局变换与小型归约减少中间分配与内核启动开销。此外团队借鉴 TeaCache 方法在经验上稳定的时步区域复用去噪残差当相邻步的残差变化微小时跳过选定的 Transformer 块前向传播。VAE 解码与异步流水线VAE 解码采用 Matrix-Game 3.0 的 VAE 解码器以百分之七十五的剪枝比例运行将单块解码时间压缩至约零点二五秒。首次迭代后torch.compile 进一步降低后续解码延迟。团队还遵循 ParaVAE 的设计将隐视频主要沿高度方向分片每块 GPU 解码本地补丁最后将解码补丁汇聚为最终视频从而降低单卡峰值内存。在 serving 层面异步流水线并行将第 k 块的 VAE 解码与第 k1 块的控制接收、键值缓存更新及 DiT 去噪重叠执行。这一设计将大部分 VAE 延迟隐藏在扩散计算之后实现连续解码块发射满足实时交互的延迟要求。五、实验评估多维度验证交互能力由于交互式世界模型的评测仍处于探索阶段团队设计了涵盖相机可控性、感知质量、长程行为与记忆一致性的综合评测体系并与 HY-WorldPlay 1.5八亿参数和 LingBot-World一百四十亿参数两个代表性开源世界模型进行了对比。基础评测五秒短片的相机控制与视觉质量基础评测在标准五秒生成视频上进行聚焦相机可控性与视觉质量。相机控制指标沿用 WorldScore 的评测协议但将位姿估计器替换为更精确的 MegaSaM并扩充了评测轨迹集合增加了上仰、下俯与对角移动等在实际交互中常见但在现有基准中代表性不足的相机运动。评测数据覆盖 AI 生成图像、艺术内容与仿真渲染场景等广泛视觉域。视觉质量从成像质量、时间闪烁、运动平滑度、动态程度与转场检测五个互补维度进行评估。此外团队引入了基于多模态大语言模型Gemini-3.1-Pro的伪影检测指标以两帧每秒的频率采样生成视频帧由视觉语言模型输出每帧的二元通过或失败判断重点关注重复肢体、物体瞬间消失与几何穿透等关键缺陷。在综合分数上DreamX-World-1.0-5B 以八十四点七六的成绩领先于 HY-WorldPlay 1.5 的八十点七九与 LingBot-World 的八十点四五。在相机控制单项上DreamX-World 取得七十三点七五的最高分体现了 E-PRoPE 相机条件与强化学习对齐的协同效果。在运动自然度方面受益于 UE 数据引擎中多样化的相机覆盖与基于强制训练的鲁棒时序演化模型生成了更丰富、更具物理合理性的动态内容。图 10DreamX-World-1.0-5B 的定性生成结果。每行展示在不同场景类型与相机控制下从生成视频序列中均匀采样的五帧关键帧。模型在异构场景与风格中均保持了较高的视觉保真度与时序连贯性。长程评测三十秒展开的视觉稳定性长程评测将生成时长扩展至约三十秒考察各指标在长程条件下的表现。DreamX-World-1.0-5B 以七十点四一的综合分数领先于 HY-WorldPlay 1.5 的六十八点八五与 LingBot-World 的六十七点四三。在成像质量与伪影检测两项上该模型取得了最佳成绩表明基于强制训练的架构在长程展开中比规模更大的竞争模型维持了更高的视觉保真度。记忆评测基于重访的一致性验证现有世界模型基准主要评估短期属性很少要求智能体返回先前访问过的区域。在实际交互中用户不可避免地会重访 earlier 位置因此长程空间记忆是一个关键但长期缺乏评测的能力维度。团队通过重访一致性检测来解决这一评测空白。首先构建明确诱导重访的相机轨迹包括三种互补模板外返路径近似相同朝向返回测试外观稳定性、闭合环路返回起始位姿测试全局布局一致性以及平移旋转路径引入朝向变化测试视角变化下的地点身份保持。从相机外参中提取位置与偏航角设定角度阈值两度、距离阈值零点一米的重访判定条件并要求最小时间间隔至少为视频总长度的百分之二十。评测指标涵盖五个层次像素级保真度PSNR、SSIM测量严格的低级一致性感知一致性LPIPS捕捉人类观察者视角下的相似度语义身份DINO-Sim通过冻结的 DINOv2 特征计算余弦相似度地点识别VPR-Sim使用 MutualVPR 的全局描述子降低相机控制误差带来的混淆几何结构SP-Match通过 SuperPoint 关键点与 LightGlue 匹配计算匹配比率。所有指标以相对于非重访基线对的增益形式报告以排除慢速相机运动带来的虚假高分。在十秒生成视频的记忆一致性评测中DreamX-World-1.0-5B 在像素级、感知、语义与地点识别四项指标上均取得了最高增益展现了在多个抽象层次上更强的记忆能力。HY-WorldPlay 1.5 在几何结构匹配与视频时序平滑度上领先LingBot-World 在各重访指标上的增益相对较低。图 11三种评测轨迹模板的鸟瞰图。颜色编码从起始蓝色到结束红色的时间进程箭头指示相机运动方向。a外返路径横向平移后反向返回保持相同朝向。b平移旋转结合平移与朝向变化从不同偏航角重访。c闭合环路沿矩形路径回到精确起始位姿。人类偏好研究盲测侧向对比为了补充自动指标团队开展了盲测侧向对比实验。每轮对比在相同提示、初始条件、相机或动作轨迹与播放设置下将 DreamX-World-1.0-5B 与一个基线模型匿名呈现左右顺序随机化。评估者在整体偏好、相机控制、视觉质量与伪影检测四个维度上报告胜负或平局。结果显示DreamX-World-1.0-5B 在整体偏好上以五十七点五对二十八点一战胜 HY-WorldPlay 1.5以六十一点九对二十七点五战胜 LingBot-World。在视觉质量上该模型分别取得五十七点五与六十一点三的胜率在伪影检测上胜率分别为五十九点四与五十六点二。相机控制维度的判断较为接近平局率较高表明各系统在侧向观看下的感知可控性处于可比水平。人类评测结果与自动评测一致DreamX-World-1.0-5B 在感知质量与伪影鲁棒性上取得了显著提升同时保持了具有竞争力的相机控制能力。图 12人类偏好研究对比结果。每根水平堆叠条形图从 DreamX-World-1.0-5B 的视角报告胜率、平局率与败率。该模型在整体偏好、视觉质量与伪影检测上获得了更高的偏好度相机控制维度则呈现较多平局表明感知可控性处于可比水平。六、技术总结与未来展望DreamX-World 1.0 的核心技术经验在于世界建模是一个全栈问题数据构建、训练策略、评测体系与推理加速必须从全局视角统一组织与优化。单一环节的孤立改进难以支撑实用的交互式世界模型只有在数据覆盖、条件机制、长程稳定性与系统效率上协同发力才能建立可部署的交互基础。在数据层面多源融合策略打破了合成数据与真实数据之间的壁垒通过统一的几何处理与质量过滤流程实现了跨视觉域的一致训练表示。在模型层面E-PRoPE 以空间降采样的轻量设计保留了投影几何的精确性记忆条件机制通过几何引导的检索与误差注入训练赋予了模型跨越时间窗口的场景持久化能力。在训练范式层面渐进式解锁策略使模型从相机控制到事件交互再到长程生成逐步扩展能力边界而不破坏已获得的先验。在推理层面蒸馏、量化、并行化与流水线优化的组合将理论能力转化为可实时交互的流式服务。从评测结果来看五十四亿参数的 DreamX-World-1.0-5B 在综合分数上超越了八亿参数的 HY-WorldPlay 1.5 与一百四十亿参数的 LingBot-World这一结果表明架构设计与训练策略的精细化调整能够在参数效率上带来显著收益。特别是在长程展开与记忆一致性方面该模型展现了超越规模更大竞争模型的稳定性验证了全栈优化路线的有效性。展望未来两个方向具有特别的研究价值。其一以角色为中心的世界模型重点在于维持持久的角色身份、协调角色动作与自由移动相机的关系并支持长程多角色交互。其二原生视听世界模型联合生成同步的语音、环境音效与动作相关音频同时将声音作为事件与场景动态的交互信号。结合更强的记忆机制与物理推理能力这些扩展将推动世界模型向更具具身性、表现力与沉浸感的方向演进。高效可控的世界生成多源数据系统与 E-PRoPE 相机条件机制在降低约百分之三十推理延迟的同时保持了与完整 PRoPE 相当的轨迹跟随性能。长程生成与场景持久化几何引导的记忆检索与自回归蒸馏、长程展开训练相结合显著降低了跨生成块的风格与颜色漂移强化学习后训练进一步改善了蒸馏模型的相机控制与视觉质量。实时流式部署混合精度 DiT 执行、残差复用、剪枝 VAE 解码与异步流水线并行在八块 RTX 5090 上达到最高十六帧每秒的生成速度。具身智能世界模型blog https://jinxindeep.github.io/blog/blog2026.html