这项由哈佛大学牵头联合麻省理工学院、约翰斯·霍普金斯大学、卡内基梅隆大学、波士顿大学、谷歌及MIT-IBM Watson AI实验室多机构完成的研究于2026年6月25日以预印本形式发布编号为arXiv:2606.27537。研究的核心成果是一个名为MemoBench的评测基准专门用来衡量视频生成模型在物体消失再出现场景下的记忆能力。假设你正在拍一段厨房视频。镜头先对准炉子上慢慢沸腾的汤锅然后你转过身去拿一根勺子镜头跟着你转向了餐柜等你再转回来屏幕里的汤锅还在吗颜色对不对水位有没有变化对于真实的摄像机这个问题简单到可笑——因为物理世界的汤锅就在那里无论镜头看不看它它都持续沸腾着。但对于一个用AI生成视频的软件来说这个看似幼稚的问题却是一道至今没有模型能满分通过的难题。正是为了系统地测量这道难题研究团队构建了MemoBench。这个基准数据集由360段高清视频构成每一段都遵循同一个剧本结构目标物体先在画面中可见随后摄像机转向别处让物体消失最后摄像机转回来物体重新出现。评测的核心问题就是重新出现的物体是不是那个应该出现的样子一、为什么AI在转个身之后就会忘事回到那个厨房场景。当AI视频模型工作时它的思维方式其实更像一个画家而不是一台摄像机。真实摄像机忠实记录光信号AI模型则是根据已经看到的画面推测并画出下一帧应该是什么样子。这个推测过程依赖大量的统计规律——模型在海量视频数据上学习过汤锅通常长什么样、厨房通常有什么布局然后用这些记忆来填充新的帧。问题在于当镜头转走之后模型就失去了直接参考的视觉输入。它不再能看到那口锅只能凭借对之前画面的印象来推测锅在不可见时发生了什么变化以及重新入镜时应该呈现什么状态。这种在没有直接视觉输入的情况下维持对物体状态的认知能力在认知科学里有一个专业名称叫做客体永久性——这是人类婴儿在出生后几个月内就会发展出的能力知道玩具被布盖住了依然存在。然而当前最先进的AI视频生成模型在这个人类婴儿轻松掌握的能力上表现出令人担忧的缺失。现有的视频生成评测基准大多只关注镜头里能看到的东西比较两帧之间的颜色是否一致、人物动作是否流畅。少数测试会让物体短暂离开画面但那些场景里物体消失期间什么都不变化——环境是静止的。而MemoBench专门针对的是一个更贴近现实的挑战物体消失期间世界还在继续变化。那口锅里的汤在镜头看不见它的时候还是在沸腾的。二、360段视频构成的消失与重现考卷MemoBench的360段视频分为两大类各有侧重共同构成一份全面的考卷。合成数据集包含196段视频全部在虚幻引擎5这款专业游戏开发软件中制作。研究团队在14个不同的场景分类下搭建了五类虚拟环境涵盖城市街道、农场、日式庭院等多种风貌。在每个场景里一个有动画效果的目标物体沿预设路径运动摄像机则跟随一个第一人称观察者按照剧本走先面向目标物体可见阶段再做一个转头、掉头或U形弯消失阶段最后回到原来的方向重现阶段。这批视频的最大优势在于精准可控每一帧都同步导出了RGB图像、精确深度图、相机内外参数为评测提供了扎实的几何基准。真实世界数据集包含164段视频覆盖7大类共30种物理状态变化过程。研究团队在受控的室内环境中录制了各种化学与物理变化溶解固体溶于水中、燃烧蜡烛或纸张被点燃、扩散与吸收墨水在水中晕开液体渗入布料、化学反应颜色变化、气体产生、粘性流动倒液体、滴水、软泥变形、泡沫与气泡碳酸饮料起泡、洗洁精泡沫消散以及物理形变压缩、撕裂、弯曲。摄像机同样执行三段式动作先对准变化中的物体然后摇开再摇回来。这批视频的核心价值在于材料多样性——游戏引擎无法精确模拟粘度、弹性、热传导等真实物理属性只有真实录像才能捕捉这些细腻的状态变化。每段视频都由人工标注了两个关键时间节点目标物体完全离开画面的帧以及目标物体完全重新进入画面的帧。这两个节点将整段视频切分为三个评测阶段研究团队在不同阶段分别衡量模型的表现。三、测量AI记忆力的工具箱给AI的记忆力打分不是一件可以凭直觉完成的事。研究团队设计了一套由自动化指标和大语言模型问答两部分组成的评测体系两者互补。自动化指标这一侧研究团队首先关注整体视频质量通过两个不依赖参考视频的评分工具——LAION美学评分和CLIP-IQA图像质量评分——来衡量生成画面的视觉观感然后将这两个分数平均映射到0到100的范围内。运动流畅度的测量借助了RAFT-Large光流算法这个工具专门用来分析两帧之间的像素移动情况。简单说就是用第一帧预测第二帧应该长什么样再对比预测和实际的差距——差距越小运动越流畅。注意这个指标只在物体可见阶段和重现阶段计算消失阶段被有意排除在外。物体身份一致性的测量使用了DINOv2这个视觉特征提取工具。具体做法是把每帧图像分成许多小块提取每块的视觉特征向量然后计算重现阶段的帧与视频第一帧之间最相似的那40%小块的平均相似度。之所以选相似度最高的40%是为了聚焦于画面中持续存在的前景物体而不是整体场景。计算时既考虑所有帧的平均相似度也特别关注最差帧的最低相似度两者按7比3加权合并这样即使偶尔出现一帧极差表现也无法被整体平均掩盖。三维几何一致性则通过Depth Anything V2深度估计模型实现。这个模型能从单张图片估算出每个像素距离镜头的远近生成深度图。研究团队比较相邻帧的深度图是否相似——如果AI在生成过程中悄悄改变了场景的三维结构深度图就会出现跳变这个指标就会下降。在这些通用指标之外研究团队还专门为消失再重现这一核心场景设计了专属指标。其中最关键的叫做物体重现分数英文缩写ORS。这个分数回答一个最基本的问题当摄像机转回来的时候那个目标物体有没有出现在画面里评测方法是用SAM-3这个文字驱动的分割模型用目标物体的文字描述去检测每一帧画面。如果检测到了合理大小的目标物体就记录检测置信度最终将成功检测帧的比例乘以平均置信度得出ORS分数。分数高说明模型在重现阶段能稳定地生成可辨识的目标物体分数低则意味着物体消失了、变得面目全非或者直接融入背景。对于有真实视频参考的样本研究团队还在三个阶段分别计算像素级保真度包括峰值信噪比PSNR、结构相似度SSIM以及基于深度神经网络的感知距离LPIPS。通过对比可见阶段和重现阶段的分数差异可以直观看出模型在物体重新入镜时保真度下降了多少。摄像机轨迹控制能力同样被纳入评测。研究团队用MapAnything工具从生成视频中估算每帧的摄像机位姿与真实轨迹对比旋转误差——因为消失再重现剧本的核心就是摄像机转向控制旋转角度的能力是衡量模型能否真正执行预定轨迹的关键。除了这些数值化的自动指标研究团队还构建了一套大语言模型驱动的问答评测体系。这套体系的工作流程像是一个三轮筛选的考官系统。首先大语言模型根据视频的文字提示和第一帧图像生成24道是非题涵盖四个维度对指令的执行情况、物体与背景的一致性、记忆连续性以及物理合理性。每个维度6题且刻意混合正向题答是代表通过和反向题答是代表失败以避免模型一味答是就能得高分的情况。接下来进入双重过滤先把这些题目拿去看真实视频删掉模型答错的题目再把剩余题目拿去看人工制作的失败案例删掉那些无法识别出已知错误的题目。经过人工审核确认题目清晰无歧义之后最终的题库才被用于评测每个AI模型。为了验证这套问答评测的可靠性研究团队邀请了30位博士研究员和资深AI工程师对真实视频进行人工答题结果人类与大语言模型的答题一致率高达92.9%统计学上用于衡量一致程度的Cohens κ系数达到0.85属于非常高的一致水平。这说明这套问答体系的判断标准与人类直觉高度吻合。四、十个模型的大考——没有人能满分研究团队对10个当前最先进的视频生成模型进行了全面评测这些模型分为三大类。第一类是摄像机可控的图生视频模型简称CI2V。这类模型接受第一帧图像、文字描述和具体的摄像机运动轨迹作为输入理论上能够按照指定路径移动镜头。参评的五个模型分别是LingBot-World、Wan2.2、FantasyWorld、HunyuanWorldPlay和HunyuanGameCraft。第二类是基于三维重建的模型包括Matrix-Game 2.0和Stable Virtual Camera。这类模型先从第一帧图像构建一个三维场景表示然后从指定的摄像机角度渲染新视角。第三类是普通的图生视频模型不接受摄像机轨迹控制只根据图像和文字描述生成视频。参评的三个模型是Open-SoRA、LTX-Video和CogVideoX。考试结果揭示了几个清晰而有趣的规律。Stable Virtual Camera在摄像机控制和像素保真度上领先因为它是直接从三维坐标渲染图像轨迹精度由数学保证。但它的视觉质量评分却相对偏低原因在于渲染过程中会出现模糊、接缝和深度填补错误等视觉瑕疵。Matrix-Game 2.0同样基于三维表示但它通过动作条件而非直接位姿输入来控制视角导致摄像机轨迹精度大幅下降只相当于普通图生视频模型的水平。这说明决定轨迹控制精度的关键不是有没有三维表示而是这个三维信息有没有被直接用于控制摄像机角度。LTX-Video在通用视频质量的三项指标中位居前列物体重现分数也达到了0.330看起来相当不错——但这背后藏着一个隐患。LTX-Video几乎不移动摄像机当连续帧之间几乎一模一样时流畅度自然满分深度一致性自然满分物体一致性也自然满分甚至物体重现分数也会虚高因为目标物体根本就没有真正离开过画面。这就像一个考试作弊策略——通过偷懒回避难题来获得高分但实际上根本没有解决摄像机转身后还能记住物体这个核心挑战。在真正执行了摄像机轨迹的模型中HunyuanWorldPlay的物体重现分数最高达到0.582LingBot-World紧随其后在像素保真度指标上领先所有CI2V模型。然而即便是最好的成绩距离可靠还相当遥远——没有任何一个模型的物体重现分数超过0.6意味着即使是最优秀的模型在重现阶段也有相当比例的帧无法可靠地呈现目标物体。摄像机控制能力本身并不能自动带来更好的物体记忆。五个CI2V模型都接受摄像机轨迹输入但它们的物体记忆表现差距悬殊FantasyWorld的视觉质量高于LingBot-World但物体重现分数却低得多。这说明模型在学习如何跟踪摄像机轨迹的同时并没有自动发展出维持被遮挡物体状态的能力。物体永久性必须作为一个独立目标在模型设计和训练中被专门处理而不是作为其他能力的自然附产品。大语言模型问答评测进一步揭示了自动化指标遗漏的问题。Matrix-Game 2.0在自动化指标中视觉质量最高但在问答评测的物体与背景一致性、物理合理性两个维度上垫底。这是因为三维渲染模型产生的扭曲接缝、纹理闪烁等视觉错误在数值质量分数上体现不明显但会被理解场景语义的大语言模型所察觉和惩罚。在问答评测的记忆连续性这个最核心维度上所有模型的表现都令人担忧。分数最高的LTX-Video同样因摄像机不动而存在虚高嫌疑在真正执行轨迹的模型中HunyuanWorldPlay以55.6分最高但这意味着将近一半与记忆相关的问题还是没能答对。问答评测的物理合理性维度则由HunyuanWorldPlay以63.6分领先紧随其后的是LTX-Video的63.5分和HunyuanGameCraft的61.0分。五、两份失败日记合成场景与真实场景的不同考验研究团队还对LingBot-World进行了专项失败分析将观察到的错误分为六类目标物体完全消失、物体外观漂移变样、物体状态被重置回消失前的样子、物体发生瞬移、背景产生幻觉般的错误内容以及摄像机轨迹偏离预期。在合成数据集上背景幻觉是最常见的失败共出现131次目标物体消失次之有85次摄像机偏移出现72次物体瞬移出现54次外观漂移出现49次状态被重置则只有5次。在真实世界数据集上失败模式有所不同外观漂移跃升为最常见问题出现83次背景幻觉次之57次摄像机偏移35次目标消失15次物体瞬移13次状态重置只有2次。这种差异反映了两类数据的本质特点。合成场景的摄像机运动更复杂U形掉头、自由轨迹让背景随之剧烈变化模型容易在大角度旋转后忘记背景应该是什么样子于是凭空生成了看似合理但实际错误的场景。真实世界场景的摄像机运动相对简单主要是水平平移和垂直倾斜但目标物体会发生真实的物理状态变化。模型虽然能记住物体大概在哪里却无法准确把握物体在消失期间经历了多少状态变化结果生成的重现物体外观与真实状态不符产生身份漂移。六、细节中的规律——消融实验揭示的深层逻辑研究团队还进行了一系列针对性的对照实验验证各项设计选择的合理性并挖掘更深层的规律。物体重现分数的鲁棒性测试表明这个指标对检测区域的阈值设置相当不敏感在八种不同的覆盖率阈值配置下LingBot-World的分数最大波动只有0.013Stable Virtual Camera只有0.020。但提示文字的措辞非常重要使用完整的目标物体描述与稍加改写的表达差异很小但一旦只使用物体名称的第一个词分数就会急剧下降。这说明该指标确实在衡量语义层面的物体识别而不是简单的纹理匹配。进一步按物体尺寸分层大型物体占画面面积超过10%得到更高的物体重现分数中型和小型物体分数依次下降。按摄像机旋转角度分层旋转超过120度的重现场景下Stable Virtual Camera的物体重现分数接近零——这意味着在极大角度转身后三维渲染模型在重建场景时已经出现严重失真目标物体实际上无法被可靠识别。针对初始帧条件与模型参数规模的对比实验非常有启发性。研究团队测试了Wan2.2的5B和14B两个版本分别在有无第一帧图像条件的情况下对比表现。结论是提供第一帧图像对GT对齐保真度的提升幅度远大于把模型从50亿参数扩大到140亿参数。5B模型加入第一帧图像后PSNR提升了4.2分贝14B模型加入后提升了4.7分贝。相比之下参数规模翻近三倍带来的改善要小得多。然而14B的无条件版本不提供第一帧在自我一致性指标上——物体一致性、运动流畅度、几何一致性——反而更高。这说明自我内部一致和与真实世界一致是两件不同的事一个模型可以生成自圆其说的流畅视频但它的内容与真实应有的状态完全不符。这个发现为同时使用GT对齐指标和自我一致性指标的设计选择提供了实验支撑。过滤掉摄像机运动不足的样本只保留摄像机旋转角度超过90度的片段重新评测排行榜发生了显著变化。Stable Virtual Camera的摄像机控制分数达到92.43的峰值但物体重现分数跌至0.012几乎为零。LingBot-World的摄像机控制分数75.04物体重现分数0.281在所有真正执行轨迹的模型中兼顾两端表现最为均衡。LTX-Video在这个筛选条件下的物体重现分数仍有0.248但那是因为部分样本中它依然没有充分移动摄像机。这一结果揭示了一个隐藏的权衡关系准确跟随摄像机轨迹的能力和维持物体记忆的能力在现有模型中存在明显的张力两者很难同时做好。归根结底MemoBench用一套精心设计的测试体系揭示了当前AI视频生成领域一个核心的未解难题模型可以生成流畅的视频可以追踪摄像机的移动可以维持短时间内画面内容的一致性但一旦目标物体从画面中消失哪怕只是短暂地消失模型就会丢失对那个物体的记忆。重新入镜的物体可能变了样可能消失了可能被重置回初始状态也可能根本就是从虚空中重新生成的一个相似但并非同一个物体。这对于机器人、自动驾驶、游戏世界建模、增强现实等众多真实应用来说是一个无法回避的障碍。一个自动驾驶系统的视觉模块必须在路口行人走到视野盲区后仍然记得那个人在哪里、往哪个方向走、走得多快。一个机器人助手必须在转头拿工具的一两秒后仍然记得工作台上那颗螺丝的位置有没有变化。现有的模型在MemoBench这道题上还远远没有达到这些应用所需要的可靠水平。研究团队将数据集、代码和实时排行榜公开期待这个基准能够成为推动该领域研究的共同标尺。感兴趣的读者可以通过arXiv编号2606.27537查阅完整论文获取全部技术细节和实验数据。QAQ1MemoBench评测的核心指标ORS是如何判断物体有没有在画面里出现的AORS使用SAM-3这个文字驱动的分割模型在重现阶段的每一帧图像上用目标物体的文字描述进行检测。检测到符合合理面积范围的物体就算成功并记录置信度分数。最终ORS等于成功检测帧比例乘以平均置信度数值越高说明模型越可靠地让物体在重现阶段现身。Q2为什么LTX-Video在多项指标上排名靠前却不算真正解决了记忆问题ALTX-Video的高分主要源于它几乎不移动摄像机。当相邻帧内容几乎完全一样时流畅度、几何一致性和物体一致性这些指标自然都会很高物体也从未真正消失所以重现分数也虚高。这就像考生通过跳过难题来保住简单题分数但MemoBench设计的考卷专门考的就是那道转身之后还记不记得的难题LTX-Video实际上回避了这道题而非解答了它。Q3MemoBench的合成视频和真实视频在测量目的上有什么区别A合成视频侧重空间多样性提供了精确的三维几何信息、摄像机参数和深度图适合评测模型在复杂摄像机轨迹下的空间记忆能力。真实视频侧重材料多样性涵盖游戏引擎无法精确模拟的粘度、弹性、热传导等真实物理变化适合评测模型对真实物质状态演化的记忆能力。两者共同覆盖了空间记忆和状态记忆这两个不同维度的挑战。