论文阅读笔记 | Thinking in Frames: How Visual Context and Test-Time Scaling Empower Video Reasoning
一、Motivation1.1 多模态大模型在空间推理上的瓶颈多模态大语言模型MLLMs在视觉语义理解上取得了显著成功但在具身空间推理领域存在根本性局限。瓶颈在于推理模态的介质MLLMs 通过文本描述来推理而文本对于精细的几何上下文和物理动态来说既低效又不精确。举一个直观的例子用文字精确描述将一个三角形顺时针旋转37度后平移到轮廓左上角几乎不可能做到毫无歧义但如果直接用视频展示这个过程信息传达就自然且准确得多。1.2 已有视频推理工作的不足已有的视频推理工作如 Visual Planning、Thinking with Video 等存在三个主要问题只关注低视觉变化的离散任务大部分工作集中在迷宫导航这类任务上——背景不变只有一个小图标在移动。这回避了视频生成模型在高视觉变化场景下维持几何一致性的核心挑战。局限于分布内评估只在训练时见过的迷宫尺寸和路径长度上测试没有系统性地考察模型的泛化能力。缺乏对 test-time scaling 的探索LLM 领域已经发现更长的推理链更多 token能提升推理性能但视频生成领域是否存在类似现象尚未被研究。1.3 本文的切入点基于以上不足论文提出了两个核心研究问题视频生成模型能否在**分布外OOD**设置下泛化增加生成帧数推理预算能否像 LLM 中更长的 CoT 一样提升推理性能二、Related Work2.1 多模态规划现有的多模态规划方法大致分为三条路线工具增强路线利用 MLLM 调用外部工具如符号编程语言作为草稿板、坐标表示来增强感知锚定、调用其他生成模型等将推理过程通过交错的文本-图像序列来表达。原生多模态生成路线设计能直接生成多模态内容的 MLLM 架构包括图像序列生成如 VPRL和交错的多模态 trace 生成如 MVoT。潜在表示路线在隐空间中进行推理但通常缺乏显式可视化的视觉思维。这些工作的共同局限是大多聚焦于分布内设置和结构化规划任务对 OOD 泛化的研究非常有限。2.2 视频生成视频生成模型传统上被视为媒体创作工具。近期开始有研究将视频生成模型用作视觉推理器但主要集中在迷宫导航这类低视觉变化的离散规划任务上未涉及连续操作、高视觉变化的场景。2.3 测试时扩展Test-Time Scaling在 LLM 领域增加推理时的计算量更长的 CoT 或多次采样聚合已被证明能提升性能。但在视觉领域这种 test-time scaling 现象尚未被系统研究。已有工作仅关注通过并行采样提升视频的感知质量视觉效果而非视觉规划或推理能力。本文声称是首个在视觉规划任务中发现 test-time scaling law 的工作。三、Method3.1 形式化定义论文将视频生成形式化为一个视觉规划问题给定初始状态图像sstarts_{start}sstart、目标规范ggg如目标图像或模式、以及一组隐式物理约束ccc目标是生成视频序列V{v0,v1,...,vT}V \{v_0, v_1, ..., v_T\}V{v0,v1,...,vT}其中v0sstartv_0 s_{start}v0sstart。生成模型Pθ(V∣sstart,g)P_\theta(V | s_{start}, g)Pθ(V∣sstart,g)充当规划策略帧的时间演化vt→vt1v_t \rightarrow v_{t1}vt→vt1对应规划的执行。与符号规划器输出离散动作不同视频模型输出的是连续的高维密集转换需要隐式学习潜在规则和因果动态。3.2 两种推理体制论文设计了两个对比鲜明的任务来覆盖视觉推理的不同方面维度迷宫导航 (MazeNavigation)七巧板拼图 (TangramPuzzle)视觉变化程度低只有小图标移动高整个画面持续变化动作空间离散上下左右连续旋转平移核心挑战长期逻辑一致性空间几何一致性迷宫导航沿用已有工作的标准设定智能体沿迷宫白色路径从起点滑动到终点红色圆圈不能穿墙。评估模型保持地图结构长期一致性和执行无碰撞路径规划的能力。七巧板拼图新提出给定一个目标轮廓将7块几何拼片精确地旋转、平移并填入轮廓中。这个任务的难度不在路径长度固定为7块而在于几何保持——在连续操作过程中整个场景都在变化模型需要保持每块拼片的形状、颜色不变形。针对七巧板设计了三种变体来控制视觉上下文的可用程度Fade-In拼片在目标位置逐个淡入初始画面中看不到拼片形状无几何先验。Rotation拼片在左侧栏以随机朝向列出模型需要先旋转再平移。Translation拼片在左侧栏以正确朝向列出模型只需平移。3.3 模型与训练主干模型Wan 2.2 TI2V 5B开源的文本图像到视频的 diffusion 模型。训练方式使用 LoRA 微调训练 20 个 epoch。训练数据全部由程序自动构造。迷宫导航使用搜索算法生成 4,000 个实例3×3 到 6×6 各 1,000 个最优路径长度 2-12 步配合 40 种不同视觉图标。七巧板基于 Kilogram 数据集的 692 个轮廓图每个有唯一的标准拆分方案。对比基线文本推理GPT-5.1、GPT-5.2零样本、Qwen3-VL-8Bfine-tune图像推理VPRL-7B图像序列生成、Qwen-Image-Edit图像编辑、Nano Banana视频推理Wan 2.2 TI2V 5B本文方法3.4 评估指标迷宫导航Exact Match (EM)路径完全正确的比例Progress Rate (PR)正确完成路径的百分比七巧板拼图基于最终帧的像素级评估Strict Goal Completion所有7块都正确放置无重叠、无变形、无颜色幻觉Progress Goal Completion正确放置的拼片比例Boundary Adherence (IoU)生成拼片与目标轮廓的交并比四、Experiments4.1 分布内结果迷宫导航视频模型碾压文本模型模型输出模态3×3 EM4×4 EM5×5 EM6×6 EMGPT-5.1文本15.611.68.46.8GPT-5.2文本18.413.210.08.4Qwen3-VL-8B (fine-tuned)文本89.269.644.829.6VPRL-7B图像94.072.066.062.0Wan 2.2 TI2V 5B视频96.098.098.092.0GPT-5 系列在零样本设置下表现极差不到 20%即使是 fine-tuned 的 Qwen3-VL 在 6×6 迷宫上也只有 29.6%。而视频模型在所有尺寸上都达到 92% 以上优势巨大。七巧板视觉上下文是关键设定Wan 2.2 (Strict GC)Qwen-Image-Edit (Strict GC)Qwen3-VL 文本 (Strict GC)Fade-In无几何先验0.8%31.0%-Rotation有形状朝向随机22.4%45.2%14.4%Translation有形状正确朝向68.0%85.7%28.0%三个关键观察Fade-In 几乎完全失败0.8%没有视觉上下文中的几何先验视频模型无法凭空想象出拼片形状。视觉上下文越丰富表现越好Translation提供形状朝向远好于 Rotation只提供形状证明视觉上下文作为几何控制信号的重要性。文本推理在连续操作中彻底失败Qwen3-VL 即使 fine-tune 后也难以用文字精确描述连续的旋转和平移坐标。4.2 分布外OOD泛化迷宫空间和时间维度的泛化设定EMPR分布内 (3×3-6×6)96.099.0OOD 迷宫尺寸 (7×7)90.092.3OOD 迷宫尺寸 (8×8)80.083.6OOD 路径长度 (5×5 长路径)44.055.2OOD 路径长度 (6×6 长路径)42.051.6OOD 两者都超出 (7×7 长路径)40.051.1OOD 两者都超出 (8×8 长路径)32.047.1空间泛化表现不错7×7 仍有 90%性能下降是平缓的而非灾难性的。但时间维度更长路径的泛化下降更明显降至 40% 左右——这为后面的 test-time scaling 实验提供了动机。视觉外观泛化换图标几乎不影响将智能体图标替换为训练时从未见过的图标后性能几乎没有下降如 3×3: 96.0% → 95.5%。这说明模型学到的是与视觉外观解耦的规划算法而不是记忆特定像素的转换。七巧板泛化到新轮廓在 Translation 设定下未见轮廓60.8%与已见轮廓68.0%的表现相当证明模型没有死记解法而是学到了泛化的几何拼合和无碰撞滑动的概念。4.3 视觉 Test-Time Scaling这是论文最核心的发现。更多帧 更好的 OOD 泛化在迷宫导航中增加生成帧数从 61 帧到 121 帧OOD 性能持续提升OOD 迷宫尺寸从约 75% 提升到约 95%OOD 路径长度从约 30% 提升到约 70%OOD 两者从约 20% 提升到约 55%但继续扩展到 141 帧时性能反而下降作者认为这是模型位置编码的架构限制而非推理能力本身的瓶颈。控制变量实验每步分配更多帧引入缩放因子 κ每个离散步骤分配的帧数测试 κ ∈ {5, 7, 9, 11}。结果显示更多帧/步确实带来更好的性能排除了只是视频更长所以恰好更好的解释。涌现的自我纠正行为在高帧数下模型出现了训练数据中不存在的行为智能体走错方向后会停下、回头、纠正路线。这暗示模型不是简单检索记忆的路径而是在某种程度上模拟轨迹中间帧帮助纠正规划。但 scaling 不适用于七巧板在七巧板任务中增加帧数不会提升性能。原因是七巧板的瓶颈在于几何一致性的维持——更长的视频意味着更多帧需要保持拼片形状不变形这反而增加了难度。迷宫的 scaling 有效是因为背景静态、视觉变化小七巧板的全局视觉变化太大更多帧带来的更多思考时间被更多变形机会抵消了。五、Conclusion视频生成模型不仅是媒体工具也是视觉推理引擎在离散规划迷宫和连续操作七巧板上都展现了推理能力。视觉上下文作为控制信号比文本指令更有效能实现对未见视觉模式的零样本泛化。视觉 test-time scaling增加帧数作为推理预算能显著提升 OOD 任务的表现类似于 LLM 中更长的 CoT。瓶颈明确当前视频生成模型在高视觉变化场景下维持几何一致性仍是根本挑战test-time scaling 在这类场景下不适用。六、个人思考6.1 视频模型到底学到了什么论文中 OOD 泛化实验最有价值的启示在于模型确实学到了某种超越像素记忆的抽象规则。换图标不影响性能、泛化到更大迷宫性能平缓下降——这些都说明模型学到了沿路走、不穿墙的抽象概念而非蓝色星星从这个像素移动到那个像素的具体模式。但这并不等于模型会推理。一个更谨慎的说法是模型从大量示范中归纳出了视觉规划的一般性模式。这种归纳能力很有价值但跟理解迷宫的拓扑结构然后搜索最短路径仍然是不同层面的事情。6.2 Test-Time Scaling 的本质论文将更多帧类比为更长的 CoT这个类比很有启发性但需要审慎对待。在 LLM 的 CoT 中每个新 token 是模型基于之前所有 token 自回归生成的前面的推理步骤显式影响后面的推理。但在 diffusion model 中整个视频是联合去噪生成的并非逐帧自回归。那为什么更多帧确实有效一个可能的解释是更多帧给 diffusion 过程提供了更精细的分辨率来表达复杂轨迹。就像用更多像素可以画出更精细的曲线一样更多帧让模型可以用更小的步幅来表达更复杂的路径从而降低了每一步的难度。这与其说是更多思考时间不如说是更高的输出分辨率。论文中自我纠正行为的观察确实有趣但仅基于定性示例。如果这种行为是系统性的需要更多定量分析来证明它不是偶然的生成噪声碰巧看起来像纠正。6.3 七巧板任务的价值与局限七巧板是本文最有原创性的贡献。它揭示了一个重要事实当前视频生成模型在高视觉变化场景下维持几何一致性仍是根本挑战。这比迷宫任务更能暴露模型的真实能力边界。但七巧板任务也有局限Fade-In 设定下 0.8% 的准确率说明没有视觉上下文时模型几乎完全无法工作。这意味着模型的推理在很大程度上依赖于初始画面中已经包含的信息拼片的形状和朝向而非自己想出解法。Translation 设定下 68% 的准确率很大程度上是因为正确朝向已经给定模型只需学会把东西移到对的位置——这更接近视觉模式匹配而非真正的空间推理。本文仅为个人阅读理解如有不当之处欢迎指正。