论文阅读笔记 | Thinking with Video: Video Generation as a Promising Multimodal Reasoning Paradigm
一、Motivation1.1 现有范式的局限AI推理经历了两个重要阶段Thinking with TextChain-of-Thought (CoT) 显著提升了LLM的推理能力但纯文本无法处理空间、视觉相关的推理任务。Thinking with ImagesOpenAI o3等模型在CoT中引入图像裁剪、缩放、旋转弥补了视觉推理的不足。然而这两种范式仍存在根本性缺陷静态约束图像只能捕捉单一时刻无法表达动态过程、时间变化或连续变换。例如画一条光线的反射路径本质上是一个动态过程静态图像难以自然表达。模态分离文本和视觉仍作为两个独立模态处理缺乏真正统一的多模态理解和生成框架。1.2 为什么是视频视频天然具备两个关键优势动态推理 (Dynamic Reasoning)可以可视化动态过程例如画线来解决空间推理题展示连续变换。多模态融合 (Multimodal Fusion)视频帧中可以嵌入文字配合音频输出实现文本和视觉在时间维度上的自然对齐更贴近人类想象和心理模拟的认知过程。因此作者提出“Thinking with Video”,利用 Sora-2 等视频生成模型以视频帧作为统一媒介进行多模态推理。二、Related Work2.1 视频生成模型视频生成领域正在快速发展。从早期的 Sora被称为视频领域的 “GPT-1 时刻”到 Sora-2模型能够生成更逼真、可控、物理准确的视频甚至包含同步对话和声音效果。其他闭源模型如 Runway Gen-3、Pika Labs、Luma AI、Google Veo 系列也在推动行业发展。开源方面则有 Stable Video Diffusion、Hunyan-Video、Wan 系列等。2.2 推理范式迁移Thinking with Text: CoT 及大规模强化学习如 DeepSeek-R1促使 LLM 进行深度推理。Thinking with Images: o3/o4-mini 在 CoT 中原生地裁剪、缩放和旋转图像Nano Banana 等模型可以在图像中生成嵌入文字。统一多模态模型: Emu3.5、Lumina-DiMoo 等模型尝试通过文本-图像交错推理实现 “Thinking with Images”。2.3 视频生成推理评估已有工作如 Wiedemer et al. 和 Guo et al.开始探索视频生成模型的推理能力但存在三个不足(1) 仅关注视觉推理未涉及文本推理(2) 评估样本量有限缺乏统计鲁棒性(3) 缺少与 SOTA VLM 的系统性对比。本文在这三个方面进行了补充。三、Method3.1 VideoThinkBench 基准构建作者构建了VideoThinkBench包含4,149 个测试样本覆盖五种核心推理能力能力层次任务类型样本数说明几何直觉目测谜题 (Eyeballing Puzzles)1,05021种几何题型分为Point/Line/Shape三类视觉模式归纳视觉拼图 (Visual Puzzles)496改编自PuzzleVQA含对称/渐变/组合三类抽象规则归纳ARC-AGI-21,000少样本抽象网格变换推理空间规划与搜索迷宫 (Mazes)150三种形状正方形/六边形/圆形语言概念理解与推理文本为主任务1,453改编自GSM8K、MATH、MMLU、MMMU等视觉为主任务目测谜题自主设计的21种几何推理题如找圆心、画切线、光线反射等每题50个样本多选题形式可自动化批量生成和验证。视觉拼图改编自 PuzzleVQA包含颜色对称、渐变感知、形状组合等10种题型。ARC-AGI-2从示例中归纳变换规则并应用到新输入测试少样本归纳推理能力。迷宫从起点到终点画路径不能穿墙。文本为主任务将已有基准的题目显示在参考图像中提示模型在视频中展示书面解题过程并通过音频说出最终答案。涵盖纯文本数学推理: GSM8K, MATH-500, AIME24/25纯文本通识推理: BBH, MMLU, MMLU-Pro, GPQA, SuperGPQA多模态数学推理: MathVista, MathVision多模态通识推理: MMBench, MMMU3.2 评估方法视频生成模型的三种评估方式针对 Sora-2 的输出作者设计了三种互补的评估策略Audio音频评估提取视频音频并转录获取口述答案。Last Frame末帧评估提取视频最后一帧识别其中标注或书写的答案。Major Frame主帧投票每隔5帧采样一帧对每帧的答案做多数投票起到去噪效果。VLM基线GPT-5、Claude Sonnet 4.5、Gemini 2.5 Pro 等VLM直接以文本形式输出答案。LLM-as-a-Judge文本为主任务使用 GPT-4o 作为评判器分别对末帧图像和音频转录文本进行答案正确性判断。四、Experiments4.1 视觉为主任务目测谜题Sora-2 超越 SOTA VLMs关键发现Sora-2 在 Point 和 Line 类任务上大幅领先 VLMs展现出通过画图进行空间推理的独特优势。例如在光线反射题中Sora-2 能够准确画出反射路径并标记通过的点。视觉拼图展现归纳推理能力Sora-2 在对称任务上与 Claude Sonnet 4.5 表现相当81.9% vs 80.1%说明视频生成模型可以识别和应用颜色、形状、尺寸的模式规律。但在渐变和组合任务上仍落后于 GPT-5。ARC-AGI-2少样本学习者Sora-2 自动评估准确率仅 1.3%但人工分析 100 个样本后发现3% 完全正确14% 基本正确28% 部分正确。模型往往能抓住核心规则但在执行细节上失败。一个有趣的发现是模型在生成过程中展现了自我纠正行为。迷宫仅限正方形Sora-2 在正方形迷宫上有 40% 的成功率但六边形和圆形迷宫完全失败0%说明其空间推理能力尚未泛化到非网格结构。4.2 文本为主任务数据集Sora-2 (Audio)Gemini 2.5 ProGPT-5 highClaude Sonnet 4.5GSM8K98.998.9100.0100.0MATH-50092.099.099.098.0AIME2446.793.395.075.0MMMU69.279.077.082.0MathVista75.770.067.572.5关键发现Sora-2 通过音频评估在 GSM8K 上接近满分在 MathVista 上甚至超过了所有 VLM 基线。但在更难的 AIME 竞赛题和 GPQA 上差距明显。音频准确率普遍高于末帧准确率原因是生成准确的书面文字仍是视频模型的难点。4.3 增强推理能力的方法更多示例提升上下文学习在 ARC-AGI-2 上给 Sora-2 提供所有示例few-shot比只给一个示例1-shot时高准确率0.65-1.0样本数从 95 增加到 130证实了视频模型的少样本学习能力。自一致性提升表现在 Arc Connect 谜题上不同评估方式的准确率对比评估方法单次5次投票Audio12%12%Last Frame56%66%Major Frame68%90%多次生成后取多数投票可以大幅提升性能揭示了视频生成推理中测试时扩展 (test-time scaling)的潜力。4.4 能力来源分析排除数据泄露用不同数值生成相似结构的新题目Sora-2 在原始题和衍生题上表现一致GSM8K: 98.9% vs 100%排除了数据泄露的可能。推理过程质量分析对 115 个正确回答的样本进行人工分析类别占比完全正确13.91%逻辑正确但书写有误29.57%不可读或逻辑错误43.48%缺少解题过程6.96%无需解题过程6.09%重要发现Sora-2 虽然能给出正确答案但视频中的推理过程大多不可读。这暗示正确答案可能并非来自视频中展示的推理过程。Prompt Rewriter 是关键通过 Wan 2.5 的对比实验可以控制prompt重写器的开关数据集Prompt重写Last FrameAudioGSM8K✘0.0%0.0%GSM8K✔78.4%31.9%关闭重写器后准确率几乎归零。重写器实际上在视频生成前就已经解出了题目然后将解题步骤转化为视频生成指令。作者推测 Sora-2 的文本推理能力也主要来源于其内部的 prompt 重写模型。五、ConclusionSora-2 是一个有能力的推理者在视觉推理任务上与 SOTA VLMs 相当在目测谜题上甚至超越 GPT-5 约10%。统一多模态潜力Sora-2 能在视频帧中嵌入文字通过视频生成实现文本与视觉的统一推理。可提升性少样本学习和自一致性投票都能有效提升表现。局限性Sora-2 不开源无法分析内部机制文本推理能力可能主要依赖 prompt 重写器而非视频模型本身。未来方向通过 RLVR强化学习可验证奖励增强视频推理将文本语料转为视频形式训练数据如逐帧模拟白板书写使视频模型获得文本世界知识。六、个人思考6.1 “Thinking with Video” 的真实推理能力有多少这篇论文最令人深思的部分不是 Sora-2 的亮眼数字而是第3.2节的能力来源分析。Wan 2.5 的实验清楚地表明关闭 prompt 重写器后模型在文本推理上的能力几乎归零。这意味着所谓的用视频思考在文本推理任务上实际上是**“用文本思考后把答案画成视频”**。真正在做推理的是 prompt 重写器本质上是一个 LLM视频生成模型只是一个可视化渲染器。这引发了一个根本性问题如果文本推理能力来自 prompt 重写器那么在 GSM8K 上 98.9% 的准确率到底说明了什么它更多地说明了 Sora-2 的系统工程能力集成了一个强大的 LLM 作为前处理而非视频生成模型本身的推理能力。6.2 视觉推理才是真正的亮点相比之下目测谜题上的表现才是论文最有说服力的贡献。在这些任务中Sora-2 通过画线来解决几何问题——这是一种 VLMs 做不到的推理方式。VLMs 必须在脑中想象几何关系然后输出文字答案而 Sora-2 可以实际地画出来并从画图结果中读取答案。这种具身化的推理方式确实是一个新的范式贡献。6.3 评估方法的创新与局限三种评估方式Audio/Last Frame/Major Frame的设计很有巧思尤其是 Major Frame 投票机制本质上利用了视频的时间冗余来实现去噪。但这也暴露了一个问题视频生成的不稳定性末帧可能被 SMPTE 色条或黑屏破坏是一个工程问题而非推理问题。未来需要更鲁棒的视频生成才能让这个范式实用化。6.4 统一多模态推理的路还很长论文将 “Thinking with Video” 定位为潜在的统一多模态推理范式措辞谨慎且合理。但从当前结果看文本推理依赖 prompt 重写器不是真正的统一。迷宫任务只能解正方形泛化能力有限。视频中的书面推理过程 43.48% 不可读说明文字生成质量远未达标。真正的统一应该是模型在生成视频的过程中自发地进行推理而不是先用 LLM 解题再用视频模型渲染。这需要在视频生成模型的训练阶段就引入推理能力而非依赖外部组件。6.5 对未来研究的启发RLVR for Video论文提出的用强化学习可验证奖励来增强视频推理能力是一个很有前景的方向。目测谜题和迷宫等任务天然可验证非常适合这种训练范式。视频形式的预训练将文本知识转化为白板书写视频的想法很有创意本质上是在让视频模型通过视觉通道学习语言。本文仅为个人阅读理解如有不当之处欢迎指正。