note论文核心让视频大模型学会“先找关键时间段再放大看这段视频最后回答问题”的长视频 Agent 模型。它不是简单均匀抽帧看完整视频以往这样如果漏抽对应帧就会遗漏信息而是走localize → clip → answer流程localizetemporal grounding定位视频时间范围crop从原视频里截取这个时间段的视频 clip并更密集抽帧给模型看。注意这里不是对视频帧进行图片裁剪。QA这篇论文提出了一种统一的主动思维视频框架VideoTemp-o3通过按需视频裁剪和迭代细化实现了长视频理解。该方法在多个长视频问答和定位基准上取得了最先进的性能并通过高质量的数据集和专门的训练设计显著提高了模型的内部定位能力。未来的工作可以结合更广泛的外部工具如搜索引擎和时空定位操作以应对复杂和最新的任务。文章目录note一、研究背景二、VideoTemp-o3框架1、冷启动SFT2、RL训练3、数据构建4、真正使用推理时三、实验设计四、结果分析五、论文评价1、优点与创新2、不足与反思Reference一、研究背景论文VideoTemp-o3: Harmonizing Temporal Grounding and Video Understanding in Agentic Thinking-with-Videos论文地址https://www.arxiv.org/abs/2602.07801项目主页https://liuwq-bit.github.io/VideoTemp-o3研究问题这篇文章要解决的问题是长视频理解中的关键视觉证据捕捉不足导致性能下降和幻觉增加的问题。现有的主动思维视频范式虽然取得了一定的进展但仍存在工作流程复杂、定位不精确和刚性流程等问题。研究难点该问题的研究难点包括如何有效地进行视频定位和问题回答如何在不增加计算成本的情况下捕捉关键视觉证据以及如何避免奖励黑客行为。相关工作该问题的研究相关工作包括传统的均匀帧采样方法、多代理框架、混合训练方法如VideoExplorer、VITAL、REVISOR和LongVT等。二、VideoTemp-o3框架这篇论文提出了VideoTemp-o3一种统一的主动思维视频框架用于联合建模视频定位和问题回答。figure1用户问视频里某张地图上有多少艘船。模型第一轮先定位到一个片段 [215, 224]发现不够准确然后再重新定位到 [312, 325]最后基于这个片段数船并回答 C / 11。和普通vid-llm对的区别普通 Video-LLMVideoTemp-o3均匀抽帧按问题主动找关键片段一次性回答可以多轮定位、裁剪、修正视频理解和时间定位分开一个模型同时做 grounding QA容易漏掉长视频关键证据尽量聚焦关键时间段工具调用弱支持 on-demand video clipping1、冷启动SFT1、冷启动监督微调SFT首先通过冷启动SFT策略激励思维视频行为使模型学会按需裁剪视频并生成基于关键视觉证据的最终答案。该策略具有以下三个特点按需裁剪对于短视频模型可以直接回答问题而无需裁剪。反思机制对于具有挑战性的长视频模型可以进行多次细化轮次。统一的时间定位和视频问答模型同时支持视频问答和时间定位增强了内在的定位能力。这里的训练数据包括直接回答数据 一次裁剪工具调用数据 多次裁剪 refine 数据 temporal grounding 数据 VideoQA 数据。unified masking strategy多轮轨迹里早期定位可能是错的所以 SFT 不监督所有中间错误步骤只监督最后两轮“正确定位 正确回答”避免错误轨迹污染训练。2、RL训练2、强化学习RL在RL阶段设计了专门的奖励系统来显著提高定位精度和片段定位答案的准确性同时有效缓解奖励黑客行为。奖励系统包括三个奖励准确性奖励衡量答案的正确性。格式奖励鼓励模型在整个多轮对话中遵循所需的格式。惩罚感知IoU奖励用于衡量时间戳定位的质量。为了避免奖励黑客行为当IoU低于阈值时应用惩罚项。关键Penalty-aware IoU Reward。如果只用 IoU 奖励模型可能为了刷奖励乱裁剪、频繁调用工具。论文加了 penalty惩罚低质量定位减少 reward hacking3、数据构建VideoTemp-o3在数据集构建方面有哪些创新之处单轮数据集通过拒绝采样策略确保可靠的推理链。具体来说利用Qwen3-VL-235B-A22B-Thinking生成推理轨迹和最终答案只保留预测答案与真实答案匹配的样本。多轮数据集通过迭代识别、裁剪和验证相关视频片段来模拟真实的工具辅助定位行为。设计了一个专门的验证阶段评估选定的视频片段是否提供了足够的证据来支持连贯的思维视频推理链。数据平衡在训练过程中从三个维度进行数据平衡模态平衡、任务平衡和视频长度平衡以确保模型在不同场景下的泛化能力。这些创新之处使得VideoTemp-o3能够构建高质量的多轮轨迹和大规模的长视频GQA数据集从而提高模型的定位和问答能力。数据分布4、真正使用推理时localize-crop-answer模型先低采样浏览视频然后在每轮交互中生成 reasoning并选择输出一个时间区间 P 或最终答案 A如果输出 P外部 cropping 模块会从原视频裁剪对应片段并高采样再把 clip 加回上下文进入下一轮场景实际流程短视频 / 简单问题直接回答不 crop一般长视频问题先 grounding 一个区间再基于 clip 回答难长视频问题grounding → crop → 发现不准 → re-grounding → crop → answer三、实验设计1、数据集构建管道设计了一个高质量的单轮和多轮数据集涵盖了从基本推理到工具调用的各种任务分布和数据源。单轮数据集通过拒绝采样策略确保可靠的推理链多轮数据集则通过迭代识别、裁剪和验证相关视频片段来模拟真实的工具辅助定位行为。2、训练数据SFT数据集包括单轮和多轮轨迹覆盖定位和问答任务视频时长多样。RL数据集结合了两种数据类型确保可靠的任务覆盖和奖励信号。3、视频Temp-Bench引入了一个基准测试将视频分为四个时长类别0~3分钟、3~10分钟、10~20分钟和20分钟每个类别300个样本总共1200个样本用于评估模型在不同视频时长下的GQA性能。四、结果分析1、长视频理解VideoTemp-o3在几乎所有长视频理解基准上取得了最先进的性能。例如在VideoMME和LVBench上分别提高了2.4%和1.7%表明其在长视频中的强多模态理解能力。2、时间定位VideoTemp-o3在时间定位方面也表现出色甚至与专家定位模型如TimeMaker相当表明可靠的定位是其实施思维视频的前提。3、视频GQAVideoTemp-o3在NextGQA和ReXTime上均取得了顶级性能mIoU和答案准确性显著提高表明改进的定位对更强的视频理解有贡献。4、消融研究消融研究表明SFT训练中的定位数据和统一掩码策略对性能有显著提升去除IoU奖励会导致性能下降。五、论文评价1、优点与创新统一的代理视频框架提出了VideoTemp-o3一个统一的代理视频框架结合了视频问答和时间定位任务。按需视频裁剪支持按需视频裁剪和迭代细化直到收集到足够的证据来生成可靠的答案。冷启动监督微调策略开发了冷启动监督微调策略和定制的强化学习奖励以增强模型的内部定位性能。高质量数据集构建引入了一个高质量的管道来构建大规模的长视频有问有答GQA数据集确保裁剪片段与答案之间紧密对齐。VideoTemp-Bench基准测试引入了VideoTemp-Bench基准测试用于评估不同视频时长下的GQA性能并进行了深入分析。多轮对话的统一掩码策略在监督微调阶段采用统一掩码策略鼓励探索同时保留可靠的学习信号。定制化奖励设计设计了专门的奖励系统包括准确性奖励、格式奖励和惩罚感知的IoU奖励以显著改善定位精度和片段有问有答的准确性。2、不足与反思长视频的初始扫描稀疏性对于非常长的视频初始扫描仍然稀疏可能错过关键证据特别是在极短的事件中。顺序推理的开销定位-裁剪-回答过程引入了顺序推理的开销数据构建管道仍然受益于强大的教师模型和经过验证的时间注释这可能增加构建成本。统一掩码策略的假设统一掩码策略假设后续验证的回合比早期的探索回合更可靠如果未来的数据构建可以为每个回合提供准确的监督这种启发式方法可能需要调整。未来工作可以结合更广泛的外部工具如搜索引擎和时空定位操作使模型能够处理复杂和最新的任务。Reference[1] VideoTemp-o3: Harmonizing Temporal Grounding and Video Understanding in Agentic Thinking-with-Videos[2] ICML 2026 | 快手提出Agentic长视频框架统一时序定位与深度理解