Abstract在视觉—语言模型VLM中文本描述与视觉坐标之间的不对齐往往会引发幻觉问题。在时空视频定位Spatial-Temporal Video GroundingSTVG等密集预测任务中这一问题尤为严重。以往方法通常侧重于增强视觉与文本之间的对齐或附加辅助解码器。然而这些策略不可避免地会引入额外的可训练模块从而带来较高的标注成本和计算开销。本文提出了一种全新的视觉提示范式以规避跨模态坐标对齐这一难题。具体而言我们为每个目标分配一个唯一且在时间维度上保持一致的ID将逐帧坐标预测重新表述为紧凑的实例级识别问题。这些ID以视觉提示的形式嵌入视频中为视觉—语言模型提供显式且具有可解释性的输入。此外我们提出STVG-R1这是首个面向STVG任务的强化学习框架。该框架采用任务驱动的奖励机制对时间定位精度、空间一致性以及结构化格式规范进行联合优化。在六个基准数据集上的大量实验验证了所提方法的有效性。在HCSTVG-v2基准上STVG-R1的mIoU较基线模型Qwen2.5-VL-7B提升了20.9%取得了新的最先进水平SOTA。更令人惊讶的是STVG-R1在多目标指代视频目标分割任务上也表现出较强的零样本泛化能力并在MeViS数据集上取得了47.3%的JF指标同样达到SOTA水平。Introduction在视频定位任务中视觉—语言模型VLM出现幻觉是一种常见现象例如预测的时间戳可能超出视频实际时长或预测坐标超出视频帧的分辨率范围Wang et al., 2024aLiu et al., 2024aChen et al., 2024。一种被广泛接受的观点认为这类幻觉源于视觉模态与文本模态之间的不对齐Lin et al., 2024Wang et al., 2024b。这种模态不对齐会导致更为明显的性能下降。为减轻跨模态不对齐带来的影响现有研究主要致力于提升视觉—语言模型VLM的对齐能力Wang et al., 2025aYe et al., 2024或避免直接进行坐标预测Yuan et al., 2025Sun et al., 2025。尽管这些方法取得了一定成效但通常需要引入额外的可学习组件并且泛化能力有限。如图1所示基于对齐的方法Li et al., 2025直接输出显式的帧级坐标但在多目标场景中表现不佳且经常产生不一致甚至无意义的预测结果例如[0.00, 0.00, 0.27, 0.00]。相比之下基于解码器的方法通过引入分割标记实现跨帧一致的预测从而在一定程度上缓解上述问题然而其隐式输出形式限制了模型的泛化能力。受这些挑战及已有研究启发我们提出一个核心观点如果能够将复杂的逐帧坐标预测重新表述为一种紧凑且可解释的形式就有望缓解视觉与文本之间的不对齐问题并进一步提升模型的泛化能力。基于上述观察我们受到现有视觉提示研究的启发。这些研究表明简单且具有一致性的指代线索能够有效用于目标表征Shtedritski et al., 2023Cai et al., 2024Yang et al., 2024。以GPT4SceneQi et al., 2025为例该方法在多视角图像中嵌入一致的目标ID以增强模型的三维场景理解能力。沿着这一思路本文提出了一种面向时空视频定位STVG的目标中心视觉提示范式。具体而言在整个视频序列中为每个目标自动分配一个唯一且在时间维度上保持一致的标识符。具体实现时首先利用目标检测器Tian et al., 2025Liu et al., 2024bXiao et al., 2023处理视频首帧获得候选边界框随后借助SAM2Ravi et al., 2024的分割与跟踪能力对这些候选框进行进一步优化。为处理后续新出现的目标或先前漏检的目标系统按照固定时间间隔重新执行目标检测并利用重识别技术ReID维持目标身份在时间上的一致性。最后在每个候选实例的中心位置叠加一个数字标记并将其作为该目标的ID从而为视频空间定位提供一种紧凑且具有良好可解释性的表示形式。在这一视觉提示范式的基础上我们进一步提出了STVG-R1这是首个面向时空视频定位STVG任务的强化学习框架。与依赖Token级损失的传统监督微调SFT不同STVG-R1引入了一种任务驱动的奖励机制对时间定位精度、空间一致性和结构正确性进行联合优化。当模型预测的目标ID与真实目标一致且该目标同时位于正确定位的时间片段内时模型将获得正向的空间一致性奖励。以目标为中心的视觉提示范式在零样本设置下显著提升了四种通用视觉—语言模型的性能。具体而言在HCSTVG-v1Tang et al., 2021数据集上InternVL3-8BZhu et al., 2025、Qwen2.5-VL-7B、Qwen2.5-VL-72BBai et al., 2025以及Qwen3-VL-8B的vIoU0.3指标分别提升了3.6%、12.5%、6.0%和28.3%。除零样本场景外强化学习所带来的增强推理能力使该方法在五个基准数据集上取得了新的最先进性能。值得注意的是STVG-R1在此前未见过的多目标指代视频目标分割任务上同样表现出较强性能体现了其良好的泛化能力。我们认为这种泛化能力主要来源于以目标为中心的视觉提示。该提示方式在强化学习过程中为模型提供了显式的目标标识使模型能够开展实例级推理与定位。本文的主要贡献如下1我们提出了一种简单而有效的以目标为中心的视觉提示范式将密集的逐帧坐标预测任务重新表述为紧凑的目标ID识别任务。2我们提出了STVG-R1这是首个基于GRPO算法构建的时空视频定位强化学习框架。3在六个基准数据集上的大量实验验证了所提方法的有效性。此外该方法在此前未见过的多目标指代视频目标分割任务上仍表现出较强性能进一步体现了其良好的泛化能力。2 RELATEDWORK2.1 SPATIALTEMPORALVIDEOGROUNDING在时空视频定位研究中现有方法大致可分为两类基于视觉—语言预训练VLP的方法以及基于视觉—语言大模型VLM的方法。基于VLP的方法通常采用CLIPRadford et al., 2021、I3DCarreira Zisserman, 2017、InternVideo-v2Wang et al., 2024c和BERTDevlin et al., 2019等预训练编码器分别提取视觉特征与文本特征随后针对具体任务设计多模态特征融合模块和专用解码模块。这些方法Gu et al., 20242025Lin et al., 2022目前在多个时空视频定位基准数据集Tang et al., 2021Zhang et al., 2020上仍具有较强竞争力。然而尽管此类基于VLP的任务专用模型取得了较好效果其泛化能力仍然有限即使面对更简单的纯空间视频定位任务或纯时间视频定位任务也依然存在明显困难。近年来凭借更强的跨模态推理能力和泛化能力越来越多的研究开始采用视觉—语言大模型VLMLi et al., 2024Bai et al., 2025Abdin et al., 2024Zhang et al., 2024开展视频空间定位研究。在这一研究方向中如图2(a)所示一类方法直接利用VLM进行密集预测同时输出时间片段和逐帧空间定位结果。例如LLaVA-STLi et al., 2025通过在输入文本嵌入中引入额外Token增强文本描述与视觉坐标之间的对齐。随后SpaceVLLMWang et al., 2025a采用类似策略引入时空查询Token以缓解对齐难题。然而这些额外的可训练Token需要大规模、高质量的密集预测数据进行训练并会带来较大的计算开销。如图2(b)所示另一类方法通过提示VLM生成分割TokenYuan et al., 2025Sun et al., 2025Munasinghe et al., 2025再将其输入可训练解码器Ravi et al., 2024以减轻模态不对齐造成的影响。然而这类方法依赖迭代式解码过程进一步增加了训练复杂度和训练时间。2.2 REINFORCEMENTLEARNING INVLMS强化学习RL在提升大语言模型LLM推理能力方面展现出巨大潜力尤其是基于可验证奖励的强化学习Reinforcement Learning with Verifiable RewardsRLVRGuo et al., 2025Chen et al., 2025aJaech et al., 2024。对于视觉—语言模型VLM许多研究Liu et al., 2025Shen et al., 2025Zhang et al., 2025aChen et al., 2025bZhang et al., 2025b也采用这种奖励驱动的训练范式以解决复杂任务Yang et al., 2025Fu et al., 2025。近期研究进一步将这一方向扩展到视频理解和多模态智能体领域Fan et al., 20242025。与本文研究场景更为相关的是Video-R1Feng et al., 2025首次在视频领域探索R1范式并提出T-GRPO算法通过打乱输入视频帧的顺序显式增强模型的时间理解能力。在此基础上Time-R1Wang et al., 2025b提出了一种面向时间视频定位的新型后训练框架该框架同样基于组相对策略优化Group Relative Policy OptimizationGRPO算法Shao et al., 2024。更令人鼓舞的是Time-R1表明将IoU等连续指标作为奖励能够提供更直观的优化信号并取得优于Token级监督微调的性能。然而如何利用强化学习同时解决视频的空间与时间联合定位问题仍是一个研究不足但极具潜力的方向。为填补这一空白STVG-R1将GRPO与面向STVG任务设计的专用奖励相结合从而取得了更优的性能。3 METHOD3.1 STVG-R1 FRAMEWORK我们的方法实现了时空视频定位任务的范式转变即不再采用密集的逐帧边界框回归而是将其重新表述为一种基于视觉提示的紧凑预测形式。图3展示了STVG-R1模型的整体架构。具体而言给定一个包含T帧的视频V {I₁…Iₜ…I_T}其中Iₜ表示视频中的第t帧。首先为每一帧Iₜ添加一组视觉提示Pₜ {p₁ᵗ…pₖₜᵗ}并将添加视觉提示后的第t帧定义为Ĩₜ Iₜ ⊕ Pₜ 1其中t ∈ {1…T}表示视频帧的索引Kₜ表示第t帧中包含的目标实例数量符号“⊕”表示将视觉提示Pₜ叠加到原始视频帧Iₜ上。经过上述处理后得到视觉提示增强的视频序列Ṽ {Ĩ₁…Ĩₜ…Ĩ_T}为了控制模型处理视频时的显存消耗我们将每个视频的总像素量限制在约R 1.6 × 10⁶像素。具体而言对于一个单帧分辨率为H × W、视频时长为D秒的视频V首先按照每秒2帧的频率对视频进行均匀采样然后将每一帧缩放至H′ × W′的分辨率其中H′ × W′ ≈ R /2D例如对于一段时长为30秒的视频按照每秒2帧进行均匀采样后共得到60帧每一帧的尺寸约为96 × 96 × 3其中3表示RGB三个颜色通道。最后将经过视觉提示增强的视频帧序列Ṽ与文本查询q共同输入视觉—语言模型πθ。模型根据视频内容和文本描述联合预测目标出现的时间区间[tste]以及与该文本描述相对应的目标标识符î。这样原本需要逐帧预测目标边界框的复杂时空定位任务被转化为“时间区间预测目标ID识别”的紧凑形式。3.2 OBJECT-CENTRICPROMPTEDVIDEOCONSTRUCTION数据格式。每个样本表示为{VqPMA}其中P {Pₜ}t 1…T表示所有视频帧上的视觉提示集合M表示分割掩码数据库A表示真实答案即目标对象的ID。具体而言对于每一帧Iₜ掩码数据库M保存一组实例ID以及与各实例ID对应的游程编码掩码run-length encoded maskGolomb1966。为了与真实标注保持一致每个实例掩码mₖᵗ还会进一步转换为对应的边界框bₖᵗ。为了形式化地确定真实答案A我们在真实时间区间内建立逐帧目标对应关系。对于每一帧Iₜ计算真实目标框gₜ与该帧中所有候选边界框{bₖᵗ}k 1…Kₜ之间的交并比IoU并将与真实目标框重叠程度最高的候选实例ID分配给第t帧îₜ arg max IoUgₜbₖᵗ其中k ∈ {1…Kₜ}。 2也就是说îₜ表示第t帧中与真实目标框具有最大IoU的候选目标ID。在整个视频V上最终答案A通过多数投票得到A arg maxᵢ Σₜ₌₁ᵀ 1[îₜ i]。 3其中1[·]表示指示函数。当条件îₜ i成立时其值为1否则为0。因此最终目标对象被定义为在整个视频中与真实目标框保持最高总体IoU一致性的实例ID。换言之系统先在每一帧中选择与真实目标最匹配的候选ID再统计各ID在所有帧中被选中的次数出现次数最多的ID即作为该样本的真实答案A。数据生成流程。为构建以目标为中心的视觉提示视频我们将多个现有视觉模型整合到一个统一流程中。首先使用现成的目标检测器处理每段视频的首帧I₁检测COCO类别范围内的所有候选实例并生成对应的边界框集合{bₖ¹}k 1…K₁。这些检测框随后作为提示输入SAM2由SAM2生成高质量的实例分割掩码集合{mₖ¹}k 1…K₁并通过视频跟踪将这些掩码传播到后续帧。为发现后续新出现的目标或补回此前被漏检的目标系统会周期性地重新执行目标检测并通过基于IoU的匹配判断检测结果是否属于已有实例。具体而言将每个新检测框与当前帧中已经被跟踪的目标掩码进行比较只有当该检测框与所有已有目标的几何重叠程度持续较低时才将其认定为一个新的目标实例。一旦发现新实例系统会以该目标首次被发现的帧为起点再次调用SAM2同时执行向前跟踪和向后跟踪以恢复该目标在整个视频中的完整时间轨迹。对于第t帧中第k个目标的掩码mₖᵗ系统在其质心位置xₖᵗyₖᵗ嵌入一个紧凑的视觉提示pₖᵗ例如数字ID标记。需要强调的是尽管COCO类别体系无法覆盖视频中出现的全部目标类别目标检测器仍然能够为几乎所有实例生成边界框。例如COCO类别中并不包含“鱼”但鱼类目标仍可能被检测器识别为其他类别。此类语义分类错误不会影响本文框架因为该方法的监督信号只依赖目标实例身份在不同帧之间是否保持一致而不依赖检测器输出的具体类别标签是否准确。数据来源。本文采用两个被广泛使用的时空视频定位STVG数据集进行训练。HCSTVGTang et al., 2021主要关注以人物为中心的定位数据。我们合并HCSTVG v1和v2的训练集并删除所有同时出现在验证集或测试集中的样本以避免数据泄漏。VidSTGZhang et al., 2020同时包含人物与物体查询类型更加多样因此能够提供更丰富的视觉内容和语言表达。预处理流程鲁棒性分析。以目标为中心的视觉提示流程是否可靠对强化学习训练的稳定性至关重要。我们分析了该流程中可能破坏实例身份一致性构建的潜在失效情况。全局检测失败是指目标对象在整段视频的所有帧中均未被检测到。此类情况在全部样本中的占比低于1%说明绝大多数目标对象都能够被检测并分配实例ID。针对由遮挡或快速运动引起的局部漏检流程引入周期性重新检测并利用SAM2的双向传播能力恢复目标的完整运动轨迹。在ID分配阶段进一步通过多数投票增强身份一致性在评估阶段则采用轻量化的ID修复步骤纠正偶发的重识别不一致问题具体细节见附录A.5。上述机制共同缓解了目标检测与跟踪噪声为后续优化过程提供了稳定且一致的实例身份。3.3 ENHANCINGVLMS WITHREINFORCEMENTLEARNING由于密集的逐帧预测被重新表述为一种紧凑的实例级识别任务因此可以直接应用强化学习并利用任务特定奖励对策略模型进行优化。这些目标标识符还能够帮助模型在强化学习训练过程中生成更加精确、可解释的推理链从而得到更连贯的时空预测结果。奖励建模。在DeepSeek-R1Guo et al., 2025的基础上STVG-R1的奖励设计同时包含准确性奖励和格式奖励。其中准确性奖励用于衡量预测结果是否正确格式奖励则用于约束模型输出是否符合预先设定的推理结构。为了同时衡量时间定位精度和空间定位精度准确性奖励进一步分解为时间IoU奖励和空间一致性奖励。时间IoU奖励用于衡量模型预测时间区间[tste]与真实时间区间[t′st′e]之间的重叠程度其定义为rt(o) |[tste] ∩ [t′st′e]| / |[tste] ∪ [t′st′e]| 4其中A ∩ B和A ∪ B分别表示时间区间A与B的交集和并集。空间一致性奖励用于判断模型预测的目标ID是否正确并且该目标ID是否出现在模型所定位的时间区间内其定义为rs(o) 1若 î î*且目标ID î 出现在时间区间[tste]内rs(o) 0其他情况。 5其中î表示模型预测的目标IDî*表示真实目标ID。这一设计与STVG任务中的vIoU评价指标保持一致。vIoU定义为vIoU 1 / |Pu|× Σt∈Pi IoU(btb*t)其中Pi和Pu分别表示预测时间区间与真实时间区间的交集和并集bt和b*t分别表示第t帧中的预测边界框和真实边界框。由于vIoU同时评估时间定位精度和空间定位精度因此要求预测的目标ID必须出现在所定位的时间区间内可以避免模型采用只预测固定目标ID或固定时间段等投机性策略同时减轻模型对数据集中特定时间分布模式的过拟合从而提升强化学习优化过程的稳定性。除准确性奖励外格式奖励rf(o)用于约束模型输出符合预设的推理结构并鼓励模型显式生成推理过程。只有当模型将推理内容放在...标签中并将最终预测结果放在...标签中时格式奖励才被赋值为1。包含时间戳和实例ID的推理过程能够为目标定位提供更清晰的参考和更精确的依据。最终总奖励由上述三个部分相加得到R(o) rt(o) rs(o) rf(o) 6即总奖励由时间IoU奖励、空间一致性奖励和格式奖励共同构成。3.4 TRAININGSTRATEGIES4 EXPERIMENTS4.1 SETTING翻译如下实现细节。在训练和评估过程中我们采用YOLOv12-xTian et al., 2025作为目标检测器置信度阈值设为0.25并采用SAM2.1-large作为分割与跟踪模型。系统每隔15帧执行一次重新检测。只有当某个检测结果与所有已跟踪目标之间的IoU均低于0.4且其与所有已跟踪目标之间的重叠比例均低于0.6时才将其视为一个新的目标实例。我们采用Qwen2.5-VL-7BBai et al., 2025作为预训练模型使用AdamWLoshchilov Hutter, 2017优化器和线性学习率调度器。学习率设置为1.0×10⁻⁶每个设备上的批大小为1。模型在所构建的以目标为中心的视觉提示数据集上训练1个epoch所有实验均在8张A100 GPU上完成。评测基准。对于时空视频定位任务HCSTVG-v1和HCSTVG-v2Tang et al., 2021是常用的以人物为中心的定位数据集ST-AlignLi et al., 2025进一步将评测范围扩展到人物和物体并支持视频空间定位任务。为了评估更细粒度的空间理解能力MeViSDing et al., 2023在复杂多目标场景下进行掩码级目标定位评测。除时空视频定位和视频空间定位外我们还采用Charades-STAGao et al., 2017和TVGBenchWang et al., 2025b进行视频时间定位评测以验证模型的泛化能力。评价指标。对于时空视频定位任务遵循Yang et al.2022和Gu et al.2024的设置使用平均时间交并比m_tIoU衡量时间定位精度并使用平均视频交并比m_vIoU及vIoUR衡量联合时空定位质量。对于视频时间定位任务采用m_tIoU和tIoUR进行评估。对于掩码级指代视频目标分割任务使用J指标衡量区域相似度使用F指标衡量目标轮廓的准确性。4.2 EVALUATIONRESULTS ONSPATIALTEMPORALVIDEOGROUNDING表1和表2给出了HCSTVG-v1/v2及ST-Align上的实验结果。TubeDETRYang et al., 2022、STVGFormerLin et al., 2023、CG-STVGGu et al., 2024和TA-STVGGu et al., 2025是四种基于视觉—语言预训练VLP的任务专用模型。InternVL3-8B、Qwen2.5-VL-7B/72B和Qwen3-VL-8B则首先执行时间定位以预测视频帧范围随后在预测时间范围与真实时间范围的重叠帧内进行空间定位评估。零样本设置。与上述两阶段评估方式相比以目标为中心的视觉提示范式在InternVL3-8B、Qwen2.5-VL-7B、Qwen2.5-VL-72B和Qwen3-VL-8B上均取得更好表现在HCSTVG-v2上的m_vIoU分别达到15.4%、19.5%、27.3%和35.8%。这种提升主要得益于该范式在生成空间预测时能够利用完整视频序列中的信息。然而对于Qwen2.5-VL系列模型视觉提示可能遮挡部分细粒度视觉信息并引入一定的数据分布偏移因此其时间定位性能略有下降。值得注意的是Qwen3-VL-8B在采用该视觉提示范式后获得了显著性能提升这是因为在动态场景仅以静态图像形式输入时原始模型往往无法检测到目标。微调设置。强化学习显著提升了模型的时间定位和空间定位性能并在HCSTVG-v1、HCSTVG-v2和ST-Align三个基准上取得了新的最先进结果。在HCSTVG-v2上与采用监督微调训练的最强VLM模型SpaceVLLM相比STVG-R1在四项评价指标上分别取得4.0%、6.2%、10.9%和14.1%的绝对提升。如表2所示STVG-R1在m_vIoU指标上也比ST-Align中表现最强的LLaVA-ST高出0.6%。这些空间定位性能的提升表明以目标为中心的视觉提示范式能够有效约束模型生成跨帧一致的实例级预测与此同时强化学习进一步增强了模型的推理能力从而获得更加连贯、准确的时空视频定位结果。4.3 EVALUATIONRESULTS ONVIDEOSPATIALGROUNDING由于时空视频定位STVG中的vIoU不可避免地会受到时间预测质量的影响我们进一步评估视频空间定位任务以单独考察模型的空间定位能力。如表2所示所提出的以目标为中心的视觉提示范式在ST-Align视频空间定位任务上实现了m_vIoU指标11.1%的显著零样本提升。经过强化学习训练后STVG-R1在m_vIoU指标上进一步超过次优模型LLaVA-ST 13.1%。更重要的是表3给出了多目标指代视频目标分割任务上的实验结果。尽管STVG-R1仅使用单目标STVG数据进行训练但其在MeViS数据集上的JF指标达到47.3%取得了新的最先进性能。这一结果表明所提出的视觉提示范式具有较强的泛化能力。基于目标标识符的简化表示方式使模型能够更加容易地迁移到更复杂的多目标场景中。、4.4 EVALUATIONRESULTS ONVIDEOTEMPORALGROUNDING我们进一步在分布外的视频时间定位基准上评估了STVG-R1的性能。如表4所示STVG-R1在Charades-STA数据集上取得了最佳的零样本性能在tIoU0.5指标上比次优模型LLaVA-ST高出7.7%。尽管STVG-R1在TVGBench上的性能略低于专门针对视频时间定位任务设计的Time-R1但仍取得了具有竞争力的结果进一步体现了该方法较强的跨任务泛化能力。