V-Zero: Answer-Label-Free On-Policy Distillation with Contrastive Evidence Gating for Fine-Grained Visual Reasoning作者Haoxiang Sun, Zhihang Yi, Langxuan Deng, Yuhao Zhou, Peiqi Jia, Jian Zhao, Li Yuan, Jiancheng Lv, Tao Wang核心发表机构Sichuan University、Xi’an Jiaotong University、TeleAI of China Telecom、Peking University论文链接arXiv:2606.25319v1发布于arXiv 预印本cs.CV---------------|------------|--------|-----------|| VStar | 84.3 |91.6| 89.0 || HR-4K | 84.4 | 82.1 |87.8|| HR-8K | 80.1 | 79.6 |82.6|| ZoomBench | 52.2 | 52.5 |57.8|| MME-RW | 69.2 | 68.5 |69.8|| MMStar (OOD) | 71.8 | 71.1 |74.4||平均| 73.7 | 74.2 |76.9|V-Zero-4B 平均得分 76.9超 Qwen3.5-4B 3.2 点超 ZwZ-4B 2.7 点甚至超 ZwZ-8B76.4。在除 VStar 外的所有基准上均达到最高。VStar 上低于 ZwZ-4B 是因为 ZwZ 在该基准上可能存在过拟合。训练成本方面V-Zero 在 8×RTX PRO 6000 GPU 上仅需 4.8 小时而 ZwZ (8×H100) 需约 1 天、DeepEyes (8×H100) 需约 2 天考虑到硬件差异V-Zero 的实际加速比 SFT 方法 5×、RL 方法 10×。注意力可视化进一步定性验证了 V-Zero 的效果在三个典型细粒度样例中海报标题、限速标志、卡车与电车空间关系V-Zero 不仅准确覆盖正确视觉区域而且激活性更强下图中的红色区域而基线方法常忽略关键区域或激活分散。4.3 消融实验 / Ablation Study对比证据门控的有效性源码笔记 2 表 2移除门控None 变体即标准 OPD后感知平均VStar、HR-4K、HR-8K、ZoomBench 平均从 79.2 降至 78.0如果使用随机正负视图Rand. 变体平均进一步骤降至 72.5说明有意义的正视图配对和对比门控缺一不可。HR-8K 上的收益较小因为高分辨率输入本身已提供丰富信息门控的区分作用被削弱在视觉约束更强低分辨率或小区域的场景下收益更明显。教师大小的影响源码笔记 2 表 3使用 9B 教师与 4B 学生时感知平均为 78.9使用 27B 教师则提升至 79.2尤其在 ZoomBench 上提升显著54.8→57.7。不同教师在不同子任务上各有优势9B 教师在 VStar 和 HR-8K 更强但 27B 总体更优。Rollout 组大小G GG源码笔记 2 表 4G 4 G4G4时感知平均 78.1G 8 G8G8时 79.2主要增益来自 ZoomBench54.1→57.7表明更大的组内对比能更精确地识别高质量轨迹。训练步数的影响源码笔记 2 表 5从基座step 0感知平均 75.3开始第 30 步升至 77.2第 60 步达到峰值 79.2第 70 步回落至 77.8。不同基准的最优步不同HR-4K/HR-8K 在 50 步最佳ZoomBench 在 60 步最佳说明存在子能力权衡实际应用需监控感知平均选择 checkpoint。五、相关工作 / Related Work现有细粒度视觉推理工作主要分为三类1基于监督微调SFT的方法如 DeepEyes、Pixel-Reasoner、Thyme需要大规模人工标注推理轨迹训练成本高且易遗忘2基于强化学习RL的方法如 DeepEyesV2、ZwZ依赖可验证奖励或规则探索成本高昂且需要推理时额外工具调用如区域裁剪、外部定位模型3标准在线蒸馏OPD方法如 Video-OPD仅提供 token 级校正缺乏轨迹级判别无法区分错误推理路径。V-Zero 与以上所有方法的关键区别在于完全不使用任何标注文本答案通过教师对正/负视觉证据视图的对比在训练时对学生的自采样轨迹进行轨迹级区分和加权蒸馏推理时保持标准全图流水线。与 ZwZoff-policy 区域到图像蒸馏相比V-Zero 采用 on-policy 机制且仅训练时使用裁剪具有更强的泛化能力。与自蒸馏不同V-Zero 使用固定的更大教师27B核心创新在于视觉对比而非文本标签。六、局限性与展望 / Limitations Future Work对高分辨率输入的收益递减消融实验显示在 HR-8K 等极高分辨率场景下对比证据门控的增益较小。这是因为模型本身已能通过高分辨率图像获得足够视觉证据正负视图的区分作用被淹灭。未来可探索自适应门控策略根据输入分辨率或任务难度动态调整门控强度。训练步数敏感性不同基准的最优保存步数不一致且训练过长反而导致平均性能下降第 70 步回落。这可能是因为蒸馏过程中某些子能力退化。未来可考虑多任务学习或动态早停策略避免过拟合单一 benchmark。对区域裁剪的依赖训练时需要预先获取问题相关区域的正裁剪和无关区域的负裁剪。尽管本文使用 ZwZ 的高质量样本但对于更模糊的提问如“描述场景中所有细节”如何自动生成有意义的正负视图仍是一个开放问题。未来可结合视觉定位模型或注意力机制在线生成裁剪。门控机制对噪声的鲁棒性对比证据门控基于组内归一化和线性 clip当采样轨迹数量较少或质量波动大时门控可能不稳定。更平滑的归一化方式如 softmax 温度调节值得探索。跨系统比较的局限本文的主要对比方法使用不同基座Qwen3 vs Qwen2.5因此数值比较仅为横向参考严格消融应在统一基座上进行。七、总结 / ConclusionV-Zero 提出了第一个完全无答案标签的在线蒸馏框架专门用于细粒度视觉推理。其核心创新——对比证据门控——通过教师侧正/负视觉视图的对比赋予了 OPD 缺失的轨迹级判别能力从而在不使用任何标注文本答案、不引入 RL 探索成本的前提下显著提升了模型在多个细粒度基准上的推理精度。实验表明V-Zero 在 Qwen3.5-4B 上平均提升 3.1 点训练速度比 SFT 方法快 5 倍以上、比 RL 方法快 10 倍以上且推理时无需额外操作。消融研究系统验证了门控、组大小、教师容量和训练步数的作用同时也揭示了其在极高分辨率场景下增益有限、对裁剪依赖等局限性。V-Zero 为高效、可泛化的细粒度视觉推理开辟了新道路未来工作可围绕自适应门控和在线裁剪生成进一步拓展。原文摘要:Fine-grained visual reasoning requires multimodal large language models (MLLMs) to identify task-relevant visual evidence and ground their reasoning in local image regions. Existing agentic methods typically rely on reinforcement learning with verifiable rewards or supervised fine-tuning on large-scale annotated reasoning traces, leading to costly exploration, hand-designed verification rules, or heavy dependence on textual supervision. A natural way to avoid such external answer labels is to learn from trajectories sampled by the student itself, which points to On-Policy Distillation (OPD). To understand what OPD can and cannot provide for visual reasoning, we revisit it as negative-free stop-gradient alignment. This perspective shows that, although OPD provides effective token-level correction, its ceiling is constrained by the absence of trajectory-level discrimination. Motivated by these observations, we propose V-Zero, an answer-label-free framework for visual reasoning with contrastive evidence gating. V-Zero uses no annotated textual answer labels; instead, during training it pairs a question-relevant regional crop with a negative visual view to evaluate student-sampled trajectories and gate dense token-level distillation. Experiments on multiple visual reasoning benchmarks show that V-Zero consistently improves fine-grained visual reasoning while preserving strong generalization. Notably, V-Zero is more than 5× \times×faster than previous supervised fine-tuning methods and more than 10× \times×faster than reinforcement learning baselines. Code and dataset will be released at https://github.com/eVI-group-SCU/V-ZeroPDF链接:https://arxiv.org/pdf/2606.25319v1部分平台可能图片显示异常请以我的博客内容为准