标题SingGuard: A Policy-Adaptive Multimodal LLM Guardrail with Dynamic Reasoning来源arXiv, 2606.22873v2️文章简介研究问题如何解决现有多模态安全护栏依赖固定分类体系、无法适应运行时动态策略变更及推理效率低下的问题主要贡献论文提出了支持运行时策略自适应和快慢动态推理的多模态护栏模型SingGuard并构建了 comprehensive 评测基准。重点思路将安全审核建模为策略条件化的指令遵循任务模型接收自然语言描述的活跃策略作为运行时输入逐条匹配规则并输出安全标签及触发依据而非依赖固定的训练时分类体系。设计快、混合、慢三种推理模式以适应不同场景快速模式直接输出标签以满足低延迟需求慢速模式进行逐条规则验证以增强可解释性混合模式根据初始判断置信度自适应决定是否启动深度推理。提出快慢解耦强化学习算法在RL优化阶段屏蔽首个快速判断token的梯度更新防止其对后续推理产生锚定效应同时利用二元安全和细粒度类别奖励优化最终答案确保慢思考能修正快判断的错误。构建包含5.6万样本的SingGuard-Bench基准涵盖80多种细分风险类型特别设计了跨模态联合风险样本及动态规则测试集用于评估模型在策略变更下的遵循能力。采用在线策略知识蒸馏技术利用8B教师模型在学生模型自身生成的响应上提供token级分布指导使2B小模型习得大模型的动态规则理解与纠错能力。分析总结SingGuard在六个基准族共35个数据集上取得SOTA平均F1分数其中8B版本在多模态安全基准上达到0.909显著优于GPT-5.1等闭源模型及现有开源护栏。在动态策略评估中SingGuard-slow模式的策略遵循准确率从基线模型的0.6465提升至0.7415证明运行时规则条件化有效减少了模型对静态分类先验的过拟合。消融实验显示RL阶段对动态策略准确性提升关键混合推理模式在保持接近慢速模式性能的同时大幅降低延迟实现了精度与效率的最佳平衡。通过RI-Mask并行推理技术在30条活跃规则场景下多模态推理速度提升超5倍解决了逐条规则检查带来的线性延迟瓶颈。个人观点论文将安全护栏从静态分类器转变为策略感知的动态推理系统快慢解耦使模型兼具低延迟响应与复杂规则遵循能力。