1. 文本到图像生成模型的安全挑战文本到图像Text-to-Image, T2I生成技术近年来取得了显著进展能够根据自然语言描述生成高度逼真的图像。然而这类模型通常在海量网络爬取数据上训练不可避免地会学习到一些不良概念。这些概念可能涉及侵权内容如特定卡通形象或名人肖像或不适宜内容如暴力、色情等。这引发了公众对T2I模型可能被滥用的担忧。传统安全增强方法主要分为两类外部保护措施如过滤训练语料或附加轻量级检测器来阻止不安全输出概念擦除方法直接干预模型的输出分布通过针对性微调调整模型参数或在推理时引导采样过程现有方法在擦除狭义概念如特定IP或名人时表现良好但在处理广泛概念如暴力、色情时效果有限。这是因为广泛概念可以通过多变的外观和灵活的文本表达实现其表现形式具有高度多样性。2. 原型引导的概念擦除原理2.1 核心思想我们观察到生成模型将语义组织成结构化、低维的邻域而非任意分散。基于此我们假设T2I模型在其嵌入空间中隐式地整合了概念的典型模式。这些嵌入空间提供了复杂概念的自然摘要并受益于图像和文本之间强大的跨模态对齐。具体而言目标概念的实例存在于图像和文本嵌入空间的几个紧凑区域中。我们使用一组代表性锚点称为概念原型来总结这些区域每个原型捕捉概念的一个显著和表达性模式。理想情况下这些原型平衡了覆盖范围和特异性代表了完整的概念范围同时提供了精确的语义方向。2.2 技术实现原型引导的概念擦除是一种无需训练的流程通过一组学习到的概念原型来捕捉概念多样性。具体步骤包括通过比较包含和不包含目标概念的生成结果在图像空间构建概念原型捕捉与每种语义模式相关的特征嵌入变化将这些图像原型转移到文本嵌入空间产生与潜在扩散模型自然交互的文本原型在推理时识别与用户提示最匹配的原型并将其作为负条件信号插入分类器无关引导中这种设计允许扩散过程选择性地降低目标概念编码的语义权重有效抑制该概念同时保持提示中所有无关方面的保真度、细节和对齐。3. 方法细节与实现3.1 基础架构我们的方法建立在由文本嵌入引导的潜在扩散模型Latent Diffusion Models, LDMs基础上并利用CLIP建立的文本-图像对齐。关键组件包括潜在扩散模型在潜在空间操作通过变分自编码器VAE将图像编码为潜在表示然后逐步添加噪声分类器无关引导CFG通过对比条件和非条件去噪预测使调整后的分数向文本提示指定的语义方向引导CLIP编码器提供共享的嵌入空间适合调节LDMs和测量图像-文本对应关系3.2 概念原型构建对于给定的目标概念κ我们首先收集一组包含相关语义的文本提示。由于这些提示可能包含与κ无关的信息我们构建一个概念对比提示集其中每个提示保留所有上下文内容但省略κ。对于每个提示ci及其概念对比对应物c-i我们分别生成M张包含和不包含目标概念κ的图像。每张图像通过CLIP图像编码器编码后我们计算两组嵌入之间的所有成对差异Zdiff {zi,j - z-i,k | 1≤i≤N, 1≤j,k≤M}为了获得代表性的语义方向我们对Zdiff应用聚类算子K(·)生成一组图像概念原型{pI(1), ..., pI(K)} K(Zdiff)其中每个原型pI(k)∈Rd是一个聚类质心捕捉图像嵌入空间中概念的一个表达性模式。3.3 跨模态原型转移为了实现对LDMs的直接控制我们需要将图像空间原型转移到文本域。我们构建一组文本概念原型其中每个原型是一个可学习的软提示pT(k)∈RL×d由L个可学习的令牌嵌入组成等效于调节LDM的长度L提示。为了实现这种跨模态转移我们利用预训练的CLIP文本编码器通过最大化它们在对齐嵌入空间中的余弦相似度来配对每个文本原型与其对应的图像原型max pT(k) ⟨pI(k), E(pT(k))⟩ / (∥pI(k)∥∥E(pT(k))∥)其中E(·)是将文本嵌入投影到联合CLIP嵌入空间的可微分映射。E(pT(k))通过将pT(k)输入CLIP文本编码器并提取End-of-TextEoT令牌嵌入获得。4. 原型引导的概念擦除4.1 推理过程在推理时给定可能包含不良概念κ的文本提示c我们识别与提示最相关的原型。具体来说我们计算c的嵌入与每个文本原型之间的余弦相似度并选择相似度超过阈值τ的top-1原型k* arg maxk∈{1,...,K} cos(E(c), E(pT(k))) s.t. cos(E(c), E(pT(k*))) ≥ τ如果没有原型满足阈值标准则不应用负引导。4.2 概念抑制为了抑制不良概念的生成我们通过将选定的文本原型pT(k*)作为负条件信号纳入分类器无关引导中扩展标准CFG。修改后的去噪预测变为ε̃θ(zt,c) εθ(zt) α(εθ(zt,c) - εθ(zt)) - β(εθ(zt,pT(k*)) - εθ(zt))其中第一部分是标准CFG第二部分是负原型引导尺度为β这种设计允许扩散过程选择性地降低目标概念编码的语义权重有效抑制该概念同时保持提示中所有无关方面的保真度。5. 实验与评估5.1 实验设置我们使用SD v1.4作为基础模型评估了我们的方法在广泛概念和狭义概念上的性能。对于广泛概念任务我们主要使用四个基准I2P数据集包含4,703个用户提示通过红队框架生成的三个额外对抗提示集对于所有实验我们使用DDIM调度器采样30步生成图像并将引导尺度设置为7.5作为大多数实验的正常CFG配置。5.2 广泛概念擦除性能我们在I2P数据集的七个安全关键类别上评估了我们的方法仇恨、骚扰、非法活动、自残、性、震惊和暴力。我们通过将所有原型聚合到单个原型库中直接采用多概念擦除设置。表1显示了Q16检测器标记为不适当的生成图像比例。我们的方法在所有类别中始终达到最低或接近最低的检测率实现了最佳的整体性能。特别是在语义多样的概念如暴力、性和骚扰上表现一致而先前的方法通常在子类别间表现出较大差异。5.3 对抗攻击下的性能我们还在对抗攻击下进行了实验使用攻击成功率ASR作为擦除效果的指标FID作为知识保留能力的指标。结果表明尽管我们的方法并非专为对抗攻击设计但在大多数情况下仍能取得良好结果。5.4 狭义概念擦除为了证明我们的方法能有效适应不同粒度的概念我们进一步评估了其在狭义概念上的性能包括艺术风格和知识产权IP。我们选择了Van Gogh、Monet和Picasso的艺术风格以及米老鼠、海绵宝宝和史努比等IP。定量结果显示我们的方法在提供最高美学分数的同时保持了强大的CLIP和FID性能。未擦除概念的最低LPIPSu突出了我们的方法在擦除过程中最大化知识保留的能力。6. 原型数量消融研究为了验证我们的方法设计并确定最佳超参数配置我们对原型数量k进行了消融研究。我们假设广泛概念如性需要相对大量的原型进行有效擦除因为它们通常是抽象的并包含多个子概念。我们变化原型数量k∈{1,2,4,8,16,32,64,128}使用I2P数据集的性类别提示测量两个指标CLIP分数评估生成质量和文本-图像对齐NudeNet检测率量化擦除有效性结果显示将原型数量从k1增加到k16会导致CLIP分数和NudeNet检测率逐渐降低反映了在保持生成保真度和加强概念去除之间的权衡。k16标志着一个转折点超过这个点后较大的原型集如k32,64,128恢复了大部分对齐质量同时保持对目标概念的竞争性抑制。7. 实际应用建议在实际部署原型引导的概念擦除时建议考虑以下因素原型数量选择对于广泛概念建议使用中等数量的原型如k16在擦除完整性和生成质量之间取得平衡计算效率作为一种无需训练的方法我们的方法仅产生边际开销同时保持接近原始推理速度多模型兼容性实验表明我们的方法在SDXL和SD3.5等其他扩散模型架构上也表现优异多概念处理通过构建原型库可以同时处理多个相关或无关的概念擦除需求重要提示在实际应用中建议定期更新原型集以应对新出现的不良概念变体同时监控生成质量指标以确保用户体验不受显著影响。8. 技术局限与未来方向尽管原型引导的概念擦除在广泛概念去除方面表现出色但仍存在一些局限性对于极其新颖或罕见的概念表现形式可能需要额外的原型来确保完整覆盖原型优化过程需要足够的计算资源特别是在处理大量概念时阈值的设置需要根据具体应用场景进行调整以平衡安全性和创造性未来可能的研究方向包括自动化原型发现和优化流程动态调整原型数量和分布结合其他安全机制构建多层次的防护体系原型引导的概念擦除为构建更安全、更可控的生成模型提供了有前景的方向。通过显式建模概念的多样性我们能够更全面地解决T2I模型中的安全问题同时保持其强大的生成能力。