翻译Self-Prompt Mechanism for Few-Shot Image Recognition
少数次学习提出了一个巨大的挑战因为它需要基于有限的示例集有效地识别新类。最近的研究试图通过利用外部文本提示来调整视觉特征以解决罕见样本的挑战。然而由于提示文本和图像特征之间固有的模态差异这些方法的性能受到限制。我们提出了一种新的自提示机制(SPM)来根据未知数据自适应地调整神经网络而不是天真地利用文本生成的外部语义信息来指导图像编码器的训练。具体来说SPM涉及到图像编码器跨空间和通道维度产生的固有语义特征的系统选择从而产生自提示信息。随后在将这种自提示信息反向传播到神经网络的更深层后它有效地引导网络学习和适应新样本。同时我们提出了一种新的参数高效调谐方法该方法只微调与自提示相关的参数(提示不超过总参数的2%)并将额外的可学习参数作为自提示的结合通过冻结编码器权重来确保先验知识的保留。因此我们的方法非常适合于在有限的标记数据约束下需要信息保留和网络参数自适应调整的少镜头识别任务。少拍图像识别的语义提示和自提示机制。(a):语义提示方法需要额外的文本信息和文本编码器来生成外部提示。(b):我们提出的自提示机制不需要额外的信息只需要微调少量的参数就可以从图像编码器的固有语义信息中生成提示。尽管深度学习在计算机视觉方面取得了重大进展但它通常依赖于大量标记样本这偏离了人类的学习过程。几次学习(Finn, Abbeel, and Levine 2017;Munkhdalai等人2018;Antoniou, Edwards, and Storkey 2018)旨在弥合人类之间的差距*这些作者贡献相同。通过解决从有限数量的标记训练数据中学习并推广到看不见的数据的挑战智能和学习机器。少镜头图像识别确实是少镜头学习算法领域的一个广泛的研究课题。少镜头图像识别的目标是开发能够有效适应在有限样本数据下识别和分类未见类的模型。这项任务特别具有挑战性因为它需要从一些标记数据中学习判别特征(Zhang et al 2022;Afrasiyabi et al 2022)。由于新类别中标记样本的稀缺性一种简单的方法是利用其他模式的信息作为辅助指导。最近随着CLIP模型的引入(Radford et al 2021)一系列的文本基于语义提示的方法(Chen et al . 2023;Zhu等2023;Jeong等人2023)已经出现以指导视觉模块的训练。如图1 (a)所示这些方法通常遵循CLIP的训练范式分别使用文本编码器和图像编码器基于文本嵌入生成判别图像特征。尽管基于文本的语义提示方法在短时学习领域取得了显著的成功但大多数方法都存在以下问题。首先语义提示依赖于生成的或手动编写的文本信息。尽管BERT (Devlin et al . 2019)和GPT (Radford et al . 2019)等大型语言模型(2018)可以从类名中提取丰富的文本信息但同一类的文本描述的多样性导致生成的语义提示不准确。其次基于文本的提示方法需要额外的文本编码器从文本信息中提取特征导致额外的计算开销。第三由于网络生成的文本和视觉特征不一致文本和图像模态不同导致的信息缺口限制了文本特征为视觉特征学习提供最佳外部语义提示的有效性。为了解决上述三个问题受人类认知过程的启发(LEE 2002;Yu and Dayan 2004;Baifeng, Trevor, and Xin 2023)和人类元认知能力(Salles et al 2016)我们提出了一种新的自提示机制来指导视觉网络的训练。直觉上人类具有元认知能力可以根据过去的经验进行总结并在遇到类似的问题或任务时提供自我提示(Fleming and Dolan 2012)允许他们修改自己的策略或行动方向以便明确地与任务的目标保持一致。我们提出了一种新的方案通过将自我提示机制应用于少镜头学习过程来利用这种人类机制如图1 (b)所示。具体而言学习过程的指导是通过自上而下的方法实现的。我们对图像编码器的深层特征进行空间和通道选择生成未见类或域的内在自提示信息然后将生成的提示信息传回网络的深层对特征提取过程进行自适应调整。通过提示自注意的计算过程我们提出的自提示机制可以指导图像编码器t的训练从未见数据中提取判别特征。此外由于不同的看不见的类或领域具有不同的特征需求(Li, Liu, and Bilen 2022)因此网络必须具有一种通用且高效的自适应机制能够有效处理看不见的类或领域的显著不同的语义特征。同时当面对只有有限数量的标记数据的未见过的类或领域时网络应该具有参数效率来调整自适应参数。为了解决这些挑战我们提出了一种新的参数高效调优方法该方法根据未见数据专门微调与自提示相关的参数需要调整的参数不超过总网络参数的2%。因此该方法还以冻结编码器权值的形式保证了先验知识的保留特别适用于数据可用性有限的情况。同时本文提出的方法为单域和跨域场景下的少量图像识别任务提供了统一的自适应方法。我们的主要贡献可以概括如下:•我们提出了一种新的自提示机制用于少量图像识别。该机制受人类认知过程的启发旨在根据自我提示自适应调整网络以学习判别特征。•我们设计了一种跨空间和通道维度的特征选择策略以熟练地生成内在的自我提示信息这些信息被用来指导自我注意计算。•我们提出了一种新的参数高效调谐方法该方法专门微调与自提示相关的参数(提示不超过总参数的2%)并将额外的可学习参数作为自提示的结合确保通过冻结编码器权重来保留先验知识。•我们在单域和跨域基准数据集(包括Mini-ImageNet, CIFAIR-FS和CDFSL)上评估了我们提出的少量图像识别(简称SPM)的自提示机制。SPM取得了令人满意的结果将最先进的1发和5发识别准确率平均分别提高了1.97%和1.45%。此外烧蚀实验验证了所提出的特征选择策略和参数高效调谐方案的有效性。少量图像识别。少镜头图像识别是少镜头学习领域的一个重要分支。与普通识别任务不同少量图像识别任务涉及训练集和测试集之间的任务分配转移。通常少镜头识别任务可以分为两种不同的场景。第一种类型是在单域场景中在训练集和测试集之间存在类别转移。在这种情况下有两种主要的学习方法基于优化和基于参数。例如作为基于优化方法的代表MAML (Finn, Abbeel, and Levine 2017)及其变体(Sun et al 2019)旨在学习熟练的模型初始化能够在有限数量的优化步骤内快速适应新类。或者基于度量的方法旨在在适当的特征空间中表示样本然后计算查询与一组支持示例的质心之间的距离(Vinyals等人2016;Hu et al . 2022;Afrasiyabi et al 2022)。第二种类型涉及跨域场景与单域场景相比它更具挑战性。提示学习。快速学习(Liu et al . 2023)已经成为适应计算机视觉领域Transformer模型的一种高效技术。通过将一组可学习的参数合并到预训练模型的输入和中间表示中Transformer可以适应特定的任务和领域。近期作品(Lester, Al-Rfou和Constant 2021;李梁2021;Liu et al . 2021)提出将提示视为特定类别的连续向量并在微调期间通过梯度直接优化它们。这些研究强调了利用Transformer的内在能力在广泛的计算机视觉任务中增强适应方法的潜力。同时VPT (Jia et al 2022)在Transformer的每一层引入了可学习的令牌从而实现了与补丁和类令牌的交互。这些可学习标记和分类器头部共同优化实现有效的自适应。此外(Chen et al . 2023)采用大型语言模型并利用新的文本信息来指导视觉模型的训练以进行少量图像识别。然而这些方法往往依赖于来自其他模态的信息或需要生成额外的外部提示来参与自注意计算由于自注意层的二次复杂性导致计算成本增加。相比之下我们提出的自提示机制产生内在的自提示信息这些信息传输到Transformer的深层并且是参数高效的只需要微调少量的参数就可以适应不同场景下的少量图像识别任务。提出的自提示机制的核心是根据未见的类或域自适应地调整模型参数。我们提出的方法的完整流程如图2所示。首先我们将支持集图像和查询集图像输入到模型中并通过视觉变换(Vision Transformer, ViT)提取特征(Dosovitskiy et al . 2020)。同时我们对网络深层的语义特征进行特征选择生成自提示信息。同时我们传播生成的自提示信息指导网络深层自注意计算过程的训练过程。值得注意的是在元训练中我们训练图像编码器的参数而在元测试中我们利用提出的参数高效调优方法对少量参数进行微调。The Self-Prompt MechanismSelf-Prompt Generation and Projection人类可以总结从以前的任务中获得的经验和教训使他们能够在遇到类似或相关的任务时根据过去的经验调整策略和纠正方向(LEE 2002;Yu and Dayan 2004)。提出的自提示机制通过提取和提炼网络的深层特征并以自上而下的方式对网络进行微调以适应不同的看不见的类别模拟了人类的这一过程。具体来说我们使用标准的ViT模型作为主干并将自提示机制应用到Transformer结构的最后三层。为了保证自提示信息提取的准确性我们在网络的空间和通道维度上进行特征选择。具体来说我们首先对特征F∈RN×D进行空间维度选择其中N表示tokens个数D表示特征的维度,每个标记被映射到的。随后训练一个可学习的空间提示向量s∈RD并进行归一化然后将其与同样归一化的深层特征F∈RN×D逐元素相乘得到向量m:然后通过舍入运算得到空间维度的掩模向量m∈RN公式如下其中i的取值范围为1 ~ n最后利用m∈RN对深度特征F∈RN×D进行掩码运算从而实现空间维度的特征选择。具体计算过程如下:式中⊙为广播的元素产品Fs为空间选择后得到的特征。同时我们还定义了一个可学习矩阵C∈RN×D将其与经过空间掩码处理后的矩阵相乘选择通道相关的特征从而生成通道选择Fc后得到的特征。具体计算过程如下:值得注意的是上述的空间提示向量s∈RD和通道提示矩阵C∈RD×D都是可训练的。此外我们的网络能够自适应地调整不同类别或领域的特征以适应单域或跨域场景下的少量识别任务。此外网络的不同深度表明了捕获和强调不同特征集的专业化。较浅的层主要强调图像的纹理和细节而较深的层更多地关注语义信息。同时对于分类任务来说图像中包含的语义信息是至关重要的。因此在网络的训练过程中我们为骨干网的后三层生成自提示信息Self-Prompt Projection.:我们分别采用了三种可选的投影方法:恒等映射、线性映射和MLP映射。以MLP投影为例自提示投影过程如下:其中P∈RN×D是我们生成的最终自提示矩阵。通过进一步投射自提示信息指导网络训练过程的信息可以调整以适应未知的类或域。值得注意的是不同的映射方法对应不同数量的可调参数我们将在实验部分进一步介绍投影方法的选择。本文默认采用单位映射方法。Self-Prompt Attention.受人类认知过程的启发个体可以根据不同的任务要求调整自己的策略我们同样指导了更深层次网络层自关注计算过程中查询向量的初始化。具体来说我们要求网络知道“查询什么”。因此我们对生成的自提示信息P∈RN×D进行重构使其与查询向量的维度匹配然后将其相加。这个修改的目的是引导网络的学习过程。具体而言自我注意计算(Vaswani et al . 2017)修改如下:其中X∈RN×D为原始自关注计算过程的输入P∈RN×D为上一节生成的自提示矩阵√dk为比例因子。通过在自注意的训练过程中使用自提示信息作为指导网络可以根据新类或新领域的不同特征需求自适应地调整其学习过程。这使得网络能够有目的地学习并在学习过程中适应不同场景下的少量识别任务。Training Procedurer:元训练我们采用无监督预训练模型作为模型训练的初始权值。在元训练阶段我们采用了情景训练策略(Snell, Swersky, and Zemel 2017)该策略在基本训练数据集上模拟了少镜头场景。具体来说对于k - n次射击任务我们随机抽样k - n次射击和q -查询。一般来说我们定义式中f为骨干网络Nk P i:yik为支持集中k类的大小ck为支持集中k类的原型。然后我们利用softmax函数来计算查询图像xq属于类k的概率:其中K定义为支持集中类别的个数。请注意无论k值如何原型都可以计算这使得我们的模型能够在各种方式各种射击设置下进行训练。最后我们在计算交叉熵损失后更新网络的参数其中yi是查询集的实例xi对应的目标输出。