CUE: Concept-Aware Multi-Label Expansion to Mitigate Concept Confusion in Long-Tailed Learning
CUE面向长尾学习中概念混淆问题的概念感知多标签扩展方法主要解决基础模型在长尾学习微调过程中出现的概念混淆问题本文中还指出在使用 CLIP 等基础模型进行长尾微调时模型不仅会受到类别不均衡的影响还会破坏原有的语义结构从而导致相似类别之间的错误分类为了解决这两个问题本文提出 CUE通过 VLM 和 LLM 构造概念相关类别将原本的单标签监督扩展为概念感知的多标签监督从而缓解长尾微调中的概念混淆问题。会议CVPR 2026代码地址https://github. com/zhangruichi/CUE创新点1.提出长尾微调中的概念混淆问题以往方法主要关注 class imbalance但本文发现基础模型在长尾数据上微调时会破坏原有的类间语义关系导致尾部类样本被错分到语义相近类别中2.提出 CUE模型将原本的单标签监督扩展为概念感知的多标签监督使模型在学习真实类别的同时也保留与该类别相关的视觉和语义关系3.设计两种互补的 cueVLM-based Instance-Level Cue 用 CLIP zero-shot 预测找到当前图像视觉上最相似的类别LLM-based Class-Level Cue 用大语言模型为每个类别构造语义邻居类别。整体框架CUE整体框架图1.VLM-based Instance-Level Cue基于 VLM 的实例级提示首先对于每一张训练图像使用冻结的 CLIP 进行 zero-shot 分类而文本端使用标准 prompt然后计算图像特征和所有类别文本特征之间的相似度结果可能会出现多个相似的类别CUE 会从非真实类别中选出 Top-k 个相似类别作为实例级 cue然后构造多标签监督此模块对于当前图像而言这些类别虽然不是正确的但它们和当前图像在 CLIP 语义空间中很接近训练时不应该把它们全部强行压成负类否则会破坏视觉相似类别之间的关系因此此模块主要缓解的是实例级概念混淆更关注这张图像看起来像哪些类别。2.LLM-based Class-Level Cue基于大语言模型的类别提示主要作用是利用大语言模型构建类别之间的语义邻居关系VLM cue 是针对每一张图像动态生成的而 LLM cue 是针对类别本身构建的对于某一类别LLM会给出一些相关的类别这些类别之间存在语义层面的相似性或概念关联进而真实类别和它的语义邻居都被作为辅助正标签此模块主要缓解的是类别级概念混淆更关注这个类别在语义上接近哪些类别。3.BLA损失Binary Logit Adjustment因为 CUE 构造了多标签辅助监督所以不能直接用普通交叉熵损失对于多标签目标更适合使用 BCE Loss但普通 BCE 没有考虑长尾类别分布所以作者提出了 BLA损失也就是在 sigmoid 之前对每个类别的 logit 加入类别先验调整主要就是防止辅助标签训练时仍然被头部类主导以及让 VLM cue 和 LLM cue 可以稳定参与优化。