目标检测分类部分损失函数:BCE → Focal Loss → VFL → MAL 的演进
先说结论解决检测任务两大核心痛点正负样本极度不均衡、分类与定位解耦、稠密匹配下大量低质量正样本失控每一项损失都是为修复前一代缺陷而生一、交叉熵统一公式也可写成设计目标基础二分类损失衡量预测置信与固定 0/1 标签的差距优点形式简单、梯度稳定、理论完备。缺点检测场景致命正负样本数量极端失衡图像中绝大多数 Anchor 是背景负样本海量简单背景损失主导梯度少量前景梯度被淹没模型学不好物体无难易样本区分简单背景、难分背景同等惩罚简单负样本持续产生无效梯度分类与定位完全解耦所有正样本标签统一为 1不区分预测框和 GT 的 IoU 高低定位差的框也会被强制推高置信NMS 产生大量低质量假阳性框。遗留待解决问题样本不均衡、难例挖掘缺失、置信度不感知框定位精度。二、Focal Loss设计目的BCE 中海量易分背景主导训练梯度希望压低简单负样本权重聚焦难分样本其中正负平衡权重 平衡正负样本数量均衡性0难易调制因子对正样本y1来说当p-1则极小当p-0则极大即简单样本权重小困难样本权重大当y0也是同样的原理。所以通过这个超参让模型聚焦在困难样本的学习优点大幅缓解正负样本不均衡抑制海量简单背景自动挖掘难例提升小物体、模糊物体检测效果轻量化改造可直接替换 BCE 用于所有稠密检测器。缺点遗留核心缺陷依旧使用硬标签 y1,0所有匹配 GT 的正样本统一监督 p-1完全不区分框 IoU分类、定位完全分离置信度不代表框精度大量 IoU 很低的劣质框依然会输出高分NMS 冗余框多对高低质量正样本无差异化监督模型不会优先优化定位精准的高 IoU 框。遗留待解决问题分类置信无法反映框定位质量高低 IoU 正样本同等对待。三、VFL(Varifocal Loss)提出动机Focal Loss 置信与 IoU 无关低 IoU 框高置信干扰 NMS希望让分类得分自带 IoU 感知优质框高分、劣质框低分。q 预测框与 GT 的 IoUp 分类预测q0为正样本q0为负样本对这个公式不要想着是从Focal loss推导过来的应该想着是从BCE推导过来的再加上保留focal loss中对负样本的损失设计这样就好理解了对q0部分抛弃交叉熵()中y1的固定标签监督目标改为 IoU 值q即定位越准要求置信越高在外层再进行二次q加权那么高 IoU 优质框损失权重更大梯度更强模型优先学习精准框对q0负样本部分则完全保留focal loss的设计优点IoU 感知分类置信解决分类定位解耦NMS 过滤大量低质量框显著提升 mAP差异化监督正样本高 IoU 框获得更强训练信号兼容 RetinaNet/FCOS/YOLO 等稠密检测框架。致命缺点稠密 O2O 匹配场景暴露稠密标签分配SimOTA/TAL会产生海量极低 IoU 正样本q≈0.05~0.3双层 q 结构造成梯度近乎消失内层标签q本身极小基础 BCE 损失已经很低外层再乘以q二次缩放损失被压缩几十倍低质量匹配框即便盲目输出高置信p损失惩罚微乎其微模型没有动力压低其置信大量劣质框高分泛滥抵消 VFL 收益论文中认为超参多调参成本高。四、MAL(Matchability-Aware Loss)提出动机VFL 双层 q 衰减导致极低 IoU 匹配样本几乎无惩罚面向稠密一对一匹配场景需要同时约束好匹配、差匹配让所有匹配 Anchor 都具备有效梯度论文默认 1.5为软标签针对性的改造优化VAL的短板当q很小匹配差当然再小也是0也就是正样本的场景啦几乎为0也就是公式中左半部分那么当p很大损失很大公式第二部分的log(1-p很大惩罚低IOU却盲目自信的相反当q很大匹配好当然也是正样本场景偏高损失来源主要为公式第一部分当p很小时损失飙升大监督模型提升匹配好的置信度移除平衡超参简化损失结构降低调参难度负样本保留 Focal 的调制持续抑制简单背景。优点继承 VFL IoU 感知能力高 IoU 框置信校准效果不变解决 VFL 最大缺陷海量低 IoU 稠密匹配样本拥有充足梯度杜绝劣质框盲目高分公式更简洁去掉调参成本更低完美适配 SimOTA、TAL 等生成大量低质量正样本的标签分配策略。缺点引入新超参需要根据数据集微调完全依赖 BCE 原生梯度极端多低 IoU 样本时训练前期梯度震荡略高于 VFL演变总结BCE基础分类损失但扛不住检测样本不均衡Focal Loss解决正负 / 难易样本失衡但置信和框精度无关VFL引入 IoU 软标签实现置信感知定位质量但双层 q 压缩导致低 IoU 匹配监督失效MAL删外层加权、改用幂次标签完整保留 BCE 惩罚力度兼顾高低质量所有匹配样本适配现代稠密检测器。整体不变的底层全部基于二元交叉熵核心机制后续所有改进都只在标签构造、损失加权系数上做改动没有替换 BCE 基础损失形式。