一、引言1.1 研究背景目标检测是计算机视觉领域的核心任务之一,在自动驾驶、智能监控、工业质检等场景中具有广泛应用。自YOLO系列算法问世以来,单阶段检测器凭借其高效的推理速度和不错的检测精度,成为了工业界的首选方案。YOLOv8作为Ultralytics团队推出的最新版本,在骨干网络中采用了C2f模块,融合了CSPNet和ELAN的设计思想,在精度和速度之间取得了较好的平衡。然而,纯卷积神经网络(CNN)在建模长距离依赖关系方面存在固有局限。卷积操作的局部感受野特性使得网络难以捕获全局上下文信息,这在处理大目标、遮挡目标或需要语义理解的场景时尤为明显。与此同时,Transformer架构凭借其自注意力机制(Self-Attention)在自然语言处理领域取得了巨大成功,并逐渐扩展到计算机视觉领域。Vision Transformer(ViT)证明了纯Transformer架构在图像分类任务上可以媲美甚至超越CNN,但ViT在目标检测等密集预测任务上的表现仍有提升空间。1.2 混合架构的动机CNN和Transformer各有优劣:CNN的优势:局部特征提取能力强、平移等变性、计算高效、对低级别视觉特征(边缘、纹理)敏感CNN的劣势:长距离依赖建模困难、感受野增长受限、全局上下文理解不足Transformer的优势:长距离依赖建模能力强、全局上下文感知、动态感受野