一、引言1.1 研究背景近年来,深度学习视觉骨干网络经历了从卷积神经网络(CNN)到视觉Transformer(ViT)的演进。ResNet、EfficientNet等CNN架构通过精心设计的卷积操作和残差连接取得了优异的性能;而ViT及其变体(如Swin Transformer、PVT等)则借助自注意力机制的全局建模能力,在多个视觉任务上刷新了纪录。然而,一个长期存在的问题是:究竟是什么因素决定了一个架构的性能?是具体的操作(卷积 vs 注意力),还是整体的架构范式?MetaFormer的提出对这个问题给出了一个发人深省的答案。MetaFormer(Meta-Former,元范式)的研究表明,真正决定性能的是整体的架构范式(即token混合 + 通道MLP的元结构),而不是具体的token混合操作(自注意力、池化、卷积等)。1.2 MetaFormer的核心思想MetaFormer是2021年由谷歌研究院和新加坡国立大学联合提出的概念。其核心洞察在于:元范式(Meta-Paradigm):无论是CNN还是Transformer,都可以抽象为"Token Mixer + Channel MLP"的元结构Token Mixer的可替换性:将自注意力替换为简单的池化操作,性能几乎没有下降