ResNet被改动后再次击败了Transformer，引发了架构的新一轮争论！

时间：2024-06-26 10:57:23 浏览：次

作者声称“处处皆创新”。本文经AI新媒体量子位（公众号ID:QbitAI）授权转载，请注明出处后转载。在过去的一年里，Transformer在视觉领域频繁涉足，似乎有意抢占CNN的地位。

开始在图像分类方面被谷歌ViT打破，随后在目标检测和图像分割领域被微软的Swin Transformer超越。随着投入视觉Transformer研究的学者逐渐增加，三大任务排行榜上的领先位置都被Transformer或结合了两种架构的模型占据。

然而，正当如此关键时刻，一篇名为《2020年代卷积神经网络》的论文横空出世，带来全新的纯卷积模型ConvNeXt，引起一时轰动——

全球计算机视觉领域再次掷开一场关于模型架构的辩论，包括LeCun在内的众多顶尖学者都纷纷发表评论。一项研究发现，ConvNeXt在ImageNet-1k数据集上的性能优于同尺寸的Swin Transformer，超过了后者0.7%。在

COCO和ADE20K数据集上，ConvNeXt在相同规模下达到了更好的性能或者相同水平。面对由Facebook与加州大学伯克利分校合作打造的这篇论文，深度学习三巨头之一的LeCun坦言：卷积模型和视觉Transformer之间的辩论越来越激烈了！

在GitHub上，ConvNeXt已连续数日位居趋势榜首。

这个学术问题在国内引起了相当大的关注，甚至一度登上知乎的热门榜单。

在海外，许多大学学者和谷歌、Arm等知名公司的工程师都参与了讨论，甚至有幸邀请到一些经典论文的作者——

ViT的创作者、EfficientNet系列的作者都展示了他们的最新研究成果，展开了一场激烈的学术交流。

△ViT论文第二作者在改进训练方法后展示了结果魔改ResNet反超Transformer再掀架构之争！作者说“没一处创新”

△EfficientNet系列的作者补充了最新的v2版本成果

再谈LeCun，这次他并不是来为自己的成果辩护，而是提出互相借鉴模型架构是未来的发展方向。你以为接下来我会说“只要 Conv 就够了”吗？不是！LeCun本人特别喜欢的结构与DETR类似，首层为卷积，随后结合了更多Transformer风格的层。尽管此次的ConvNeXt并非他所描述的那种模式，但它也借鉴了许多Transformer的技巧，LeCun认为这正是它成功的关键所在。这篇论文的通讯作者谢赛宁对这些讨论也进行了回应。他强调这篇论文并非旨在追求精确度，而是探索卷积模型的设计潜力。在设计阶段，他们的团队十分克制，努力保持模型的简洁。在我看来，所有模型结构应该是友好的，唯有过度复杂才是共同的敌人（如果你赞同奥卡姆剃刀原理的话）。

究竟哪种结构最强，就不谈了。参与讨论的各位大咖对这篇论文的看法一致：

图表精致，结构清晰，实验充足，值得一读！魔改ResNet反超Transformer再掀架构之争！作者说“没一处创新”

尤其是其中一幅精美插图，可以称为全文的亮点，也是作者自己提供的"一目了然"说明。在

图中，清晰展示了一系列步骤，如何将ResNet-50的准确率从78.8%提升至82.0%，同时展示了使用的各种方法。

魔改ResNet反超Transformer再掀架构之争！作者说“没一处创新” 接下来首先将介绍一下这篇论文，让我们了解一下ConvNeXt所采用的方法以及背景。过一段时间再回过头看架构之争，相信会有全新的认识～接下来为CNN引入Transformer技术，先看摘要，其中有一句话阐明了研究的初衷。

……这篇文章的目的是重新探讨CNN的设计领域，在ResNet的基础上采用现代方法进行优化，测试纯卷积模型的极限性能……

团队认为，虽然Transformer在视觉领域取得了巨大成功，但全局注意力机制的复杂度与输入图像尺寸的平方成正比。

针对ImageNet图像分类任务的224×224和384×384分别是勉强可以接受的，但对于需要高分辨率图像的实际应用场景来说则并不太理想。Swin Transformer通过重新引入卷积网络中的滑动窗口等多种特性来解决了这一问题，但也使得Transformer更加类似于CNN。Swin Transformer的成功让人们重新认识到卷积在深度学习中的重要性。基于此，本文的研究方向是：考虑将卷积模型与Transformer架构中的技术相结合，但不使用注意力模块，会带来怎样的影响？这篇论文的最终展示，是将标准的ResNet逐步改造成更类似Transformer的蓝图。

指的是前面提到的备受好评的图片。在

个条形图中，有色块部分表示Swint-T和ResNet-50在不同条件下模型精度的比较。

图中的灰色部分展示了Swin-B和ResNet-200之间的比较，阴影部分表示该方法最终未被采纳。

为了公平对比，模型在整个过程中的计算量也大致保持与Swin Transformer相当。研究小组将改进总结为五个部分：整体设计、引入ResNeXt、反转瓶颈层、增大卷积核、微调设计。然而，在详细解释每个部分之前，需要先介绍一下训练方法的改进。视觉Transformer带来了全新的模块和架构设计，同时还采用了与传统CNN不同的训练方式。在这篇论文中使用的训练方法类似于DeiT和Swin Transformer。将ResNet模型中的epoch数量从90增加到300，并同时更换为AdamW优化器。在数据增强方面，引入了Mixup、Cutmix、RandAugment和Random Erasing。在正则化方面，我们采用了随机深度和标签平滑的技术。经过这些措施的应用，torchvision版本的ResNet-50在性能上提升了2.7个百分点，从76.1%增长至78.8%。使用在ImageNet-1k数据集上训练的224x224分辨率图像，

（在以下均指同一）

，

这一结果证明，卷积神经网络与视觉Transformer之间的性能差异在一定程度上也受训练方法影响。接下来将详细介绍对模型本身的五个重要改动。

1、在整体结构设计方面

，主要进行了两处修改，借鉴了Swin Transformer的思路。ResNet-50模型的原始版本在4个阶段中分配block的数量比例为（3, 4, 6, 3）。Swin Transformer引入了多尺度特征融合的思路，每个阶段输出不同分辨率的图像，但比例被改为1：1：3：1。ConvNeXt模型按照比例（3，3，9，3）进行分配后，精确度提高了0.6%，达到了79.4%。根据之前Facebook团队进行的两项研究，他们认为可能存在更加理想的比例，需要进一步研究探索。

的第二项修改是在词干层。ResNet-50的传统方法是在输入图像上应用一个步长为2的7x7卷积，再加上最大池化，相当于将输入图像下采样了4倍。在ViT模型中，输入图像会被切割成多个小块进行处理，每个小块的操作不会重叠。Swin Transformer的拼接大小是4x4，因此ConvNeXt也使用了4x4的非重叠卷积，步长为4。这次修改使模型精确度再次提高了0.1%，现在达到了79.5%。ResNeXt

是由本文通讯作者谢赛宁在Facebook何恺明团队实习期间提出的一篇论文，发表在CVPR 2017年。相比于原版ResNet，ResNeXt在精度和计算量方面找到了更好的平衡，因此ConvNeXt计划继承这一优点。ResNeXt的基本理念是采用组卷积，同时通过增加网络宽度来弥补模型容量的损失。本次的ConvNeXt将分组数直接设为与输入通道数相等，即96。每个滤波器都独立处理一个通道，在空间上进行信息整合，从而得到类似于自注意力机制的效果。这次修改使模型的准确度再次提高了1%，达到了80.5%。在MobileNetV2中首次提出了

这种方法，即反转瓶颈层，后来也被更多轻量化的CNN模型广泛采用。\[\text{

}\text{ }\text{

}\text{有趣的是，Transformer采用类似的设计，ConvNeXt也做了尝试。}\]经过这种反转后，尽管深度可分离卷积层的浮点运算数增加了，但通过下采样残差块，整个网络的浮点运算数却反而减少了。

的准确度也略微提升了0.1%，达到了80.6%。在基于ResNet-200的更大模型中，改善效果更为显著，准确率从81.9%提升至82.6%。使用更大的卷积核从VGG开始，3x3卷积核已经成为最佳选择，小型卷积核在硬件上也有很好的支持。Swin Transformer引入了一种类似卷积核的局部窗口机制，但其大小至少为7x7。据此，ConvNeXt计划再次研究不同卷积核尺寸的影响。在X之后，反转了瓶颈层，对卷积层的维度进行了放大，直接增加卷积核会导致参数数量显著增加。

因此，在这之前需要进行另一步操作，即在瓶颈层反转的基础上将depthwise卷积层提前（从b到c）。这一步操作导致模型精度暂时降至79.9%。经过

之后, 我们对卷积核大小进行了多次尝试，从3x3一直尝试到11x11。在使用7x7的卷积核时，模型的准确率成功恢复到80.6%。在增加{X}的时候，效果就不那么明显了。在ResNet-200模型中也有同样的情况，所以最后卷积核的大小设定为7x7。

5、接下一步是在更高一级的微观设计中进行细致设计，主要关注激活函数和归一化操作。在卷积神经网络中，主要采用简单高效的ReLU函数来激活模型。GELU 是比 ReLU 更平滑的激活函数，在 BERT、GPT-3 和其他 NLP 模型，以及 ViT 中被广泛采用。在对ConvNeXt进行探索时，虽然使用GELU激活函数未能提高模型的准确性，但这仍可作为一种可行方案。每个Transformer块中只有MLP块包含激活函数。CNN通常的作法是在每个卷积层后面都添加一个激活函数

。ConvNeXt尝试采用与Transformer一致的做法，只保留了两个1x1层之间的GELU激活函数。使用这种技巧使得模型准确度提高了0.7%，最终达到81.3%，与Swin-T模型持平。

的正规化层数量也相应减少，精确度再次提高0.1%，达到81.4%，超过了Swin-T。

接下来将要用LN（层归一化）来替换BN（批次归一化），在原始的ResNet中这个操作会导致准确度下降。虽然在之前的基础上进行了各种修改，但ConvNeXt上的这一操作使模型的准确度提高了0.1%，目前达到了81.5%。在最后，进行下采样层的分离是必不可少的一步。在ResNet中，降采样是通过残差块来实现的，而Swin Transformer则采用了独立的降采样层。ConvNeXt也尝试了类似的方法，它使用2x2的卷积核和步长为2来进行下采样。

的结果却导致了培训的不稳定。在后来找到了解决方案，可以在每个下采样层之前、干线之前，以及最终的全局平均池化之前都加上LN。根据所有修改，ConvNeXt单个块的结构最终确定了。ConvNeXt-T在经过

次迭代后，最终精度达到了82.0%，高于Swin-T的81.3%。ConvNeXt在比较更大的模型时稍微领先，但优势正在逐渐缩小。

引人入胜的是，团队总结说：

在所有这些方法中，这篇论文没有创新之处，而是基于过去十年间多项研究的成果。ConvNeXt将所有这些方法集中进行研究，最终发现了一种纯卷积模型，可以在ImageNet-1k数据集上击败Transformer。从浮点运算次数、参数数量、处理能力和内存消耗等方面来看，每种尺寸的ConvNeXt模型与Swin Transformer大致相当。ConvNeXt的优势在于，不需要引入额外的移动窗口注意力、或者相对位置偏置等特殊结构。

的简洁性保持不变，同时也使得部署更加便捷。

最终，团队希望透过本论文挑战一些被广泛接受和默认的观点。

的目的是激励研究人员重新审视卷积在计算机视觉领域的重要性。ConvNeXt的发展引发了视觉模型架构之争，许多学术界和工业界的人士纷纷提出了各种不同观点。马毅教授在谈到架构争议时表示，他并不太认同这种表面上的竞争。马毅教授希望

注多注意他的下一条微博，更注重理论基础。在知乎上有匿名用户提出这篇文章对工业领域更有价值。Transformer此前虽然效果很好，但在实际部署中却面临着很大的挑战，因此大家一直期待着看到卷积方法的最终实力。这也是ConvNeXt研究的最初目的。从作者韦斯宾在回答另一处讨论时表明，研究团队认为ImageNet的结果并不是重点。他们更希望强调和引起大家的关注的是卷积模型在目标检测等后续任务中的表现。ConvNeXt在COCO和ADE20K数据集上进行了验证，结果显示在处理下游任务时，它与SwinTransformer相比表现相当，甚至更好。在接下来的讨论中发生了一件有趣的事情。让人问起LeCun，你们部门是否应该随着公司改名为Meta，为什么论文的署名仍然是FAIR？LeCun开玩笑说这代表基础AI研究，也很幽默～作者团队前面提到的谢赛宁是FAIR研究员，本科毕业于上海交通大学ACM班，博士学位来自UC圣地亚哥分校。赛宁在攻读博士期间曾在FAIR做实习，在那段时间里与何恺明合作完成了ResNeXt，他是那篇论文的第一作者。何开明不久前参与了备受关注的一篇MAE论文。

這篇論文中，ConvNeXt的作者是通訊作者，巧合的是，這位作者也是在博士期間來實習的。刘壮，一个在UC伯克利攻读博士学位的学生，是清华大学姚班的毕业生。DenseNet 的作者荣获了 CVPR 2017 年的最佳论文奖。魔改ResNet反超Transformer再掀架构之争！作者说“没一处创新”