大小|patch成为了ALL You Need？挑战ViT、MLP-Mixer的简单模型来了_模型|挑战|混合|研究|You|patc

【大小|patch成为了ALL You Need？挑战ViT、MLP-Mixer的简单模型来了】机器之心报道
机器之心编辑部

ViT（Vision Transformer）等视觉模型的强大性能，是来自于 Transformer ，还是被忽略的 patch？有研究者提出了简单 ConvMixer 模型进行证明，直接将 patch 作为输入，实验表明， ConvMixer 性能优于 ResNet 等经典视觉模型，并且在类似的参数计数和数据集大小方面也优于 ViT、MLP-Mixer 及其一些变体。

近年来，深度学习系统中的卷积神经网络在处理计算机视觉任务中，一直占据主要地位。但最近，基于 Transformer 模型的架构，例如 ViT（Vision Transformer）架构（Dosovitskiy 等人， 2020 年），在许多任务中都表现出了引人注目的性能，它们通常优于经典卷积网络，尤其是在大型数据集上表现更佳。
我们可以假设， Transformer 成为视觉领域的主导架构只是时间问题，就像它们在 NLP 领域中一样。然而，为了将 Transformer 应用于图像领域，信息的表示方法必须改变：因为如果在每像素级别上应用 Transformer 中的自注意力层，它的计算成本将与每张图像的像素数成二次方扩展，所以折衷的方法是首先将图像分成多个 patch ，再将这些 patch 线性嵌入，最后将 transformer 直接应用于此 patch 集合。
我们不禁会问：像 ViT 这种架构强大的性能是来自 Transformer，还是至少部分是由于使用 patch 作为输入表示实现的？
在本文中，研究者为后者提供了一些证据：具体而言，该研究提出了 ConvMixer ，这是一个极其简单的模型，在思想上与 ViT 和更基本的 MLP-Mixer 相似，这些模型直接将 patch 作为输入进行操作，分离空间和通道维度的混合，并在整个网络中保持相同的大小和分辨率。然而，相比之下，该研究提出的 ConvMixer 仅使用标准卷积来实现混合步骤。尽管它很简单，但研究表明，除了优于 ResNet 等经典视觉模型之外， ConvMixer 在类似的参数计数和数据集大小方面也优于 ViT、MLP-Mixer 及其一些变体。