大小|patch成为了ALL You Need?挑战ViT、MLP-Mixer的简单模型来了( 三 )


结果如下表 1 所示 。 参数量为 52M 的 ConvMixer-1536/20 在 ImageNet 上实现了 81.4% 的 top-1 准确率 , 参数量为 21M 的 ConvMixer-768/32 实现了 80.2% 的 top-1 准确率 。 更宽的 ConvMixers 在训练 epoch 更少时出现收敛 , 但需要内存和计算 。 当卷积核更大时表现也很好:当卷积核大小从 K = 9 降至 K = 3 时 , ConvMixer-1536/20 的准确率大约降了 1% 。 当 patch 更小时 , ConvMixers 的表现明显更好 。 因此 , 研究者认为 , 更大的 patch 需要更深的 ConvMixers 。 他们使用 ReLU 训练了一个模型 , 以证明 GELU 是不必要的 。
ConvMixers 模型和训练设置与 DeiT 非常相似 。 在最近的各向同性模型中 , 研究者认为 DeiT 和 ResMLP 是最公平的竞品模型 , 并且使用相同的过程训练了 ResNet(它的原始结果已经过时了) 。 从表 1 和下图 1 可以看到 , ConvMixer 在给定的参数预算下实现了具有竞争力的结果:ConvMixer-1536/20 在使用明显更少参数的情况下 , 优于 ResNet-152 和 ResMLP-B24 , 并能够与 DeiT-B 竞争 。 不仅如此 , ConvMixer-768/32 仅使用 ResNet-152 的 1/3 参数 , 就实现了与之相似的准确率 。

大小|patch成为了ALL You Need?挑战ViT、MLP-Mixer的简单模型来了
文章图片

但是 , ConvMixers 的推理速度较竞品模型慢得多 , 这可能因为它们的 patch 更小 。 超参数调整和优化可以缩小这一差距 , 具体参见下表 2:

大小|patch成为了ALL You Need?挑战ViT、MLP-Mixer的简单模型来了
文章图片

推荐阅读