大小|patch成为了ALL You Need？挑战ViT、MLP-Mixer的简单模型来了( 二 )_模型|挑战|混合|研究|You|patc

还有网友表示：「作为消融实验，我认为很有趣。我不认为这篇论文的目的是表达『 ConvMixer 是一个好的架构，值得研究者使用』，而是『这个简单的架构有效的帮助我们缩小了其他模型最有价值的特性范围』。」

文章图片

一个简单的模型：ConvMixer
ConvMixer 由一个 patch 嵌入层和一个简单的全卷积块的重复应用组成。该研究保持 patch 嵌入的空间结构，如下图 2 所示。 patch 大小为 p 和嵌入维度为 h 的 patch 嵌入可以实现具有 c_in 输入通道、h 个输出通道、内核大小 p 和步长 p 的卷积：

文章图片

ConvMixer 块本身由 depthwise 卷积（即组数等于通道数 h 的分组卷积）和 pointwise（即内核大小为 1 × 1）卷积组成。每个卷积之后是一个激活函数和激活后的 BatchNorm：

文章图片

在 ConvMixer 块的多次应用之后，执行全局池化以获得大小为 h 的特征向量，并将其传递给 softmax 分类器。
设计参数：ConvMixer 的实例化取决于四个参数：（1）宽度或隐藏维度 h（即 patch 嵌入的维度），（2）深度 d ，或 ConvMixer 层的重复次数，（3 ) 控制模型内部分辨率的 patch 大小 p ，(4) 深度卷积层的内核大小 k 。研究者根据它们的隐藏维度和深度命名 ConvMixers ，如 ConvMixer-h/d 。他们将原始输入大小 n 除以 patch 大小 p 作为内部分辨率；但是请注意， ConvMixers 支持可变大小的输入。
动机：ConvMixer 架构基于混合思想。具体地，该研究选择了 depthwise 卷积来混合空间位置，选择 pointwise 卷积来混合通道位置。先前工作的一个关键思想是 MLP 和自注意力可以混合较远的空间位置，即它们可以具有任意大的感受野。因此，该研究使用较大的内核卷积来混合较远的空间位置。
实验结果
研究者首先在 CIFAR-10 上执行了小规模的实验，其中 ConvMixers 仅使用 0.7M 的参数实现了 96% 以上的准确率，验证了卷积归纳偏置的数据高效性。
此外，研究者不使用任何预训练或额外数据，在 ImageNet-1k 分类数据集上对 ConvMixers 进行了评估。他们将 ConvMixer 添加到 timm 框架中，并使用近乎标准的设置进行训练，包括默认 timm 增强、RandAugment、mixup、CutMix、随机删除（random erasing）和梯度标准裁剪。
研究者还使用了 AdamW 优化器和一个简单的 triangular 学习速度时间表。由于计算受限，他们没有在 ImageNet 上进行超参数调整，并较竞品模型训练了更少的 epoch 。

大小|patch成为了ALL You Need？挑战ViT、MLP-Mixer的简单模型来了( 二 )

推荐阅读

小龙虾怎么清洗干净小龙虾用菜油还是色拉油好吃

开农家乐需要什么手续

篮球是有氧运动的吗？

人力成本的管控

消毒柜可以不沥干水放进去吗? 消毒柜的简单介绍

孟一畅是什么电视剧

手机数据备份在哪里手机号码在哪里找

上海老街有哪些

福州苏苏酱鸭制作技艺是哪儿的民俗吗？福州苏苏酱鸭制作技艺介绍

考研如何回答分析题

冬瓜粥的功效有哪些

鼠年拜早年祝福语

降水资质怎么办理需要什么条件

女人出轨后最容易被发现的3个细节为什么女人出轨后更容易离婚

普通本科第一批控制线是什么意思

半夏与黄连配伍的药对作用与功效

卤味如何加热

布拉斯劳伦特红葡萄酒适合搭配什么食物？

冰酒具有的作用

狗会得艾滋病吗了解一下