速度|普林斯顿、英特尔提出ParNet，速度和准确性显著优于ResNet( 二 )_Block|融合|研究|准确性|ResN

降采样和融合 block
除了输入和输出大小相同的 RepVGG-SSE block 之外， ParNet 还包含降采样（downsampling）和融合 block 。降采样 block 降低了分辨率并增加了宽度以实现多尺度（multi-scale）处理，而融合 block 将来自多个分辨率的信息组合。在降采样 block 中，没有残差连接（skip connection）；相反，该研究添加了一个与卷积层并行的单层 SE 模块。
此外，该研究在 1×1 卷积分支中添加了 2D 平均池化。融合 block 和降采样 block 类似，但还包含一个额外的串联（concatenation）层。由于串联，融合 block 的输入通道数是降采样 block 的两倍。为了减少参数量，该研究的降采样和融合 block 的设计如下图所示。

文章图片

网络架构
图 2a 展示了用于 ImageNet 数据集的 ParNet 模型示意图。初始层由一系列降采样块组成，降采样 block 2、3 和 4 的输出分别馈送到流 1、2 和 3 。研究者发现 3 是给定参数预算的最佳流数（如表 10 所示）。每个流由一系列不同分辨率处理特征的 RepVGG-SSE block 组成。然后来自不同流的特征由融合 block 使用串联进行融合。最后，输出被传递到深度为 11 的降采样 block 。与 RepVGG（Ding 等, 2021）类似，该研究对最后一个降采样层使用更大的宽度。
扩展 ParNet
据观察，神经网络可以通过扩大网络规模来获得更高的准确度。之前的研究 (Tan & Le, 2019) 扩展了宽度、分辨率和深度。由于本研究的目标是评估是否可以在深度较低的情况下实现高性能，因此研究者将模型的深度保持不变，通过增加宽度、分辨率和流数来扩展 ParNet 。
对于 CIFAR10 和 CIFAR100 ，该研究增加了网络的宽度，同时将分辨率保持为 32 ，流数保持为 3 。对于 ImageNet ，该研究在三个不同的维度上进行了实验，如下图 3 所示。

文章图片

并行架构的实际优势
目前 5 纳米光刻工艺已接近 0.5 纳米晶硅尺寸，处理器频率进一步提升的空间有限。这意味着神经网络的更快推理必须依赖计算的并行化。单个单片 GPU 的性能增长也在放缓，预计传统光刻可实现的最大芯片尺寸将达到 800 平方毫米（Arunkumar 等， 2017）。总体而言，未来在处理器频率、芯片尺寸以及每个处理器的晶体管数等方面都将维持一个平稳状态。
为了解决这个问题，最近的一些工作提出了多芯片模块 GPU (MCM-GPU) ，比最大的可实现单片 GPU 更快。用中型芯片取代大型芯片有望降低硅成本。这样的芯片设计有利于具有并行分支的分区算法，算法之间交换有限的数据并且尽可能地分别独立执行。基于这些因素，非深度并行结构将有利于实现快速推理，尤其是对于未来的硬件。

速度|普林斯顿、英特尔提出ParNet，速度和准确性显著优于ResNet( 二 )

推荐阅读

穿越火线cf手游怎么更换头像框游戏穿越火线介绍

住房和国土是什么意思具体解释内容介绍

剑三怎么佩戴称号

华为nova5pro怎么设置返回键

吃裙带菜上火吗？裙带菜的营养价值有哪些

在家如何制作芒果干

啤酒烤鸭的做法与配方原来是这样做的

内蒙古赤峰有什么好玩的地方值得推荐？

鬣狗咬合力比狮子大吗狮子和鬣狗哪个咬合力大

饺子皮版葱油饼怎么做超好吃的饺子皮版葱油饼做法步骤详解

摩羯座性格特征中最喜欢做哪些事

光晖酒庄主要种植的有哪些葡萄品种？

肩周炎的症状有哪些

2020感动朋友圈句子

南方成份精选基金历史净值202005 汇添富均衡基金净值

旺夫女这地方竟然都很圆润

怎么判断自己是否牙齿神经痛

车辆违章派出所都可以处理吗

哪种起酥油节省成本，肯德基、正新鸡排用的啥起酥油

定位停车看什么点车子停车定位