网络|不是每张图都要高清,华为诺亚动态分辨率网络入选NeurIPS 2021( 二 )


这一观察表明 , 数据集中很大一部分图片可以降低分辨率来识别 。 另一方面 , 这也和人类的感知系统一致 , 即一些样本在模糊情况下可以被很好地识别 , 而另外一些在清晰的条件下才能有效识别 。

网络|不是每张图都要高清,华为诺亚动态分辨率网络入选NeurIPS 2021
文章图片

图 1:在不同输入分辨率 (112X112、168X168 和 224X224) 下 ResNet-50 模型的预测结果 。
在本文中 , 研究者提出了一种新颖的动态分辨率网络(DRNet) , 它动态调整每个样本的输入分辨率以进行有效推理 。 为了准确地找到每张图像所需的最小分辨率 , 他们引入了一个嵌入在分类网络前面的分辨率预测器 。
在实践中 , 研究者将几个不同的分辨率设置为候选分辨率 , 并将图像输入分辨率预测器以生成候选分辨率的概率分布 。 分辨率预测器的网络架构经过精心设计 , 计算复杂度可以忽略不计 , 并与分类器联合训练 , 以端到端的方式进行识别 。 通过利用所提出的动态分辨率网络推理方法 , 研究者可以从每个图像的输入分辨率中挖掘其冗余度 。 这样做不仅可以节省具有较低分辨率的简单样本的计算成本 , 并且还可以通过保持较高的分辨率来保持难样本的准确性 。
在大规模数据集和 CNN 架构上的大量实验证明了研究者提出的方法在降低整体计算成本和提升网络准确率方面的有效性 。 例如 , DR-ResNet-50 仅用 3.7G FLOPs 就达到了 77.5% 的 ImageNet top-1 准确率 , 这比计算量多 10% 的 ResNet-50 高出了 1.4% 。
方法
整体架构
研究者提出了一种实例感知的分辨率选择方法 , 为大型分类器网络选择输入图像的分辨率 。 这种方法包含了两个组件 , 第一个是大型分类器网络 , 例如 ResNet , 它的特点是准确率高和计算成本高 。 第二个是分辨率预测器 , 它的目标是找到一个最小的分辨率 , 这样能为预测每张输入图片来平衡准确率和效率 。
对于任意的输入图片 , 研究者首先用分辨率预测器来预测其合适的分辨率 r 。 然后 , 大型分类器网络将 resized 后的图像作为输入 。 这样 , 当 r 小于原始分辨率时 , FLOPs 就会大幅度减少 。 两种网络在训练时是端到端一起训练的 , 如下图 2 所示 。

网络|不是每张图都要高清,华为诺亚动态分辨率网络入选NeurIPS 2021
文章图片

图 2:模型整体结构图 。
分辨率预测器
分辨率预测器的设计是基于 CNN 的 。 分辨率预测器的目标是通过得到一个概率分布来找到一个合适的分辨率 。 这里研究者提供 m 个候选分辨率以供分辨率预测器挑选 。 考虑到分辨率预测器会带来额外的计算消耗 , 所以在设计分辨率预测器时只保留了很少的卷积层和全连接层 。

推荐阅读