网络|不是每张图都要高清,华为诺亚动态分辨率网络入选NeurIPS 2021

机器之心专栏
机器之心编辑部

华为诺亚实验室联合浙江大学、中国科学院大学等高校提出一种新型视觉神经网络加速技术 Dynamic Resolution Network(DRNet) , 不仅有效地节省了推理时间 , 还显著地提高了识别准确度 。 相关论文已中稿 NeurIPS 2021 。

网络|不是每张图都要高清,华为诺亚动态分辨率网络入选NeurIPS 2021
文章图片

论文地址:https://arxiv.org/abs/2106.02898
该论文指出识别每张图片所需要的最小分辨率是不同的 , 而现有方法并没有充分挖掘输入分辨率的冗余性 , 也就是说输入图片的分辨率不应该是固定的 。 论文进一步提出了一种动态分辨率网络 DRNet , 其分辨率根据输入样本的内容动态决定 。 一个计算量可以忽略的分辨率预测器和我们所需要的图片分类网络一起优化训练 。 在推理过程中 , 每个输入分类网络的图像将被调整到分辨率预测器所预测的分辨率 , 以最大限度地减少整体计算负担 。
实验结果表明 , 在 ImageNet 图像识别任务中 , DRNet 与标准 ResNet-50 相比 , 在相似准确率情况下 , 计算量减少了约 34%;在计算量减少 10% 的情况下 , 精度提高了 1.4% 。
引言
随着算法、计算能力和大规模数据集的快速发展 , 深度卷积网络在各种计算机视觉任务中取得了显著的成功 。 然而 , 出色的性能往往伴随着巨大的计算成本 , 这使得 CNN 难以在移动设备上部署 。 随着现实场景对于 CNN 的需求不断增加 , 降低计算成本的同时维持神经网络的准确率势在必行 。
近年来 , 研究人员在模型压缩和加速方法方面投入了大量精力 , 包括网络剪枝、低比特量化、知识蒸馏和高效的模型设计 。 然而 , 大多数现有的压缩网络中输入图像的分辨率仍然是固定的 。 一般而言 , 深度网络使用固定统一的分辨率(例如 , ImageNet 上的 224 X 224)进行训练和推理 , 尽管每张图片中目标的大小和位置完全不同 。
不可否认 , 输入分辨率是影响 CNN 计算成本和性能的一个非常重要的因素 。 对于同一个网络 , 更高的分辨率通常会导致更大的 FLOPs 和更高的准确率 。 相比之下 , 输入分辨率较小的模型性能较低 , 而所需的 FLOP 也较小 。 然而 , 缩小深度网络的输入分辨率为我们提供了另一种减轻 CNN 计算负担的可能性 。
为了更清晰地说明 , 研究者首先使用一个预训练的 ResNet-50 测试不同分辨率下的图像 , 如下图 1 所示 , 并计算和展示每个样本给出正确预测所需要的最小分辨率 。 对于一些简单的样本 , 如左侧图前景熊猫 , 可以准确地在低分辨率和高分辨率下被识别出来 。 然而对于一些难样本如右侧图的昆虫 , 目标被遮挡或者跟别的物体混合 , 只能通过高分辨率识别 。

推荐阅读