机器之心专栏
机器之心编辑部
华为诺亚实验室联合浙江大学、中国科学院大学等高校提出一种新型视觉神经网络加速技术 Dynamic Resolution Network(DRNet) , 不仅有效地节省了推理时间 , 还显著地提高了识别准确度 。 相关论文已中稿 NeurIPS 2021 。
文章图片
论文地址:https://arxiv.org/abs/2106.02898
该论文指出识别每张图片所需要的最小分辨率是不同的 , 而现有方法并没有充分挖掘输入分辨率的冗余性 , 也就是说输入图片的分辨率不应该是固定的 。 论文进一步提出了一种动态分辨率网络 DRNet , 其分辨率根据输入样本的内容动态决定 。 一个计算量可以忽略的分辨率预测器和我们所需要的图片分类网络一起优化训练 。 在推理过程中 , 每个输入分类网络的图像将被调整到分辨率预测器所预测的分辨率 , 以最大限度地减少整体计算负担 。
实验结果表明 , 在 ImageNet 图像识别任务中 , DRNet 与标准 ResNet-50 相比 , 在相似准确率情况下 , 计算量减少了约 34%;在计算量减少 10% 的情况下 , 精度提高了 1.4% 。
引言
随着算法、计算能力和大规模数据集的快速发展 , 深度卷积网络在各种计算机视觉任务中取得了显著的成功 。 然而 , 出色的性能往往伴随着巨大的计算成本 , 这使得 CNN 难以在移动设备上部署 。 随着现实场景对于 CNN 的需求不断增加 , 降低计算成本的同时维持神经网络的准确率势在必行 。
近年来 , 研究人员在模型压缩和加速方法方面投入了大量精力 , 包括网络剪枝、低比特量化、知识蒸馏和高效的模型设计 。 然而 , 大多数现有的压缩网络中输入图像的分辨率仍然是固定的 。 一般而言 , 深度网络使用固定统一的分辨率(例如 , ImageNet 上的 224 X 224)进行训练和推理 , 尽管每张图片中目标的大小和位置完全不同 。
不可否认 , 输入分辨率是影响 CNN 计算成本和性能的一个非常重要的因素 。 对于同一个网络 , 更高的分辨率通常会导致更大的 FLOPs 和更高的准确率 。 相比之下 , 输入分辨率较小的模型性能较低 , 而所需的 FLOP 也较小 。 然而 , 缩小深度网络的输入分辨率为我们提供了另一种减轻 CNN 计算负担的可能性 。
为了更清晰地说明 , 研究者首先使用一个预训练的 ResNet-50 测试不同分辨率下的图像 , 如下图 1 所示 , 并计算和展示每个样本给出正确预测所需要的最小分辨率 。 对于一些简单的样本 , 如左侧图前景熊猫 , 可以准确地在低分辨率和高分辨率下被识别出来 。 然而对于一些难样本如右侧图的昆虫 , 目标被遮挡或者跟别的物体混合 , 只能通过高分辨率识别 。
推荐阅读
- 年轻人|人生缺少的不是运气,而是少了这些高质量订阅号
- 网络|天津联通全力助推天津市入选全国首批千兆城市
- 网络化|工信部:2025年建成500个以上智能制造示范工厂
- 视点·观察|张庭夫妇公司被查 该怎样精准鉴别网络传销?
- 数字化|70%规模以上制造业企业到2025年将实现数字化、网络化
- 人物|俄罗斯网络博主为吸引流量 闹市炸毁汽车 结果够“刑”
- 协同|网文论︱网络文学与AI写作:人机协同演化时代的文学之灵
- 周鸿祎|网络安全行业应提升数字安全认知
- 安全风险|网络安全行业应提升数字安全认知
- 海康威视|智能家居战场又添一员,海康威视分拆萤石网络上市,半年营收20亿 | IPO见闻