训练|无需密集人工标签,用于下游密集预测任务的自监督学习方法出炉

机器之心专栏
作者:阿德莱德大学、同济大学、字节跳动

来自阿德莱德大学、同济大学、字节跳动的研究者设计了一种简单且有效的密集自监督学习方法 , 大幅缩小了自监督预训练与密集预测任务之间的鸿沟 。
预训练已被证实能够大大提升下游任务的性能 。 传统方法中经常利用大规模的带图像标注分类数据集(如 ImageNet)进行模型监督预训练 , 近年来自监督学习方法的出现 , 让预训练任务不再需要昂贵的人工标签 。 然而 , 绝大多数方法都是针对图像分类进行设计和优化的 。 但图像级别的预测和区域级别 / 像素级别存在预测差异 , 因此这些预训练模型在下游的密集预测任务上的性能可能不是最佳的 。
基于此 , 来自阿德莱德大学、同济大学、字节跳动的研究者设计了一种简单且有效的密集自监督学习方法 , 不需要昂贵的密集人工标签 , 就能在下游密集预测任务上实现出色的性能 。 目前该论文已被 CVPR 2021 接收 。
论文地址:
【训练|无需密集人工标签,用于下游密集预测任务的自监督学习方法出炉】https://arxiv.org/pdf/2011.09157
代码地址:
https://github.com/WXinlong/DenseCL
方法
该研究提出的新方法 DenseCL(Dense Contrastive Learning)通过考虑局部特征之间的对应关系 , 直接在输入图像的两个视图之间的像素(或区域)特征上优化成对的对比(不相似)损失来实现密集自监督学习 。

训练|无需密集人工标签,用于下游密集预测任务的自监督学习方法出炉
文章图片

两种用于表征学习的对比学习范式的概念描述图 。
现有的自监督框架将同一张图像的不同数据增强作为一对正样本 , 利用剩余图像的数据增强作为其负样本 , 构建正负样本对实现全局对比学习 , 这往往会忽略局部特征的联系性与差异性 。 该研究提出的方法在此基础上 , 将同一张图像中最为相似的两个像素(区域)特征作为一对正样本 , 而将余下所有的像素(区域)特征作为其负样本实现密集对比学习 。
具体而言 , 该方法去掉了已有的自监督学习框架中的全局池化层 , 并将其全局映射层替换为密集映射层实现 。 在匹配策略的选择上 , 研究者发现最大相似匹配和随机相似匹配对最后的精度影响非常小 。 与基准方法 MoCo-v2[1] 相比 , DenseCL 引入了可忽略的计算开销(仅慢了不到 1%) , 但在迁移至下游密集任务(如目标检测、语义分割)时 , 表现出了十分优异的性能 。 DenseCL 的总体损失函数如下:
模型性能
该研究进行消融实验评估了匹配策略对下游任务的性能影响 , 结果如下表所示 。

训练|无需密集人工标签,用于下游密集预测任务的自监督学习方法出炉
文章图片

另一组消融实验评估了预训练区域数量对下游任务的性能影响 , 结果如下表所示 。

训练|无需密集人工标签,用于下游密集预测任务的自监督学习方法出炉
文章图片

下图展示了该方法迁移至下游密集任务的性能增益:

训练|无需密集人工标签,用于下游密集预测任务的自监督学习方法出炉
文章图片

随着训练时间的延长 , 该研究进一步提供了与基线的直观比较 , 表明 DenseCL 始终比 MoCo-v2 的性能高出至少 2%:

训练|无需密集人工标签,用于下游密集预测任务的自监督学习方法出炉
文章图片

DenseCL 与 MoCo-v2 的预训练时间消耗对比如下:

训练|无需密集人工标签,用于下游密集预测任务的自监督学习方法出炉
文章图片

下图对高相似度匹配进行了可视化 , 旨在描述局部语义特征间的对应关系:

训练|无需密集人工标签,用于下游密集预测任务的自监督学习方法出炉
文章图片

如下图所示 , 带有随机初始化的大多数匹配都是不正确的 , 从图中可以看出随着训练时间的变化 , 对应关系发生了改变 。

训练|无需密集人工标签,用于下游密集预测任务的自监督学习方法出炉
文章图片

[1] Improved baselines with momentum contrastive learning. Chen, Xinlei and Fan, Haoqi and Girshick, Ross and He, Kaiming

    推荐阅读