Siamese|一个框架统一Siamese自监督学习,清华、商汤提出简洁、有效梯度形式,( 五 )

Siamese|一个框架统一Siamese自监督学习,清华、商汤提出简洁、有效梯度形式,
文章图片

替换为单位阵而没有影响性能 , 因此 , 非对称网络方法的梯度形式可以统一成表 1(e) 中的形式 。
表 1(f-j) 展示了特征解耦方法的结果 。 对 Barlow Twins 来说 , 表 1(g) 将正梯度中的矩阵 A 替换为单位阵 , 表 1(h) 将特征的 batch normalization 替换为
Siamese|一个框架统一Siamese自监督学习,清华、商汤提出简洁、有效梯度形式,
文章图片

normalization , 这些替换都不会导致性能下降;对 VICReg 来说 , 表 1(j) 去掉梯度中最后一项 , 同时加上
Siamese|一个框架统一Siamese自监督学习,清华、商汤提出简洁、有效梯度形式,
文章图片

normalization , 这对性能几乎没有影响 。 最后 , 比较表 1(hj) , 它们唯一的差异在于负样本系数的计算方式 , 但是性能上却差异很小 , 所以特征解耦方法的梯度形式可以统一成表 1(j) 中的形式 。
最后 , 作者对比了三类方法的梯度 , 即表 1(bej) 的结果 。 在梯度结构中 , 正梯度的形式已经统一 , 平衡系数会通过搜索保持最优 , 唯一的差异就是负梯度形式 , 实验结果表明不同的负梯度形式性能非常接近 。 还值得注意的是 , 表 1(ej) 的负样本形式非常相似 , 区别在于表 1(e) 使用了之前所有样本构成的负样本集合 , 表 1(j) 只使用了当前 batch 集合 , 这也说明了负样本集合的构建在自监督学习中不是最关键的因素 。
Target Branch 类型
之前为了公平对比 , 作者对各类方法都使用了 momentum encoder , 现在来研究不同类型的 target branch 对最终结果的影响 , 实验结果如表 2 所示 。
Siamese|一个框架统一Siamese自监督学习,清华、商汤提出简洁、有效梯度形式,
文章图片

表 2 Target branch 类型影响
如果 target branch 采取 stop-gradient 的类型 , 三类方法都表现出类似的性能 , 这和之前的结论是一致的;如果 target branch 采取 momentum-encoder 的类型 , 三类方法都能在之前的基础上提升大约 2 个点 , 这说明 momentum encoder 对不同的方法都能带来提升 。
更进一步的 , 作者观察到一些方法里只有正梯度利用到了 momentum encoder 的特征 , 于是他们尝试对三类方法都只在正梯度中采用 momentum encoder 的特征 。 实验结果表明这和全部梯度采用 momentum encoder 具有类似的性能表现 。 这说明对于自监督学习来说 , 一个缓慢更新的一致的更新目标是非常重要的 。
最终方法
基于上述的统一框架 , 作者提出了一种简洁有效的自监督方法(UniGrad):
Siamese|一个框架统一Siamese自监督学习,清华、商汤提出简洁、有效梯度形式,
文章图片

推荐阅读