Siamese|一个框架统一Siamese自监督学习，清华、商汤提出简洁、有效梯度形式，( 五 ) 梯度|监督|SimCLR|统一|样本|负

文章图片

替换为单位阵而没有影响性能，因此，非对称网络方法的梯度形式可以统一成表 1(e) 中的形式。
表 1(f-j) 展示了特征解耦方法的结果。对 Barlow Twins 来说，表 1(g) 将正梯度中的矩阵Ａ替换为单位阵，表 1(h) 将特征的 batch normalization 替换为

文章图片

normalization ，这些替换都不会导致性能下降；对 VICReg 来说，表 1(j) 去掉梯度中最后一项，同时加上

文章图片

normalization ，这对性能几乎没有影响。最后，比较表 1(hj) ，它们唯一的差异在于负样本系数的计算方式，但是性能上却差异很小，所以特征解耦方法的梯度形式可以统一成表 1(j) 中的形式。
最后，作者对比了三类方法的梯度，即表 1(bej) 的结果。在梯度结构中，正梯度的形式已经统一，平衡系数会通过搜索保持最优，唯一的差异就是负梯度形式，实验结果表明不同的负梯度形式性能非常接近。还值得注意的是，表 1(ej) 的负样本形式非常相似，区别在于表 1(e) 使用了之前所有样本构成的负样本集合，表 1(j) 只使用了当前 batch 集合，这也说明了负样本集合的构建在自监督学习中不是最关键的因素。
Target Branch 类型
之前为了公平对比，作者对各类方法都使用了 momentum encoder ，现在来研究不同类型的 target branch 对最终结果的影响，实验结果如表 2 所示。

文章图片

表 2 Target branch 类型影响
如果 target branch 采取 stop-gradient 的类型，三类方法都表现出类似的性能，这和之前的结论是一致的；如果 target branch 采取 momentum-encoder 的类型，三类方法都能在之前的基础上提升大约 2 个点，这说明 momentum encoder 对不同的方法都能带来提升。
更进一步的，作者观察到一些方法里只有正梯度利用到了 momentum encoder 的特征，于是他们尝试对三类方法都只在正梯度中采用 momentum encoder 的特征。实验结果表明这和全部梯度采用 momentum encoder 具有类似的性能表现。这说明对于自监督学习来说，一个缓慢更新的一致的更新目标是非常重要的。
最终方法
基于上述的统一框架，作者提出了一种简洁有效的自监督方法（UniGrad）：

文章图片

Siamese|一个框架统一Siamese自监督学习，清华、商汤提出简洁、有效梯度形式，( 五 )

推荐阅读

如何找寻自我

缝纫机调线器怎么安装平车方法如何

强组词强字组词

火笋鸡翅的做法（增肥食谱）

闺女生日快乐祝福语朋友圈

LV请来潮牌设计师做艺术总监，看中的是啥

老虎豆怎么做好吃老虎豆图片怎样弄来吃

暖气有流水声是什么原因

皮球是什么体

手机怎样开通QQ空间

男生发mua说明 mua是什么意思

手指盖凹陷怎么回事

对自己的生活失去掌控咋调整

小米10s怎么没有月亮模式

我想找个偏僻的地方搞养殖！有没有推荐的地方？

南京养老金认证上门服务怎么申请南京市养老金认证

如何评价猪场阉割猪？

最后一个字是豹的成语

泰山散酒怎么样

猫发情的声音(猫发情的叫声)