Siamese|一个框架统一Siamese自监督学习,清华、商汤提出简洁、有效梯度形式,( 四 )


文章图片

normalization , 作者可以去掉最后一项而不影响其性能 。 这样 , 特征解耦方法的梯度形式就能统一为:
Siamese|一个框架统一Siamese自监督学习,清华、商汤提出简洁、有效梯度形式,
文章图片

该梯度形式依然包含两项:
Siamese|一个框架统一Siamese自监督学习,清华、商汤提出简洁、有效梯度形式,
文章图片

是正梯度 ,
Siamese|一个框架统一Siamese自监督学习,清华、商汤提出简洁、有效梯度形式,
文章图片

组成负梯度 , 它们分别来自相关性矩阵中的对角线和非对角线元素 。 因此 , 特征解耦方法本质上和其它两类方法非常相似 , 它们只是在损失函数中将正负样本用不同的形式组合起来了 。
统一形式
对比以上三类方法的梯度形式 , 作者发现它们都具有相似的结构:
Siamese|一个框架统一Siamese自监督学习,清华、商汤提出简洁、有效梯度形式,
文章图片

其中 ,
Siamese|一个框架统一Siamese自监督学习,清华、商汤提出简洁、有效梯度形式,
文章图片

对应正样本的特征 ,
Siamese|一个框架统一Siamese自监督学习,清华、商汤提出简洁、有效梯度形式,
文章图片

是负样本特征的加权平均 ,
Siamese|一个框架统一Siamese自监督学习,清华、商汤提出简洁、有效梯度形式,
文章图片

是平衡两者的系数 , 这种相似的结构说明三类方法的工作机理非常接近 。
性能对比
尽管结构相似 , 不同方法的具体梯度形式依然存在区别 , 而且 target branch 的类型、负样本集合的构成也都不一样 , 本节将通过对比实验来探究对最终性能的主要影响因素 。
梯度形式
为了方便对比 , 作者首先在各类方法内部进行化简和对比 , 最终再对比不同方法 。 完整的实验结果如表 1 所示 。
Siamese|一个框架统一Siamese自监督学习,清华、商汤提出简洁、有效梯度形式,
文章图片

表 1 不同类型方法性能比较
表 1(ab) 展示了对比学习方法的结果 。 为了保持公平比较 , SimCLR 采用了 momentum encoder , 在这样的情况下表现出了和 MoCo 相同的性能 。 在这里 , SimCLR 只用了当前 batch 作为负样本集合 , MoCo 采用了 memory bank 作为负样本集合 , 这说明在合适的训练设置下 , 大量的负样本并不是必须的 。
表 1(c-e) 展示了非对称网络方法的结果 。 由于带有 momentum encoder 的 SimSiam 就是 BYOL , 这里只展示了 BYOL 的结果 。 表 1(cd) 分别是原始的 BYOL 和 DirectPred 形式的 BYOL , 两者的性能相当 , 这也和 DirectPred 的结论一致 。 表 1(e) 将正样本梯度中的

推荐阅读