Siamese|一个框架统一Siamese自监督学习,清华、商汤提出简洁、有效梯度形式,( 四 )
文章图片
normalization , 作者可以去掉最后一项而不影响其性能 。 这样 , 特征解耦方法的梯度形式就能统一为:
文章图片
该梯度形式依然包含两项:
文章图片
是正梯度 ,
文章图片
组成负梯度 , 它们分别来自相关性矩阵中的对角线和非对角线元素 。 因此 , 特征解耦方法本质上和其它两类方法非常相似 , 它们只是在损失函数中将正负样本用不同的形式组合起来了 。
统一形式
对比以上三类方法的梯度形式 , 作者发现它们都具有相似的结构:
文章图片
其中 ,
文章图片
对应正样本的特征 ,
文章图片
是负样本特征的加权平均 ,
文章图片
是平衡两者的系数 , 这种相似的结构说明三类方法的工作机理非常接近 。
性能对比
尽管结构相似 , 不同方法的具体梯度形式依然存在区别 , 而且 target branch 的类型、负样本集合的构成也都不一样 , 本节将通过对比实验来探究对最终性能的主要影响因素 。
梯度形式
为了方便对比 , 作者首先在各类方法内部进行化简和对比 , 最终再对比不同方法 。 完整的实验结果如表 1 所示 。
文章图片
表 1 不同类型方法性能比较
表 1(ab) 展示了对比学习方法的结果 。 为了保持公平比较 , SimCLR 采用了 momentum encoder , 在这样的情况下表现出了和 MoCo 相同的性能 。 在这里 , SimCLR 只用了当前 batch 作为负样本集合 , MoCo 采用了 memory bank 作为负样本集合 , 这说明在合适的训练设置下 , 大量的负样本并不是必须的 。
表 1(c-e) 展示了非对称网络方法的结果 。 由于带有 momentum encoder 的 SimSiam 就是 BYOL , 这里只展示了 BYOL 的结果 。 表 1(cd) 分别是原始的 BYOL 和 DirectPred 形式的 BYOL , 两者的性能相当 , 这也和 DirectPred 的结论一致 。 表 1(e) 将正样本梯度中的
推荐阅读
- 市场资讯|“真·网红”马斯克:一个特斯拉哨子30万,大红内裤遭秒光
- 市场|刘作虎:一加达成了一个小目标
- 创事记|NFT距离元宇宙只差一个周杰伦
- 创事记|从主播开始谈一个购物需求
- 网络|白荣芳:荣耀为始 芳华绽放
- 教育|学科停船后的第一个寒假,“脑机接口”能否成为科技素质教育的后起之秀?
- 财年|小米、苹果怕不怕?索尼也要造车,还带来了一个大消息
- 新闻|一个人的生活品质,可以通过平时收藏的公众号显现出来
- 创事记|大厂难以沉下去的乡镇夫妻店,诞生了一个IPO
- IT|达拉斯希望成为福特下一个自动驾驶汽车工厂的所在地