论文标题：Bootstrap Your Own Latent A New Approach to Self-Supervised Learning
　　论文方向：图像领域
　　论文来源：NIPS2020
　　论文链接：https://arxiv.org/abs/2006.07733
　　论文代码：https://github.com/deepmind/deepmind-research/tree/master/byol

1 介绍

　　BYOL，全称叫Bootstrap Your Own Latent，它在迭代的过程中引导网络的输出作为目标，训练过程中不需要negative pairs。它的特点就是：（1）不需要negative pairs；（2）对不同的batch size大小和数据增强方法适应性强。

　　使用BYOL的效果：使用标准的 ResNet 达到 74.3% top-1 的准确率和使用large ResNet 达到 79.6% top-1的准确率。

　　贡献：

引入了一种自监督的表示学习方法BYOL，在不使用负对的情况下，在ImageNet上的线性评估协议下获得最先进的结果。
在半监督和 transfer基准测试中，我们所学的表现优于最先进的水平。　　
BYOL对批量和图像增强集的变化更有弹性。当仅使用随机裁剪作为图像增强时，BYOL的性能下降比强对比基线SimCLR小得多。

　　Q: linear evaluation protocol?

　　Q: frozen representation

2 BYOL框架

　　BYOL框架图：

　　如下图 2 所示，BYOL 由两个网络组成，一个称为online network，另一个称为 target network 。online network由三部分构成：encoder $f_{\theta}$， projector $g_{\theta} $ 和 predictor $q_{\theta}$；target network 和 online network 有相似的结构，唯一的不同就是它少了一个 predictor，它的 encoder 和 projector 分别用 $f_{\xi}$ 和 $ g_{\xi }$ 表示。

　　两个网络训练方式：

- online network 的参数 $\theta$ 用一般的梯度下降更新；
- target network 的参数 $\xi$ 不通过梯度下降来更新，而是由 $\theta$ 的指数移动平均（$\xi \leftarrow \tau \xi+(1-\tau) \theta$）来更新。
- 即 $\begin{array}{l} \theta \leftarrow \text { optimizer }\left(\theta, \nabla_{\theta} \mathcal{L}_{\theta, \xi}^{\mathrm{BYOL}}, \eta\right) \\ \xi \leftarrow \tau \xi+(1-\tau) \theta \end{array}$

　　online network 在执行梯度下降更新时，计算 loss：

　　　　$\mathcal{L}_{\theta, \xi}^{B Y O L}=\mathcal{L}_{\theta, \xi}+\widetilde{\mathcal{L}}_{\theta, \xi} $

　　其中 $ \mathcal{L}_{\theta, \xi}=2-2 \cdot \frac{\left\langle q_{\theta}\left(z_{\theta}\right), z_{\xi}^{\prime}\right\rangle}{\left\|q_{\theta}\left(z_{\theta}\right)\right\|_{2} \cdot\left\|z_{\xi}^{\prime}\right\|_{2}}$ 。 $\widetilde{\mathcal{L}}_{\theta, \xi}$ 是 $ \mathcal{L}_{\theta, \xi}$ 的对称形式：$ \mathcal{L}$ 的输入是 $ t$ 的 prediction 和 $ t^{\prime}$ 的 projection； $\widetilde{\mathcal{L}}$ 的输入是 $ t^{\prime} $ 的prediction 和 $ t$ 的 projection，相当于交叉预测对方的 projection 。

　　为什么加入了一个 target network ？

　　contrastive learning 会陷入 collapse（所有图像的表征向量都一样），这在负样本不足的情况下很容易产生。

　　BYOL

借鉴了 Mean Teacher 中的指数移动平均策略；

交叉预测 projection。target network可以看作是对 online network 学习的总结，历史经验往往能使模型更加稳定。交叉预测 projection 就是使 online netork 与历史经验保持一定的联系，从而得到更平稳的训练过程。

　　算法流程：

3 启发

　　联系GAN，两个网络学到的表示要尽可能相同，但总互相干扰（动量法）。

4 实验

4.1 Linear evaluation on ImageNet

　　对比之前的自监督方法，BYOL（采用 ResNet encoder (1 $\times$)）效果更好，在 Top-1 上达74.3的准确率，在 Top-5 上达 91.6 的准确率。更换 encoder 框架后效果依然很好。

　　显然无监督方法 BYOL 的效果要比自监督的 BYOL 效果要差，但是比大部分其他监督方法要好。

4.2 Semi-supervised training on ImageNet

　　在获得表示后，使用训练集上的 label 对BYOL's representation 进行微调。

　　(a) 可以看到 BYOL 在 Top-1 和 Top-5上的效果比InstDisc、PIRL、SimCLR效果要好。

　　(b) 可以看到采用不同的 Encoder Architecture 效果依然显著。

　　图 4 采用不同的微调率（1% and 10%），使用 ResNet-50(1 $\times$ ) 在不同 ImageNet traininjg data 上的表现。

　　从图 4 可以看出有监督方法在 training data少的情况下表现是很糟糕的，使用全部 training data 的效果还是比较好的，但是无监督方法仍然可以通过微调达到一个可以媲美有监督方法的实验结果。

4.3 Transfer to other classification tasks

4.4 Ablation Study

　　这里采用不同的 Batch size 和SimCLR做消融实验。

　　从图中可以看出SumCLR对Batch size 的变化更加敏感，因为它需要更多的负样本。BYOL对样本数不是很敏感，这是它的优势。

5 总结

+ BYOL learns it's representation by predicting previous versions of its outputs, without using negative pairs.
+ BYOL bridges most of the remaining gapbetween self-supervised methods and the supervised learning baseline.
- Sensitive to batch size & opimizer choices

6 参考

论文解读（BYOL）《Bootstrap Your Own Latent A New Approach to Self-Supervised Learning》的更多相关文章

论文解读（SUBG-CON）《Sub-graph Contrast for Scalable Self-Supervised Graph Representation Learning》
论文信息论文标题:Sub-graph Contrast for Scalable Self-Supervised Graph Representation Learning论文作者:Yizhu Ji ...
论文解读（SimGRACE）《SimGRACE: A Simple Framework for Graph Contrastive Learning without Data Augmentation》
论文信息论文标题:SimGRACE: A Simple Framework for Graph Contrastive Learning without Data Augmentation论文作者: ...
自监督图像论文复现 | BYOL（pytorch）| 2020
继续上一篇的内容,上一篇讲解了Bootstrap Your Onw Latent自监督模型的论文和结构: https://juejin.cn/post/6922347006144970760 现在我们 ...
NIPS2018最佳论文解读：Neural Ordinary Differential Equations
NIPS2018最佳论文解读:Neural Ordinary Differential Equations 雷锋网2019-01-10 23:32 雷锋网 AI 科技评论按,不久前,NeurI ...
itemKNN发展史----推荐系统的三篇重要的论文解读
itemKNN发展史----推荐系统的三篇重要的论文解读本文用到的符号标识 1.Item-based CF 基本过程: 计算相似度矩阵 Cosine相似度皮尔逊相似系数参数聚合进行推荐根据用户 ...
CVPR2019 | Mask Scoring R-CNN 论文解读
Mask Scoring R-CNN CVPR2019 | Mask Scoring R-CNN 论文解读作者 | 文永亮研究方向 | 目标检测.GAN 推荐理由: 本文解读的是一篇发表于CVPR ...
AAAI2019 | 基于区域分解集成的目标检测论文解读
Object Detection based on Region Decomposition and Assembly AAAI2019 | 基于区域分解集成的目标检测论文解读作者 | 文永亮学 ...
Gaussian field consensus论文解读及MATLAB实现
Gaussian field consensus论文解读及MATLAB实现作者:凯鲁嘎吉 - 博客园 http://www.cnblogs.com/kailugaji/ 一.Introduction ...
zz扔掉anchor！真正的CenterNet——Objects as Points论文解读
首发于深度学习那些事已关注写文章扔掉anchor!真正的CenterNet——Objects as Points论文解读 OLDPAN 不明觉厉的人工智障程序员关注他 JustDoIT 等 ...

随机推荐

Lock（锁）
Lock(锁) 从JDK 5.0开始,Java提供了更加强大的线程同步机制----通过显示定义同步锁对象来实现同步.同步锁使用Lock对象充当. java.util.concurrent.locks. ...
linux 高并发socket通信模型
------select 1 一个误区很多人认为它最大可以监听1024个,实际上却是文件描述符的值不能大于等于1024,所以除掉标准输入.输出.错误输出,一定少于1024个,如果在之前还打开了其他文件 ...
Install Redmine on Virtual Machine with Vagrant
Initialize VM: chad@typcserver ~/docs/vagrant-prj $ vagrant --version Vagrant 1.4.3 chad@typcserver ...
WPF 图表控件之曲线绘制与移动
目的:绘制简单轻量级的曲线视图二.实现效果: 1,绘制标准基准线 2,可拖动三.用到控件 1,Canvas 2,Ellipse XAML代码: <Canvas Background=&quo ...
MyBatis学习06（动态SQL和缓存）
10.动态SQL 10.1 什么是动态SQL 动态SQL指的是根据不同的查询条件 , 生成不同的Sql语句. 官网描述: MyBatis 的强大特性之一便是它的动态 SQL.如果你有使用 JDBC 或 ...
MyBatis学习01（初识MyBatis和CRUD操作实现）
1.初识MyBatis 环境说明: jdk 8 + MySQL 5.7.19 maven-3.6.1 IDEA 学习前需要掌握: JDBC MySQL Java 基础 Maven Junit 什么是M ...
Shell-03-表达式和运算符
表达式和运算符条件表达式语句 [ 1 -eq 1 ] [[ 1 -eq 1 ]] test 1 -eq 1 等同于 [ 1 -eq 1 ] [root@satest_192-168-3-121 sh ...
java基础技术集合面试【笔记】
java基础技术集合面试[笔记] Hashmap: 基于哈希表的 Map 接口的实现,此实现提供所有可选的映射操作,并允许使用 null 值和 null 键(除了不同步和允许使用 null 之外,Ha ...
值得收藏 | 深度剖析 TensorCore 卷积算子实现原理
作者:章晓 | 旷视 MegEngine 架构师一.前言 2020 年 5 月 Nvidia 发布了新一代的 GPU 架构安培(Ampere).其中和深度学习关系最密切的莫过于性能强劲的第三代的 T ...
《手把手教你》系列技巧篇（二十）-java+ selenium自动化测试-元素定位大法之终卷（详细教程）
1.简介这篇文章主要是对前边的文章中的一些总结和拓展.本来是不打算写着一篇的,但是由于前后文章定位元素的时间有点长,怕大家忘记了,就在这里简单做一个总结和拓展. 2.Selenium八种定位方式 S ...

论文解读（BYOL）《Bootstrap Your Own Latent A New Approach to Self-Supervised Learning》