ViT

概括

论文题目:AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE

论文地址:https://openreview.net/pdf?id=YicbFdNTTy

作者来自 Google

亮点:

  • 一些有趣的特性:

    • CNN 处理不太好但是 ViT 可以处理好的例子:
    • 遮挡
    • 数据分布偏移
    • 加入对抗性的 patch
    • 排列

作者认为:

  • 对于 CNN 的依赖是不必要的
  • 纯 Transformer 可以做到和 CNN 媲美的结果
  • Transformer 需要更少的训练资源,即使如此,也需要 2500 TPUv3 天数。这里说的少,只是跟更耗卡的模型做对比。
  • 在 CV 使用 Transformer
    • 难点:

      • 像素点过多,而 maxlength 太短
    • 于是前人提出许多思路,降低 length 长度:
      • 用 ResNet 最后的特征图 \(14 \times 14=196\) 输入 transformer
      • 用局部小窗口或者把图像这个二维的拆成两个一维的向量
      • 没有硬件加速,模型都无法做到太大
    • 大规模还是 ResNet 效果最好
  • 于是 ViT 做法:
    • 模型

      • 把一张图片分成很多 patch,每一个 patch 的大小为 16 * 16
      • 由于 224 / 16 = 14,因此共有 14 * 14 个 patch
      • 所以 length 为 14 * 14 = 196
      • 然后把每一个 patch 通过一个 linear embedding,这些再作为输入传给 Transformer
    • 训练
      • 用有监督的方式训练,原因是 cv 还是需要有监督的
    • 有钱
      • 之前有一个思路一样的,但是那个作者没钱
  • 一些结果
    • 中型大小数据集上,ViT 比同等大小的 ResNet 要弱几个点,作者认为原因有

      • Transformer 模型缺少一些 CNN 的归纳偏置

        • 局部临近 locality

          • 相邻的图片有相邻的特征
        • 平移等变性 translation equivariance:
          • \(f(g(x)) = g(f(x))\)
          • 即函数顺序变换最后结果也一样。
          • 在 CNN 中,即为相同的物体无论平移到哪里,只要遇到相同的卷积核,那么输出一样。
      • 因此 Transformer 缺少一些 CNN 拥有的前置知识,需要自己从数据里学。
    • 于是作者又在大规模的数据集上学习,效果很好,得到与 ResNet 相近或者更好的结果。

模型

模型介绍

  1. 首先给定一张图,然后把这张图打成许多个 patch
  2. 然后每个 patch 通过一个线性的投射层得到一个特征。
  3. 再通过 Patch + Position Embedding 的方式,把位置编码弄上去。
  4. 丢进 TFM enc。
  5. 然后拿 [CLS] 最后对应的 representation 丢进一个 MLP Head 里。

图像的维度从 \(224 \times 224 \times 3\),变成了一个有 196 个有的 \(16 \times 16 \times 3 = 768\) 维度的 patch。

线性投射层是一个全连接层,维度是 \(D \times D = 768 \times 768\).

然后要加上 [CLS] token

最后加上位置编码信息

  • 具体是把位置编码编成一张表,每一个位置对应一个向量
  • 位置编码,三种效果差不多
    • 作者做了 1D 的位置编码。常规方法。
    • 2D 的做法:假设之前 1D 的位置编码维度是 D,2D 的位置编码横坐标有 \(\frac{D}{2}\) 的维度,纵坐标亦然,然后直接拼在一起。
    • 相对位置编码:两个 patch 之间的距离可以用相对距离来表示

归纳偏置,ViT 比 CNN 少了很多归纳偏置

  • CNN 中,局部性和平移等变性在模型每一层都有所体现,因此先验知识贯穿模型始终。
  • 而 ViT 中,只有 MLP 这个层有局部性和平移等变性,自注意力层是全局的。

作者还做了一个混合的网络,前面 CNN,后面 TFM

预训练以及更大的图片

图片更大,patch 的个数也变了,于是位置编码也会变。

  • 作者直接用了 pytorch 官方自带的 interpolate 函数做 2D 插值。
  • 这个插值只能算一个临时解决方案,是 ViT 的局限性。

实验

主要对比 ResNet,ViT,hybrid

下游任务主要是分类

实验结果

ImageNet 结果

  • 中型大小数据集上,ViT 比同等大小的 ResNet 要弱几个点
  • 大型数据集上,ViT 几乎全面超过 ResNet

线性 5-shot 评估

  • 没有经过微调
  • 结果同上

  • 同等预训练计算复杂度下,ViT 比 ResNet 强
  • 预训练计算次数小时,混合模型最强
  • 数据越来越大时,ViT 越来越强,接近超越混合模型和 ResNet
  • ViT 和 ResNet 模型似乎都没有饱和,仍然可以继续往上走

看李沐的 ViT 串讲的更多相关文章

  1. CLIP改进工作串讲(上)学习笔记

    看了跟李沐学AI系列朱毅老师讲的CLIP改进工作串讲,这里记录一下. 1.分割 分割的任务其实跟分类很像,其实就是把图片上的分类变成像素级别上的分类,但是往往图片上能用的技术都能用到像素级别上来.所以 ...

  2. 视频+图文串讲:MySQL 行锁、间隙锁、Next-Key-Lock、以及实现记录存在的话就更新,如果记录不存在的话就插入如何保证并发安全

    导读 Hi,大家好!我是白日梦!本文是MySQL专题的第 27 篇. 下文还是白日梦以自导自演的方式,围绕"如何实现记录存在的话就更新,如果记录不存在的话就插入."展开本话题.看看 ...

  3. 0607pm克隆&引用类&加载类&面向对象串讲&函数重载

    克隆class Ren{ public $name; public $sex; function __construct($n,$s) { $this->name=$n; $this->s ...

  4. CLIP 改进工作串讲(下)学习笔记

    1.图像生成 1.1CLIPasso(semantically-aware object sketching) 将物体的照片变成简笔画的形式,希望即使有最少的线条,也能识别出来物体. 问题定义,在纸上 ...

  5. getElementById返回的是什么?串讲HTML DOM

    1. getElementById()返回的是什么? 这个函数使用的最普遍,但是你有没有深入探究下,这个函数究竟返回的是什么么?我们来一起看看. var mydivEle = document.get ...

  6. 集成学习-Boosting 模型深度串讲

    首先强调一下,这篇文章适合有很好的基础的人 梯度下降 这里不系统讲,只介绍相关的点,便于理解后文 先放一个很早以前写的 梯度下降 实现 logistic regression 的代码 def tidu ...

  7. 全网最牛X的!!! MySQL两阶段提交串讲

    目录 一.吹个牛 二.事务及它的特性 三.简单看下两阶段提交的流程 四.两阶段写日志用意? 五.加餐:sync_binlog = 1 问题 六.如何判断binlog和redolog是否达成了一致 七. ...

  8. 全网最清楚的:MySQL的insert buffer和change buffer 串讲

    目录 一.前言 二.问题引入 2.1.聚簇索引 2.2.普通索引 三.change buffer存在的意义 四.再看change buffer 五.change buffer 的限制 六.change ...

  9. .NET 基础串讲

    C#基础 .NET介绍 —计算机发展史 第一代语言:机器语言 0101 第二代语言:汇编语言, 用一些简洁的英文字母.符号串来替代一个特定指令的二进制串 第三代语言:接近于数学语言或人的自然语言,同时 ...

  10. 技术串讲 CAS 有用

    CAS,全称为Compare and Swap,即比较-替换.假设有三个操作数:内存值V.旧的预期值A.要修改的值B,当且仅当预期值A和内存值V相同时,才会将内存值修改为B并返回true,否则什么都不 ...

随机推荐

  1. dotnet OpenXML 继承组合颜色的 GrpFill 属性

    在 OpenXML 的颜色画刷填充,有特殊的填充是 GrpFill 属性,对应 OpenXML SDK 定义的 DocumentFormat.OpenXml.Drawing.GroupFill 类型 ...

  2. Solution Set - SAM

    讲解一些 SAM 经典的应用.可以结合 字 符 串 全 家 桶 中 SAM 的部分食用. 洛谷P2408 求不同子串个数.在 SAM 中,所有结点是一个等价类,包含的字符串互不相同.结点 \(u\) ...

  3. vue子组件给父组件传值

    子组件: <template> <div class="app"> <input @click="sendMsg" type=&q ...

  4. 一个网格合并(weld)小工具

    在日常开发中会有需求合并多个Mesh网格,并且它们重合处的顶点也要合并,而并非合并成两个subMesh. 而近期刚好在学习Geomipmap的细分,需要把多个mesh块进行合并,于是写了这个脚本 (简 ...

  5. 第二届黄河流域网络安全技能挑战赛Web_wirteup

    前言 好久没写过比赛的wp了,黄河流域的web出的不错,挺有意思了,花了点时间,也是成功的ak了 myfavorPython 注册登录,一个base64输入框,猜测pickle反序列化,简单测试下,返 ...

  6. kubernetes 之网络(canal)

    https://kubernetes.io/docs/setup/production-environment/tools/kubeadm/create-cluster-kubeadm/ 所有节点重设 ...

  7. Azure Service Principals ----- Azure 上最好保守的秘密的服务

    一,引言 Azure Service Principals 是 Azure Active Directory (AAD) 中的一种标识,代表应用程序,服务,自动化流程.Service Principa ...

  8. 一文搞懂docker容器基础:docker镜像管理,docker容器管理

    目录 一.系统环境 二.docker 2.1 Docker 概述 2.2 Docker 平台 2.3 我可以使用 Docker 做什么? 2.3.1 快速.一致地交付您的应用程序 2.3.2 响应式部 ...

  9. linux各个目录详细说明

    在linux中一切皆文件,每个目录均有自己特定的作用,下面进行详细说明. 目录 说明 / 处于linux系统树形结构的最顶端,它是linux文件系统的入口,所有的目录.文件.设备都在 / 之下 /bi ...

  10. vue我自己的动态菜单思路

    1.在router里把所有的路由都加上. 2.后端存储路由path和其他设计需要的信息. 3.登录后,后端返回菜单树,根据权限不同,返回的菜单不同,并且还要返回每个path代表的页面具有的权限数组.可 ...