Transformer Network Intuition 变压器网络直觉

深度学习中最令人兴奋的发展之一是 Transformer Network,有时也称为 Transformers。这是一种完全席卷 NLP 世界的架构。当今许多最有效的 NLP 专辑都是基于 Transformer 架构的。它是一个相对复杂的神经网络架构,但在这个和接下来的三个视频中将逐个介绍。因此,在接下来的四个视频结束时,您将对 Transformer Network 的工作原理有一个很好的了解,我们将能够应用零问题。随着序列任务的复杂性增加,模型的复杂性也会增加。

我们从 RNN 开始这门课程,发现它在梯度消失方面存在一些问题,这使得很难捕获长距离依赖关系和序列。然后,我们将 GRU 和 LSTM 模型视为解决许多可能使用门来控制信息流的问题的方法。



所以这些单元中的每一个都有更多的计算。虽然这些版本改进了对信息流的控制,但也增加了复杂性。因此,随着我们从 RNN 到 GRU 再到 LSTM,模型变得更加复杂(见上图)。所有这些模型仍然是顺序模型,因为它们摄取了输入,可能是当时输入的句子一个词或一个标记。因此,就好像每个单元都像是信息流的瓶颈。因为例如,要计算这个最终单元的输出,您首先必须计算之前出现的所有单元的输出。

在本视频中,您了解了 Transformer 架构,它允许您为整个序列并行运行更多此类计算。因此,您可以同时摄取整个句子,而不是一次从左到右处理一个单词。 Transformer Network 发表在 Vaswani、Norm Shakespeare、Nikki Palmer、Jacob 很棒、行 James、Gomez、Lucas Kaiser 和更早的波兰人的开创性论文中。 Transformer 网络的发明者之一 Lucas Kaiser 也是 NLP 专业与深度学习 dot AI 的联合讲师。

所以当你完成这个深度学习专业化后,你也可以检查一下。 Transformer 架构的主要创新是结合使用基于注意力的表示和 CNN 卷积神经网络处理方式。因此,RNN 可能一次处理一个输出,因此可能 y(0) 向它们馈送您计算 y(1) 的信息,然后将其用于计算 y(2)。



这是处理标记的非常顺序的方式,您可能会将其与 CNN 进行对比,或者有信心可以输入大量像素。是的,或者可能有很多单词,并且可以并行计算它们的表示。所以你在注意力网络中看到的是一种计算非常丰富、非常有用的单词表示的方法。但是有一些更类似于这种 CNN 风格的并行处理。为了理解注意力网络,接下来的几个视频中将涉及两个关键思想。首先是自我关注。 self attention 的目标是,如果你有一个包含五个单词的句子,最终会计算这五个单词的五个表示,将写成 A1、A2、A3、A4 和 A5。这将是一种基于注意力的并行计算句子中所有单词表示的方式

然后多头注意力(Multi—Head Attention)是自我注意过程的基本 循环。所以你最终会得到这些表示的多个版本。事实证明,这些表示将是非常丰富的表示,可用于机器翻译或其他 NLP 折腾以创造有效性。

所以在下一个视频中,让我们开始学习自我注意,计算这些丰富的表示。之后的视频,我们将讨论多头注意力。然后关于转换网络的最终视频会将所有这些放在一起,以便您了解整个转换器架构是如何工作的。让我们进入下一个视频。

第五课第四周笔记1:Transformer Network Intuition 变压器网络直觉的更多相关文章

  1. 第五课第四周笔记4:Transformer Network变压器网络

    Transformer Network变压器网络 你已经了解了 self attention,你已经了解了 multi headed attention.在这个视频中,让我们把它们放在一起来构建一个变 ...

  2. 第五课第四周笔记3:Multi-Head Attention多头注意力

    Multi-Head Attention多头注意力 让我们进入并了解多头注意力机制. 符号变得有点复杂,但要记住的事情基本上只是你在上一个视频中学到的自我注意机制的四个大循环. 让我们看一下每次计算自 ...

  3. 第五课第四周笔记2:Self-Attention 自注意力

    Self-Attention 自注意力 让我们跳进去谈谈transformer的self-attention机制.如果您能了解本视频背后的主要思想,您就会了解变压器网络工作背后最重要的核心思想. 让我 ...

  4. 第五课第四周实验一:Embedding_plus_Positional_encoding 嵌入向量加入位置编码

    目录 变压器预处理 包 1 - 位置编码 1.1 - 位置编码可视化 1.2 - 比较位置编码 1.2.1 - 相关性 1.2.2 - 欧几里得距离 2 - 语义嵌入 2.1 - 加载预训练嵌入 2. ...

  5. Elasticsearch7.X 入门学习第五课笔记---- - Mapping设定介绍

    原文:Elasticsearch7.X 入门学习第五课笔记---- - Mapping设定介绍 版权声明:本文为博主原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明. 本 ...

  6. 红帽学习笔记[RHCSA] 第五课[用户、权限相关]

    第五课 用户权限 查看文件的权限 [kane@localhost /]$ ll total 36 ----------. 1 root root 1751 Aug 22 20:58 ~ lrwxrwx ...

  7. 斯坦福 CS183 & YC 创业课系列中文笔记

    欢迎任何人参与和完善:一个人可以走的很快,但是一群人却可以走的更远. 在线阅读 ApacheCN 面试求职交流群 724187166 ApacheCN 学习资源 目录 Zero to One 从0到1 ...

  8. NeHe OpenGL教程 第四十五课:顶点缓存

    转自[翻译]NeHe OpenGL 教程 前言 声明,此 NeHe OpenGL教程系列文章由51博客yarin翻译(2010-08-19),本博客为转载并稍加整理与修改.对NeHe的OpenGL管线 ...

  9. kali linux 渗透测试视频教程 第五课 社会工程学工具集

    第五课 社会工程学工具集 文/玄魂 教程地址:http://edu.51cto.com/course/course_id-1887.html   目录 第五课社会工程学工具集 SET SET的社会工程 ...

随机推荐

  1. 7-31 堆栈操作合法性 (20 分) PTA

    7-31 堆栈操作合法性 (20 分)   假设以S和X分别表示入栈和出栈操作.如果根据一个仅由S和X构成的序列,对一个空堆栈进行操作,相应操作均可行(如没有出现删除时栈空)且最后状态也是栈空,则称该 ...

  2. 【第九篇】- Git 标签之Spring Cloud直播商城 b2b2c电子商务技术总结

    Git 标签 如果你达到一个重要的阶段,并希望永远记住那个特别的提交快照,你可以使用 git tag 给它打上标签. 比如说,我们想为我们的 xxx 项目发布一个"1.0"版本. ...

  3. WPF WPF中解决内存泄露的几点提示与解决方法

    http://www.cnblogs.com/LastPropose/archive/2011/08/01/2124359.html 一直以来用WPF做一个项目,但是开发中途发现内存开销太大,用ANT ...

  4. python中字符串的各种方法

     图片来源见水印,一个学python的公众号

  5. Django学习day02随堂笔记

    每日测验 """ 今日考题 1.谈谈你对web框架的认识,简述web框架请求流程 2.python三大主流web框架的区别 3.安装django需要注意的事项有哪些(最少 ...

  6. mysql5.7执行sql语句提示Expression #1 of ORDER BY clause is not in GROUP BY

    mysql 新版本出现group by 语句不兼容问题 [Err] 1055 - Expression #1 of ORDER BY clause is not in GROUP BY clause ...

  7. Nginx系列(7)- Nginx安装 | Linux

    step-1 安装gcc 安装 nginx 需要先将官网下载的源码进行编译,编译依赖 gcc 环境,如果没有 gcc 环境,则需要安装: [root@localhost ~]# yum install ...

  8. MNIST手写数字识别:卷积神经网络

    代码 import torch from torchvision import datasets from torch.utils.data import DataLoader import torc ...

  9. Python turtle.right与turtle.setheading的区别

    一.概念 turtle.right与turtle.left用法一致,我们以turtle.right为例进行讲述. turtle.right(angle)向右旋转angle角度. turtle.seth ...

  10. P3980-[NOI2008]志愿者招募【费用流】

    正题 题目链接:https://www.luogu.com.cn/problem/P3980 题目大意 \(n\)天,第\(i\)天需要\(A_i\)个志愿者.有\(m\)种志愿者,第\(i\)种从\ ...