Transformer Network Intuition 变压器网络直觉

深度学习中最令人兴奋的发展之一是 Transformer Network,有时也称为 Transformers。这是一种完全席卷 NLP 世界的架构。当今许多最有效的 NLP 专辑都是基于 Transformer 架构的。它是一个相对复杂的神经网络架构,但在这个和接下来的三个视频中将逐个介绍。因此,在接下来的四个视频结束时,您将对 Transformer Network 的工作原理有一个很好的了解,我们将能够应用零问题。随着序列任务的复杂性增加,模型的复杂性也会增加。

我们从 RNN 开始这门课程,发现它在梯度消失方面存在一些问题,这使得很难捕获长距离依赖关系和序列。然后,我们将 GRU 和 LSTM 模型视为解决许多可能使用门来控制信息流的问题的方法。



所以这些单元中的每一个都有更多的计算。虽然这些版本改进了对信息流的控制,但也增加了复杂性。因此,随着我们从 RNN 到 GRU 再到 LSTM,模型变得更加复杂(见上图)。所有这些模型仍然是顺序模型,因为它们摄取了输入,可能是当时输入的句子一个词或一个标记。因此,就好像每个单元都像是信息流的瓶颈。因为例如,要计算这个最终单元的输出,您首先必须计算之前出现的所有单元的输出。

在本视频中,您了解了 Transformer 架构,它允许您为整个序列并行运行更多此类计算。因此,您可以同时摄取整个句子,而不是一次从左到右处理一个单词。 Transformer Network 发表在 Vaswani、Norm Shakespeare、Nikki Palmer、Jacob 很棒、行 James、Gomez、Lucas Kaiser 和更早的波兰人的开创性论文中。 Transformer 网络的发明者之一 Lucas Kaiser 也是 NLP 专业与深度学习 dot AI 的联合讲师。

所以当你完成这个深度学习专业化后,你也可以检查一下。 Transformer 架构的主要创新是结合使用基于注意力的表示和 CNN 卷积神经网络处理方式。因此,RNN 可能一次处理一个输出,因此可能 y(0) 向它们馈送您计算 y(1) 的信息,然后将其用于计算 y(2)。



这是处理标记的非常顺序的方式,您可能会将其与 CNN 进行对比,或者有信心可以输入大量像素。是的,或者可能有很多单词,并且可以并行计算它们的表示。所以你在注意力网络中看到的是一种计算非常丰富、非常有用的单词表示的方法。但是有一些更类似于这种 CNN 风格的并行处理。为了理解注意力网络,接下来的几个视频中将涉及两个关键思想。首先是自我关注。 self attention 的目标是,如果你有一个包含五个单词的句子,最终会计算这五个单词的五个表示,将写成 A1、A2、A3、A4 和 A5。这将是一种基于注意力的并行计算句子中所有单词表示的方式

然后多头注意力(Multi—Head Attention)是自我注意过程的基本 循环。所以你最终会得到这些表示的多个版本。事实证明,这些表示将是非常丰富的表示,可用于机器翻译或其他 NLP 折腾以创造有效性。

所以在下一个视频中,让我们开始学习自我注意,计算这些丰富的表示。之后的视频,我们将讨论多头注意力。然后关于转换网络的最终视频会将所有这些放在一起,以便您了解整个转换器架构是如何工作的。让我们进入下一个视频。

第五课第四周笔记1:Transformer Network Intuition 变压器网络直觉的更多相关文章

  1. 第五课第四周笔记4:Transformer Network变压器网络

    Transformer Network变压器网络 你已经了解了 self attention,你已经了解了 multi headed attention.在这个视频中,让我们把它们放在一起来构建一个变 ...

  2. 第五课第四周笔记3:Multi-Head Attention多头注意力

    Multi-Head Attention多头注意力 让我们进入并了解多头注意力机制. 符号变得有点复杂,但要记住的事情基本上只是你在上一个视频中学到的自我注意机制的四个大循环. 让我们看一下每次计算自 ...

  3. 第五课第四周笔记2:Self-Attention 自注意力

    Self-Attention 自注意力 让我们跳进去谈谈transformer的self-attention机制.如果您能了解本视频背后的主要思想,您就会了解变压器网络工作背后最重要的核心思想. 让我 ...

  4. 第五课第四周实验一:Embedding_plus_Positional_encoding 嵌入向量加入位置编码

    目录 变压器预处理 包 1 - 位置编码 1.1 - 位置编码可视化 1.2 - 比较位置编码 1.2.1 - 相关性 1.2.2 - 欧几里得距离 2 - 语义嵌入 2.1 - 加载预训练嵌入 2. ...

  5. Elasticsearch7.X 入门学习第五课笔记---- - Mapping设定介绍

    原文:Elasticsearch7.X 入门学习第五课笔记---- - Mapping设定介绍 版权声明:本文为博主原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明. 本 ...

  6. 红帽学习笔记[RHCSA] 第五课[用户、权限相关]

    第五课 用户权限 查看文件的权限 [kane@localhost /]$ ll total 36 ----------. 1 root root 1751 Aug 22 20:58 ~ lrwxrwx ...

  7. 斯坦福 CS183 & YC 创业课系列中文笔记

    欢迎任何人参与和完善:一个人可以走的很快,但是一群人却可以走的更远. 在线阅读 ApacheCN 面试求职交流群 724187166 ApacheCN 学习资源 目录 Zero to One 从0到1 ...

  8. NeHe OpenGL教程 第四十五课:顶点缓存

    转自[翻译]NeHe OpenGL 教程 前言 声明,此 NeHe OpenGL教程系列文章由51博客yarin翻译(2010-08-19),本博客为转载并稍加整理与修改.对NeHe的OpenGL管线 ...

  9. kali linux 渗透测试视频教程 第五课 社会工程学工具集

    第五课 社会工程学工具集 文/玄魂 教程地址:http://edu.51cto.com/course/course_id-1887.html   目录 第五课社会工程学工具集 SET SET的社会工程 ...

随机推荐

  1. 【曹工杂谈】说说Maven框架和插件的契约

    说说Maven框架和插件的契约 前言 Maven框架就像现在公司内的各种平台方,规定一些契约,然后想办法拉动业务方,一起在这个平台上去做生态共建.Maven也是这样,其实它就是一个插件执行的框架,Ma ...

  2. NOIP模拟50

    过分的神圣,往往比恶魔更加恶质. 前言 最大的一个收获就是不要动不动就码线段树,一定要审清楚题目之后再码!! T1 一开始理解错题了,以为答案是就是 \(\dfrac{\operatorname{le ...

  3. Appium问题解决方案(3)- java.lang.IllegalStateException: UiAutomation not connected!

    背景 连着手机,运行脚本,一段时间之后就报错了,看了Appium-server,发现报了这样一个错误 如何解决呢? 步骤一 通过 adb devices ,确定设备是否已连接上 步骤二(最终解决方案) ...

  4. openswan源码ubantu下编译、安装、基本环境搭建

    openswan的编译过程 文章目录 openswan的编译过程 1. 下载源码: 2. 在虚拟机上解压后编译: 2.1 查看INSTALL文件 2.2 查看文件buildlin.sh文件 3. 查看 ...

  5. fwm环境APP菜品数据加载失败的优化操作

    1)在项目的.env文件中添加如下一行: RESPONSE_CACHE_ENABLED=true 2)拷贝 laravel-worker.conf.example,将laravel字段替换为域名,并执 ...

  6. Node.js躬行记(9)——微前端实践

    后台管理系统使用的是umi框架,随着公司业务的发展,目前已经变成了一个巨石应用,越来越难维护,有必要对其进行拆分了. 计划是从市面上挑选一个成熟的微前端框架,首先选择的是 icestark,虽然文档中 ...

  7. Tensorflow保存神经网络参数有妙招:Saver和Restore

    摘要:这篇文章将讲解TensorFlow如何保存变量和神经网络参数,通过Saver保存神经网络,再通过Restore调用训练好的神经网络. 本文分享自华为云社区<[Python人工智能] 十一. ...

  8. 枚举类enum

    一.枚举类 package com.xxx.xf.common.enums; import com.xxx.xf.workday.contant.HolidayContant; /** * @Auth ...

  9. 地址栏url中去掉所有参数

    1.地址栏url中去掉所有参数,这个是纯前端解决,很多时候页面跳转时候会选择在url后面带参数过去,(使用?&),方便传也方便取,但是我们要做的是不要让页面的一些请求参数暴露在外面 正常项目工 ...

  10. 硕盟type-c转接头|四合一多功能扩展坞

    硕盟SM-T54是一款 TYPE C转HDMI+VGA+USB3.0+PD3.0四合一多功能扩展坞,支持四口同时使用,您可以将含有USB 3.1协议的电脑主机,通过此产品连接到具有HDMI或VGA的显 ...