第五课第四周笔记1:Transformer Network Intuition 变压器网络直觉
Transformer Network Intuition 变压器网络直觉
深度学习中最令人兴奋的发展之一是 Transformer Network,有时也称为 Transformers。这是一种完全席卷 NLP 世界的架构。当今许多最有效的 NLP 专辑都是基于 Transformer 架构的。它是一个相对复杂的神经网络架构,但在这个和接下来的三个视频中将逐个介绍。因此,在接下来的四个视频结束时,您将对 Transformer Network 的工作原理有一个很好的了解,我们将能够应用零问题。随着序列任务的复杂性增加,模型的复杂性也会增加。
我们从 RNN 开始这门课程,发现它在梯度消失方面存在一些问题,这使得很难捕获长距离依赖关系和序列。然后,我们将 GRU 和 LSTM 模型视为解决许多可能使用门来控制信息流的问题的方法。

所以这些单元中的每一个都有更多的计算。虽然这些版本改进了对信息流的控制,但也增加了复杂性。因此,随着我们从 RNN 到 GRU 再到 LSTM,模型变得更加复杂(见上图)。所有这些模型仍然是顺序模型,因为它们摄取了输入,可能是当时输入的句子一个词或一个标记。因此,就好像每个单元都像是信息流的瓶颈。因为例如,要计算这个最终单元的输出,您首先必须计算之前出现的所有单元的输出。
在本视频中,您了解了 Transformer 架构,它允许您为整个序列并行运行更多此类计算。因此,您可以同时摄取整个句子,而不是一次从左到右处理一个单词。 Transformer Network 发表在 Vaswani、Norm Shakespeare、Nikki Palmer、Jacob 很棒、行 James、Gomez、Lucas Kaiser 和更早的波兰人的开创性论文中。 Transformer 网络的发明者之一 Lucas Kaiser 也是 NLP 专业与深度学习 dot AI 的联合讲师。
所以当你完成这个深度学习专业化后,你也可以检查一下。 Transformer 架构的主要创新是结合使用基于注意力的表示和 CNN 卷积神经网络处理方式。因此,RNN 可能一次处理一个输出,因此可能 y(0) 向它们馈送您计算 y(1) 的信息,然后将其用于计算 y(2)。

这是处理标记的非常顺序的方式,您可能会将其与 CNN 进行对比,或者有信心可以输入大量像素。是的,或者可能有很多单词,并且可以并行计算它们的表示。所以你在注意力网络中看到的是一种计算非常丰富、非常有用的单词表示的方法。但是有一些更类似于这种 CNN 风格的并行处理。为了理解注意力网络,接下来的几个视频中将涉及两个关键思想。首先是自我关注。 self attention 的目标是,如果你有一个包含五个单词的句子,最终会计算这五个单词的五个表示,将写成 A1、A2、A3、A4 和 A5。这将是一种基于注意力的并行计算句子中所有单词表示的方式。
然后多头注意力(Multi—Head Attention)是自我注意过程的基本 循环。所以你最终会得到这些表示的多个版本。事实证明,这些表示将是非常丰富的表示,可用于机器翻译或其他 NLP 折腾以创造有效性。
所以在下一个视频中,让我们开始学习自我注意,计算这些丰富的表示。之后的视频,我们将讨论多头注意力。然后关于转换网络的最终视频会将所有这些放在一起,以便您了解整个转换器架构是如何工作的。让我们进入下一个视频。
第五课第四周笔记1:Transformer Network Intuition 变压器网络直觉的更多相关文章
- 第五课第四周笔记4:Transformer Network变压器网络
Transformer Network变压器网络 你已经了解了 self attention,你已经了解了 multi headed attention.在这个视频中,让我们把它们放在一起来构建一个变 ...
- 第五课第四周笔记3:Multi-Head Attention多头注意力
Multi-Head Attention多头注意力 让我们进入并了解多头注意力机制. 符号变得有点复杂,但要记住的事情基本上只是你在上一个视频中学到的自我注意机制的四个大循环. 让我们看一下每次计算自 ...
- 第五课第四周笔记2:Self-Attention 自注意力
Self-Attention 自注意力 让我们跳进去谈谈transformer的self-attention机制.如果您能了解本视频背后的主要思想,您就会了解变压器网络工作背后最重要的核心思想. 让我 ...
- 第五课第四周实验一:Embedding_plus_Positional_encoding 嵌入向量加入位置编码
目录 变压器预处理 包 1 - 位置编码 1.1 - 位置编码可视化 1.2 - 比较位置编码 1.2.1 - 相关性 1.2.2 - 欧几里得距离 2 - 语义嵌入 2.1 - 加载预训练嵌入 2. ...
- Elasticsearch7.X 入门学习第五课笔记---- - Mapping设定介绍
原文:Elasticsearch7.X 入门学习第五课笔记---- - Mapping设定介绍 版权声明:本文为博主原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明. 本 ...
- 红帽学习笔记[RHCSA] 第五课[用户、权限相关]
第五课 用户权限 查看文件的权限 [kane@localhost /]$ ll total 36 ----------. 1 root root 1751 Aug 22 20:58 ~ lrwxrwx ...
- 斯坦福 CS183 & YC 创业课系列中文笔记
欢迎任何人参与和完善:一个人可以走的很快,但是一群人却可以走的更远. 在线阅读 ApacheCN 面试求职交流群 724187166 ApacheCN 学习资源 目录 Zero to One 从0到1 ...
- NeHe OpenGL教程 第四十五课:顶点缓存
转自[翻译]NeHe OpenGL 教程 前言 声明,此 NeHe OpenGL教程系列文章由51博客yarin翻译(2010-08-19),本博客为转载并稍加整理与修改.对NeHe的OpenGL管线 ...
- kali linux 渗透测试视频教程 第五课 社会工程学工具集
第五课 社会工程学工具集 文/玄魂 教程地址:http://edu.51cto.com/course/course_id-1887.html 目录 第五课社会工程学工具集 SET SET的社会工程 ...
随机推荐
- 云原生 AI 前沿:Kubeflow Training Operator 统一云上 AI 训练
分布式训练与 Kubeflow 当开发者想要讲深度学习的分布式训练搬上 Kubernetes 集群时,首先想到的往往就是 Kubeflow 社区中形形色色的 operators,如 tf-operat ...
- Spring Boot 入门系列(二十五)读取配置文件的几种方式详解!
在项目开发中经常会用到配置文件,之前介绍过Spring Boot 资源文件属性配置的方法,但是很多朋友反馈说介绍的不够详细全面.所以, 今天完整的分享Spring Boot读取配置文件的几种方式! S ...
- IPv4掩码与掩码位数的转换
1. 根据掩码获取掩码的位数 int mask2len(unsigned int mask) { /*eg: 255.255.255.0 255.0.255.255.0*/ int bit=0,len ...
- linux下制作img文件
一.简介 制作img文件可以使用linux系统中的dd命令制作,Linux dd 命令用于读取.转换并输出数据.dd 可从标准输入或文件中读取数据,根据指定的格式来转换数据,再输出到文件.设备或标准输 ...
- sass和js的联动(共享变量)
一般做共享变量用于主题功能 假设我们在xxx.scss中声明了一个 theme:blue,我们在 js 中该怎么获取这个变量呢?我们可以通过import variables from '@/style ...
- FastAPI 学习之路(一)fastapi--高性能web开发框架
fastapi是高性能的web框架.他的主要特点是:- 快速编码- 减少人为bug- 直观- 简易- 具有交互式文档 - 高性能 - 基于API的开放标准 支持python 3.6版本. 安装 pip ...
- [第六篇]——云服务器之Spring Cloud直播商城 b2b2c电子商务技术总结
云服务器 云服务器(Elastic Compute Service, ECS)是一种简单高效.安全可靠.处理能力可弹性伸缩的计算服务. 云服务器管理方式比物理服务器更简单高效,我们无需提前购买昂贵的硬 ...
- 洛谷P1308——单词统计
https://www.luogu.org/problem/show?pid=1308 题目描述 一般的文本编辑器都有查找单词的功能,该功能可以快速定位特定单词在文章中的位置,有的还能统计出特定单词在 ...
- 深入学习Composer原理(四)
本系列第四篇文章,也是最后一篇 首先,我们先看看Composer的源码从哪里看起.当然,请您先准备好源码. composer init或者直接install之后,自动生成了一个vendor目录,这时您 ...
- LateX出坑
1 公式是用$ 包围着的 $ 2 \begin{equation} 里面的公式自动编号 \end{equation} 要达成这样的效果,暂时想到如下方法: 1 \begin{equation} ...