attention、self-attention、transformer和bert模型基本原理简述笔记

　　attention
　　
　　以google神经机器翻译(NMT)为例
　　
　　无attention：
　　
　　encoder-decoder在无attention机制时，由encoder将输入序列转化为最后一层输出state向量，再由state向量来循环输出序列每个字符。
　　
　　attention机制：
　　
　　将整个序列的信息压缩在一维向量里造成信息丢失，并且考虑到输出的某个字符只与输入序列的某个或某几个相关，与其他输入字符不相关或相关性较弱，由此提出了attention机制。在encoder层将输入序列的每个字符output向量以不同权重进行组合再decode输出字符，每需要输出一个字符，encoder层权重序列都会变，这就可以理解为需要输出的字符是由哪些或那个字符影响最大，这就是注意力机制。
　　
　　attention权重的获得需要通过一个函数层获得，而该函数参数需要通过training来优化，详细理解可以参考我这篇blog
　　
　　从增强字/词的语义表示这一角度来理解一下Attention机制：
　　
　　Attention机制主要涉及到三个概念：Query、Key和Value。在上面增强字的语义表示这个应用场景中，目标字及其上下文的字都有各自的原始Value，Attention机制将目标字作为Query、其上下文的各个字作为Key，并将Query与各个Key的相似性作为权重，把上下文各个字的Value融入目标字的原始Value中。如下图所示，Attention机制将目标字和上下文各个字的语义向量表示作为输入，首先通过线性变换获得目标字的Query向量表示、上下文各个字的Key向量表示以及目标字与上下文各个字的原始Value表示，然后计算Query向量与各个Key向量的相似度作为权重，加权融合目标字的Value向量和各个上下文字的Value向量，作为Attention的输出，即：目标字的增强语义向量表示。
　　
　　self-attention
　　
　　self-attention来自于google文章《attention is all you need》。一个序列每个字符对其上下文字符的影响作用都不同，每个字对序列的语义信息贡献也不同，可以通过一种机制将原输入序列中字符向量通过加权融合序列中所有字符的语义向量信息来产生新的向量，即增强了原语义信息。
　　
　　Self-Attention:对于输入文本，我们需要对其中的每个字分别增强语义向量表示，因此，我们分别将每个字作为Query，加权融合文本中所有字的语义信息，得到各个字的增强语义向量，如下图所示。在这种情况下，Query、Key和Value的向量表示均来自于同一输入文本，因此，该Attention机制也叫Self-Attention。
　　
　　Multi-head Self-Attention
　　
　　为了增强Attention的多样性，文章作者进一步利用不同的Self-Attention模块获得文本中每个字在不同语义空间下的增强语义向量，并将每个字的多个增强语义向量进行线性组合，从而获得一个最终的与原始字向量长度相同的增强语义向量，如下图所示。
　　
　　Transformer
　　
　　在Multi-headSelf-Attention的基础上再添加一些“佐料”，就构成了大名鼎鼎的Transformer Encoder。实际上，Transformer模型还包含一个Decoder模块用于生成文本，但由于BERT模型中并未使用到Decoder模块，因此这里对其不作详述。下图展示了Transformer Encoder的内部结构，可以看到，Transformer Encoder在Multi-head Self-Attention之上又添加了三种关键操作：
　　
　　残差连接（ResidualConnection）：将模块的输入与输出直接相加，作为最后的输出。这种操作背后的一个基本考虑是：修改输入比重构整个输出更容易（“锦上添花”比“雪中送炭”容易多了！）。这样一来，可以使网络更容易训练。
　　
　　Layer Normalization：对某一层神经网络节点作0均值1方差的标准化。
　　
　　线性转换：对每个字的增强语义向量再做两次线性变换，以增强整个模型的表达能力。这里，变换后的向量与原向量保持长度相同。
　　
　　可以看到，Transformer Encoder的输入和输出在形式上还是完全相同，因此，Transformer Encoder同样可以表示为将输入文本中各个字的语义向量转换为相同长度的增强语义向量的一个黑盒。
　　
　　public IDirectoryContents GetDirectoryContents(string subpath)
　　
　　{
　　
　　var rootDirectory = GetRootDirectory();
　　
　　var folderName = subpath.Substring(1);
　　
　　CloudFileDirectory folder = null;
　　
　　if (string.IsNullOrWhiteSpace(folderName))
　　
　　{
　　
　　folder = rootDirectory;
　　
　　}
　　
　　else
　　
　　{
　　
　　folder = rootDirectory.GetDirectoryReference(folderName);
　　
　　}
　　
　　var files = new List<IFileInfo>();
　　
　　foreach (var item in folder
　　
　　.ListFilesAndDirectoriesSegmentedAsync(new FileContinuationToken())
　　
　　.Result
　　
　　.Results)
　　
　　{
　　
　　if (item is CloudFile)
　　
　　{
　　
　　var file = item as CloudFile;
　　
　　files.Add(new AzureFileInfo(file));
　　
　　}
　　
　　else if (item is www.tianshengyuLe1.cn CloudFileDirectory)
　　
　　{
　　
　　var directory = item as CloudFileDirectory;
　　
　　files.Add(new AzureDirectoryInfo(directory));
　　
　　}
　　
　　}
　　
　　return new AzureStorageDirectoryContents(files);
　　
　　}
　　
　　private CloudFileDirectory GetRootDirectory(www.yongshi123.cn)
　　
　　{
　　
　　var shareName = www.tiaotiaoylzc.com/ _setting.ShareName;
　　
　　var storageAccount = CloudStorageAccount.Parse(_setting.ConnectionString);
　　
　　var fileClient =www.yinxionghui1.com/ storageAccount.CreateCloudFileClient();
　　
　　var share = fileClient.GetShareReference(www.feifanyule.cn/ shareName);
　　
　　var rootDir = share.GetRootDirectoryReference();
　　
　　微任务（microtask）：
　　
　　 - 在宏任务执行过程中，执行到微任务时，将微任务放入微任务队列中。
　　
　　 - 在宏任务执行完后，在重新渲染之前执行。
　　
　　 - 当一个宏任务执行完后，他会将产生的所有微任务执行完。
　　
　　分别在什么场景下会产生宏任务或微任务呢：
　　
　　宏任务：主代码块，setTimeout，setInterval（任务队列中的所有回调函数都是宏任务）
　　
　　微任务：Promise
　　
　　导致页面无法立即响应的原因
　　
　　导致页面无法响应的原因是执行栈中还有任务未执行完，或者是js引擎线程被GUI线程堵塞。
　　
　　html文件解析过程
　　
　　这个过程是在下载html文件之后，不包括网络请求过程
　　
　　 1. Browser进程下载html文件并将文件发送给renderer进程
　　
　　 2. renderer进程的GUI进程开始解析html文件来构建出DOM
　　
　　 3. 当遇到外源css时，Browser进程下载该css文件并发送回来，GUI线程再解析该文件，在这同时，html的解析也在进行，但不会渲染（还未形成渲染树）
　　
　　 4. 当遇到内部css时，html的解析和css的解析同时进行
　　
　　 5. 继续解析html文件，当遇到外源js时，Browser进程下载该js文件并发送回来，此时，js引擎线程解析并执行js，因为GUI线程和js引擎线程互斥，所以GUI线程被挂起，停止继续解析html。直到js引擎线程空闲，GUI线程继续解析html。
　　
　　 6. 遇到内部js也是同理
　　
　　 7. 解析完html文件，形成了完整的DOM树，也解析完了css，形成了完整的CSSOM树，两者结合形成了render树
　　
　　 8. 根据render树来进行布局，若在布局的过程中发生了元素尺寸、位置、隐藏的变化或增加、删除元素时，则进行回流，修改
　　
　　 9. 根据render树进行绘制
　　
　　 10. 将布局、绘制得到的各个简单图层的位图发送给Browser进程，由它来合并简单图层为复合图层，从而显示到页面上
　　
　　 11. 以上步骤就是html文件解析全过程，完成之后，如若当页面有元素的尺寸、大小、隐藏有变化时，重新布局计算回流，并修改页面中所有受影响的部分，如若当页面有元素的外观发生变化时，重绘

attention、self-attention、transformer和bert模型基本原理简述笔记的更多相关文章

BERT模型图解
转载于腾讯Bugly 发表于腾讯Bugly的专栏原文链接:https://cloud.tencent.com/developer/article/1389555 本文首先介绍BERT模型要做什么 ...
Attention is all you need及其在TTS中的应用Close to Human Quality TTS with Transformer和BERT
论文地址:Attention is you need 序列编码深度学习做NLP的方法,基本都是先将句子分词,然后每个词转化为对应的的词向量序列,每个句子都对应的是一个矩阵\(X=(x_1,x_2,. ...
RealFormer: 残差式 Attention 层的Transformer 模型
原创作者 | 疯狂的Max 01 背景及动机 Transformer是目前NLP预训练模型的基础模型框架,对Transformer模型结构的改进是当前NLP领域主流的研究方向. Transformer ...
NLP学习(5)----attention/ self-attention/ seq2seq/ transformer
目录: 1. 前提 2. attention (1)为什么使用attention (2)attention的定义以及四种相似度计算方式 (3)attention类型(scaled dot-produc ...
从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史（转载）
转载 https://zhuanlan.zhihu.com/p/49271699 首发于深度学习前沿笔记写文章从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史张 ...
想研究BERT模型？先看看这篇文章吧！
最近,笔者想研究BERT模型,然而发现想弄懂BERT模型,还得先了解Transformer. 本文尽量贴合Transformer的原论文,但考虑到要易于理解,所以并非逐句翻译,而是根据笔者的个人理解进 ...
zz从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史
从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史 Bert最近很火,应该是最近最火爆的AI进展,网上的评价很高,那么Bert值得这么高的评价吗?我个人判断是值得.那为什么 ...
图示详解BERT模型的输入与输出
一.BERT整体结构 BERT主要用了Transformer的Encoder,而没有用其Decoder,我想是因为BERT是一个预训练模型,只要学到其中语义关系即可,不需要去解码完成具体的任务.整体架 ...
[NLP自然语言处理]谷歌BERT模型深度解析
我的机器学习教程「美团」算法工程师带你入门机器学习已经开始更新了,欢迎大家订阅~ 任何关于算法.编程.AI行业知识或博客内容的问题,可以随时扫码关注公众号「图灵的猫」,加入”学习小组“,沙雕博主 ...

随机推荐

RabbitMQ入门：工作队列(Work Queue)
在上一篇博客<RabbitMQ入门:Hello RabbitMQ 代码实例>中,我们通过指定的队列发送和接收消息,代码还算是比较简单的. 假设有这一些比较耗时的任务,按照上一次的那种方式, ...
k8s踩坑记第2篇--3个IP折磨人的故事
例子来源于<Kubernetes实践指南>一书.问题依然没有解决,求助大神. 测试环境 Centos 7.0 docker 1.13.1 kubectl v1.5.2 etcd 3.2.1 ...
Spring入门学习笔记（4）——JDBC的使用
目录 Spring JDBC框架概览 JdbcTemplate类配置数据源数据访问对象(Data Access Object,DAO) 执行SQL命令 Spring JDBC框架概览使用传统的J ...
XSS跨站脚本
1.反射型非持久化,需要用户自己点击才可以触发通常出现在搜索框 <?php $id=$_GET['id']; echo $id; ?> http://127.0.0.1/test/sc ...
Windows10子系统安装ubuntu+kali渗透环境
Windows10安装子系统ubuntu,安装完ubuntu后再安装katoolin才能使用kali. (katoolin渗透测试的Linux发行版,它可以让你在其他Linux发行版上使用Kali的全 ...
深度学习之神经网络核心原理与算法-caffe&keras框架图片分类
之前我们在使用cnn做图片分类的时候使用了CIFAR-10数据集其他框架对于CIFAR-10的图片分类是怎么做的来与TensorFlow做对比. Caffe Keras 安装官方安装文档: ht ...
模块-Memcached、Redis
目录 Mecache 安装使用 Redis 安装 Python操作Redis 操作模式连接池操作 String Hash List Set sort set 其他常用操作管道发布订阅 sen ...
在虚拟机下安装Ubuntu
目录: 1.安装虚拟机 2.在虚拟下安装Ubuntu 本文将按照目录分两步来讲一下在虚拟机下安装Ubuntu.第一步是安装虚拟机,第二步是在虚拟机下安装Ubuntu. 安装虚拟机下载虚拟机链接以及激 ...
cnblogs用户体验评价
1. 是否提供良好的体验给用户(同时提供价值)? 博客园就相当于现在生活中处处可见的微博,所有人都在上面发表自己的一些看法,当然我们比较关注的是计算机编程方面的一些博客,大多数编程人员愿意分享自己的代 ...
BufferedWriter与BufferedRead --------------------------Test
package com.test; import java.io.BufferedReader; import java.io.BufferedWriter; import java.io.File; ...

attention、self-attention、transformer和bert模型基本原理简述笔记

attention、self-attention、transformer和bert模型基本原理简述笔记的更多相关文章

随机推荐

热门专题