[NLP]Transformer-XL论文解读

关于Transformer的具体内容，可以访问：https://www.cnblogs.com/mj-selina/p/12369797.html

简介
Transformer是Google Brain2017年提出的一种模型，它的编码能力超越了RNN，但是对于长距离依赖的建模能力依然不足。为解决长距离依赖问题，Google Brain提出了Transformer-XL模型（XL是extra long的意思），不仅能够获取长距离依赖，而且解决了文本碎片化的问题。Transformer-XL是基于vanilla Transformer进行创新的，它不仅能比vanilla Transformer处理4.5倍长的长距离依赖关系，而且在评估期间要比vanilla Transformers快1800倍。
注1：文本碎片化是vanilla Transformer中会遇到的问题，因为vanilla Transformer只能处理固定长度的序列，如果序列过长，会将其切割成两个或者多个序列，如果序列之间存在语义关系，而vanilla Transformer在编码的时候会丢失这种语义关系（在编码时，序列与序列之间不产生信息交换），产生文本碎片化问题。

Vanilla Transformer
VanillaTransformer输入固定长度的序列，如果输入序列比规定的长度长，则会将输入序列不考虑语义的切割成多个segment，如下图(a)所示。这种不考虑语义的切割方法，会导致文本碎片化问题，每个segment只能获取到自己的语义信息，而丢失之前segment的语义信息。
而在评估时，vanilla模型只会考虑同样长度的segment,一般它会取最后一个位置的隐向量作为输出。如下图(b)所示，在预测输出时，模型每次会向右移动一步，并根据新的segment片段预测此刻的单词。这种使用当前序列重新预测的方法，会导致计算量大增，预测速度较慢，且不能利用更早的信息。

Transformer-XL
1、片段级递归机制(segment-level recurrence mechanism)：在Transformer中引入了循环机制，在训练当前segment的时候，会保存并使用上一个segment每一层的输出向量。这样就可以利用之前segment的信息，提高Transformer长期依赖的能力，在训练时前一个segment的输出只参与前向计算，而不参与反向传播。

如上图所示，可以看出，在训练当前segment时，Transformer-XL会利用前一个segment的信息（图中绿色线段）。如果GPU内存允许，可以使用前多个segment的信息。
循环机制的另一个优点是测试速度快，它每次可以前进一个segment的距离，而不是像vanilla一样，一次只能前进一个表征。

2、相对位置编码(Relative Positional Encodings)：Transformer中使用一个序列的绝对位置计算positional encoding，再与单词的encoding相加即可。但是Transformer-XL中，将序列分成多个segment，每个segment都会存在相同位置的Embedding，positional encoding的位置信息就失去了意义。因此Transformer-XL提出了相对位置编码，在计算当前位置隐向量的时候，考虑其互相依赖的token的位置关系。具体做法是，在计算attention score的时候，只考虑query向量与key向量的相对位置关系，并将这种相对位置关系加入到每一层Transformer的attention的计算中，具体的计算法师如下：
（1）内容权重：没有添加原始位置编码的原始分数
（2）相对于当前内容的位置偏差：指从前一个seglment的第一个位置（假设index为0）到当前segment的当前word的位置（假设index为k），则位置偏差为k-t，并对位置偏差使用正弦函数进行位置向量计算
（3）可学习的全局内容偏差：该模型添加了一个可学习的向量，用于调整其他表征内容（Kj）的重要性
（4）可学习的全局偏差：另一个可学习向量，仅根据表征之间的距离调整重要性（例如，最后一个词可能比前一个segment中的词更重要） 
关于相对位置的具体计算方法，可以看[4]

参考资料：
[1] https://zhuanlan.zhihu.com/p/70745925
[2] https://www.infoq.cn/article/wt-KaTfcsAv9E7exzIkF
[3] https://zhuanlan.zhihu.com/p/84159401
[4] http://www.linzehui.me/2019/05/07/%E4%BB%A3%E7%A0%81%E7%9B%B8%E5%85%B3/%E5%85%B3%E4%BA%8Etransformer-xl%E4%B8%ADrel-shift%E5%AE%9E%E7%8E%B0%E7%9A%84%E8%A7%A3%E8%AF%BB/

[NLP]Transformer-XL论文解读的更多相关文章

NLP论文解读：无需模板且高效的语言微调模型（上）
原创作者 | 苏菲论文题目: Prompt-free and Efficient Language Model Fine-Tuning 论文作者: Rabeeh Karimi Mahabadi 论文 ...
[论文解读] 阿里DIEN整体代码结构
[论文解读] 阿里DIEN整体代码结构目录 [论文解读] 阿里DIEN整体代码结构 0x00 摘要 0x01 文件简介 0x02 总体架构 0x03 总体代码 0x04 模型基类 4.1 基本逻辑 ...
注意力论文解读(1) | Non-local Neural Network | CVPR2018 | 已复现
文章转自微信公众号:[机器学习炼丹术] 参考目录: 目录 0 概述 1 主要内容 1.1 Non local的优势 1.2 pytorch复现 1.3 代码解读 1.4 论文解读 2 总结论文名称: ...
论文解读丨表格识别模型TableMaster
摘要:在此解决方案中把表格识别分成了四个部分:表格结构序列识别.文字检测.文字识别.单元格和文字框对齐.其中表格结构序列识别用到的模型是基于Master修改的,文字检测模型用到的是PSENet,文字识 ...
人工智能论文解读精选 | PRGC：一种新的联合关系抽取模型
NLP论文解读原创•作者 | 小欣论文标题:PRGC: Potential Relation and Global Correspondence Based Joint Relational ...
itemKNN发展史----推荐系统的三篇重要的论文解读
itemKNN发展史----推荐系统的三篇重要的论文解读本文用到的符号标识 1.Item-based CF 基本过程: 计算相似度矩阵 Cosine相似度皮尔逊相似系数参数聚合进行推荐根据用户 ...
CVPR2019 | Mask Scoring R-CNN 论文解读
Mask Scoring R-CNN CVPR2019 | Mask Scoring R-CNN 论文解读作者 | 文永亮研究方向 | 目标检测.GAN 推荐理由: 本文解读的是一篇发表于CVPR ...
AAAI2019 | 基于区域分解集成的目标检测论文解读
Object Detection based on Region Decomposition and Assembly AAAI2019 | 基于区域分解集成的目标检测论文解读作者 | 文永亮学 ...
Gaussian field consensus论文解读及MATLAB实现
Gaussian field consensus论文解读及MATLAB实现作者:凯鲁嘎吉 - 博客园 http://www.cnblogs.com/kailugaji/ 一.Introduction ...
zz扔掉anchor！真正的CenterNet——Objects as Points论文解读
首发于深度学习那些事已关注写文章扔掉anchor!真正的CenterNet——Objects as Points论文解读 OLDPAN 不明觉厉的人工智障程序员关注他 JustDoIT 等 ...

随机推荐

cf1000E
先缩点构造出一颗树,然后求树的直径就好 const int maxn=3e5+5; const int maxm=6e5+5; const int inf=1e9; int head[maxn],ve ...
String类型的日期怎么转化为Date类型
在一个SQL中,如果同时使用rownum和order by,会有一个先后顺序的问题. 比如select id1,id2 from t_tablename where rownum<3 order ...
小白的java学习之路 “ 字符串”
定一个字符串可以使用string类和stringbuffer类. string类提供了大量的操作字符串的方法,常用的如下: 获得字符串的长度: length(). 比较字符串:equals(). 链接 ...
LeetCode Continuous Subarray Sum 题解同余前缀和 Hash表
文章目录题意思路特殊情况k=0 Source Code 1 Source Code 2 题意给定一个数组和一个整数k,返回是否存在一个长度至少为2的连续子数组的和为k的倍数. 思路和上一篇博 ...
jQuery---京东轮播图
京东轮播图有个计数的,点右边,计数增加,判断计数是否超过总的长度,超过设置计数为0,再设置当前的图片动画,兄弟的图片动画左边点击同理,计数是--,判断计数是否等于-1,等于则reset计数为总长度 ...
自定义结构体 Map
struct Hashmap{ ,maxe=; ],nxt[maxe+],w[maxe+]; ]; ;;} void Add(int x,int y){son[++E]=y;nxt[E]=lnk[x] ...
插入jupyter notebook代码
<iframe src="https://nbviewer.jupyter.org/gist/gaowenxin95/53408e0f1ce268430efaad2cb1f0ca4f& ...
AC认证技术
一.认证方式 Dkey认证(数字密钥认证) 1)免认证key,形同usb,插入即通过认证 2)免审计key,也是上网不被记录审计. 单点登录登录了某点,其他点都能访问:例如登录了支付宝淘宝就不用登录 ...
Real-time Compressive Tracking
这是RTC算法的文献blog Real-time Compressive Tracking Kaihua Zhang1, Lei Zhang1, Ming-Hsuan Yang2 1Dept. of ...
LINUX使用SSH远程终端时，如何将运行时间长的程序在后台挂起，下次SSH登陆时继续使用同一个SHELL？
我在某个平台上购买了一个云服务器,LINUX操作系统无图形化界面,硬盘空间较小.虽然在平台上可以通过其自带网页版VNC界面登陆SHELL进而操控云主机,但是每次需要操控都得打开网页登陆进平台,然后再进 ...

[NLP]Transformer-XL论文解读

[NLP]Transformer-XL论文解读的更多相关文章

随机推荐

热门专题