Transformer

最近看了Attention Is All You Need这篇经典论文。论文里有很多地方描述都很模糊，后来是看了参考文献里其他人的源码分析文章才算是打通整个流程。记录一下。

Transformer整体结构

数据流梳理

符号含义速查

N: batch size
T: 一个句子的长度
E: embedding size
C: attention_size（num_units）
h: 多头header的数量

1. 训练

1.1 输入数据预处理

翻译前文本,翻译后文本，做长度截断或填充处理，使得所有语句长度都固定为T。
获取翻译前后语言的词库，对少出现词做剔除处理，词库添加< PAD >, < UNK >, < Start >, < End >四个特殊字符。
翻译前后文本根据词库，将文本转为id。
设batch_size=N, 则转换后翻译前后数据的size为：X=(N, T), Y=(N, T)

1.2 Encoder

前面结构图中Encoder的输入Inputs就是1.1中转换好的X。

1.2.1 Input Embedding
设输入词库大小为vocab_in_size, embedding的维度为E，则先随机初始化一个(vocab_in_size, E)大小的矩阵，根据embedding矩阵将X转换为(N, T, E)大小的矩阵。

1.2.2 Positional encoding
Position embedding矩阵维度也是(N,T,E),不同batch上，在T维度上相同位置的值一样。论文里用了三角函数sin和cos。
将Position embedding直接叠加到1.2.1的X上就是送入multi-head attention的输入了。

1.2.3 Multi-Head Attention

线性变换
将输入X=(N,T,E)通过线性变换，将特征维度转换为C。经过转换维度为X=(N,T,C)。

转为多头
沿特征方向平分为h份，在batch维度上拼接，方便后面计算。转换后维度X=(h*N, T, C/h)

计算\(QK^T\)
这里query(Q)和key(K)都是前面的X，计算后维度out=(h*N,T,T)

Mask Key
将out矩阵中key方向上原始key信息为0的部分mask掉，另其为一个极大的负数。所谓信息为0是指文本中PAD的部分。最开始会将PAD的embedding设为全0矩阵。
Softmax
把上一步的输入做softmax操作，变为归一化权值。维度(h*N,T,T)

Mask Query
把query部分信息量为0对应的维度置0。即这一部分的权重为0。信息量为0同样指PAD。

乘以value
self attention的value也就是上面的X(h*N, T, C/h)，相乘后维度=(h*N, T, C/h)

reshape
将多头的部分恢复原来的维度，处理后维度out=(N, T, C)

1.2.4 Add & Norm
残差操作，out = out+X 维度(N, T, C)
layer norm归一化，维度(N, T, C)

多个block
上面1.2.3和1.2.4操作重复多次，最后一层的输出就是Encoder的最终输出。记为Enc。

1.3 Decoder

这里大部分跟前面Encoder是一样的。前面结构图中Decoder的输入Outputs就是1.1中转换好的Y。

1.3.1 output Embedding
设输入词库大小为vocab_out_size, embedding的维度为E，则先随机初始化一个(vocab_out_size, E)大小的矩阵，根据embedding矩阵将Y转换为(N, T, E)大小的矩阵。

1.3.2 Positional encoding
见1.2.2

1.3.3 Masked Multi-Head Attention
跟1.2.3基本相同，只是多了一个Mask步骤

线性变换
将输入Y=(N,T,E)通过线性变换，将特征维度转换为C。经过转换维度为Y=(N,T,C)。

转为多头
沿特征方向平分为h份，在batch维度上拼接，方便后面计算。转换后维度Y=(h*N, T, C/h)

计算\(QK^T\)
这里query(Q)和key(K)都是前面的Y，计算后维度out=(h*N,T,T)

Mask Key
将out矩阵中key方向上原始key信息为0的部分mask掉，另其为一个极大的负数。所谓信息为0是指文本中PAD的部分。最开始会将PAD的embedding设为全0矩阵。

Mask当前词之后的词
做这一步的原因是在解码位置i的词时，我们只知道位置0到i-1的信息，并不知道后面的信息。处理方式是将T_k>T_q部分置为一个极大的负数。T_k表示key方向维度，T_q表示query方向维度。

Softmax
把上一步的输入做softmax操作，变为归一化权值。维度(h*N,T,T)

Mask Query
把query部分信息量为0对应的维度置0。即这一部分的权重为0。信息量为0同样指PAD。

乘以value
self attention的value也就是上面的X(h*N, T, C/h)，相乘后维度=(h*N, T, C/h)

reshape
将多头的部分恢复原来的维度，处理后维度out=(N, T, C)

1.3.4 Add & Norm
残差操作，out = out+X 维度(N, T, C)
layer norm归一化，维度(N, T, C)

1.3.5 Multi-Head Attention
跟之前的区别在于，以前是self attention，这里query是上面decode的输出dec, key是encoder的输出enc

转为多头
将dec沿特征方向平分为h份，在batch维度上拼接，方便后面计算。转换后维度dec=(h*N, T, C/h)

计算\(QK^T\)
这里query(Q)=dec和key(K)=enc，计算后维度out=(h*N,T_q,T_k)

Mask Key
将out矩阵中key方向上原始key信息为0的部分mask掉，另其为一个极大的负数。所谓信息为0是指文本中PAD的部分。最开始会将PAD的embedding设为全0矩阵。
Softmax
把上一步的输入做softmax操作，变为归一化权值。维度(h*N,T_q,T_k)

Mask Query
把query部分信息量为0对应的维度置0。即这一部分的权重为0。信息量为0同样指PAD。

乘以value
self attention的value也就是上面的enc(h*N, T, C/h)，相乘后维度=(h*N, T_q, C/h)

reshape
将多头的部分恢复原来的维度，处理后维度out=(N, T_q, C)

1.3.6 Add & Norm
残差操作，out = out+dec 维度(N, T_q, C)
layer norm归一化，维度(N, T_q, C)

多个block
上面1.3.3-1.3.6重复多次

全连接变换
将上面输出结果(N, T_q, C)转换为(N, T_q, vocab_out_size)维,softmax获取每个位置输出各个词的概率。通过优化算法迭代更新参数。

2. 测试

测试时的Encoder部分比较好理解，跟训练时处理一样。只不过参数都是训练好的，比如embedding矩阵直接使用前面训练好的矩阵。
主要问题是在decoder的输入上。
对于一个语句，decoder一开始输入全0序列。表示什么信息也不知道(或者一个Start标签，表示开始)。经过一次decoder后输出一个长度为T的预测序列out1
第二次，输入out1预测的第一个字符，后面是全0，表示知道一个词了。经过decoder处理后，获得长度为T的输出预测序列out2
第三次,输入out2预测的前两个字符，后面是全0，表示知道2个词了。
依次类推。
注意，训练时decode结果是一次性获取的。但是测试的时候一次只获取一个词。需要类似RNN一样循环多次。

对于Position Embedding的理解

有些词颠倒一下顺序，含义是会变化的。
比如：奶牛 -> dairy cattle
如果没有添加位置信息，颠倒后会翻译成牛奶 -> cattle dairy。
但这显然是不对的，在颠倒顺序后词的含义改变了，应该翻译为 milk。
为了处理这种问题，所以需要加入位置信息。

参考文献

https://blog.csdn.net/mijiaoxiaosan/article/details/74909076
https://github.com/Kyubyong/transformer
《Attention Is All You Need》

【算法】Attention is all you need的更多相关文章

2. Attention Is All You Need（Transformer）算法原理解析
1. 语言模型 2. Attention Is All You Need(Transformer)算法原理解析 3. ELMo算法原理解析 4. OpenAI GPT算法原理解析 5. BERT算法原 ...
Attention机制在深度学习推荐算法中的应用(转载)
AFM:Attentional Factorization Machines: Learning the Weight of Feature Interactions via Attention Ne ...
stanford coursera 机器学习编程作业 exercise4--使用BP算法训练神经网络以识别阿拉伯数字(0-9)
在这篇文章中,会实现一个BP(backpropagation)算法,并将之应用到手写的阿拉伯数字(0-9)的自动识别上. 训练数据集(training set)如下:一共有5000个训练实例(trai ...
数据结构算法C语言实现（八）--- 3.2栈的应用举例：迷宫求解与表达式求值
一.简介迷宫求解:类似图的DFS.具体的算法思路可以参考书上的50.51页,不过书上只说了粗略的算法,实现起来还是有很多细节需要注意.大多数只是给了个抽象的名字,甚至参数类型,返回值也没说的很清楚, ...
Kosaraju 算法
Kosaraju 算法一.算法简介在计算科学中,Kosaraju的算法(又称为–Sharir Kosaraju算法)是一个线性时间(linear time)算法找到的有向图的强连通分量.它利用了一 ...
论文笔记之：Deep Attention Recurrent Q-Network
Deep Attention Recurrent Q-Network 5vision groups 摘要:本文将 DQN 引入了 Attention 机制,使得学习更具有方向性和指导性.(前段时间做 ...
时空上下文视觉跟踪（STC）算法的解读与代码复现（转）
时空上下文视觉跟踪(STC)算法的解读与代码复现 zouxy09@qq.com http://blog.csdn.net/zouxy09 本博文主要是关注一篇视觉跟踪的论文.这篇论文是Kaihua Z ...
论文笔记之：Multiple Object Recognition With Visual Attention
Multiple Object Recognition With Visual Attention Google DeepMind ICRL 2015 本文提出了一种基于 attention 的用 ...
论文笔记之：Attention For Fine-Grained Categorization
Attention For Fine-Grained Categorization Google ICLR 2015 本文说是将Ba et al. 的基于RNN 的attention model 拓展 ...

随机推荐

JDK源代码学习-基础类
一.概述 1.Java,是一套语言规范,例如规定了变量如何定义.控制语句如何写等,提供基本的语法规范.JDK是java自带的一套调用组件,是对基本java语法规范的进一步封装,jdk中都是使用java ...
动态强制改变for循环里面item的值
var item = that.data.articles[inde_x]//获取数据列表 item.is_collection = 1//希望将特定的值改变 console.log(that.dat ...
Python 学习笔记 - 不断更新!
Python 学习笔记太久不写python,已经忘记以前学习的时候遇到了那些坑坑洼洼的地方了,开个帖子来记录一下,以供日后查阅. 摘要:一些报错:为啥Python没有自增 ++ 和自减 --: 0x ...
BlockQueue 解析
生产者.消费者模式 https://www.jianshu.com/p/024a36b83099
【THUSC2017】【LOJ2977】巧克力斯坦纳树
题目大意有一个网格(或者你可以认为这是一个图),每个点都有颜色 \(c_i\) 和点权 \(a_i\). 求最小的连通块,满足这个连通块内点的颜色数量 \(\geq k\).在满足点数最少的前提下, ...
[HNOI2012]集合选数（状压DP+构造）
题目要求若出现x,则不能出现2x,3x 所以我们考虑构造一个矩阵 \(1\ 2\ 4 \ 8--\) \(3\ 6\ 12\ 24--\) \(9\ 18\ 36--\) \(--\) 不难发现,对于 ...
Linux-#!/bin/sh理解
#!是一个特殊符号,/bin/sh是用来解释该脚本的的shell路径 #!/bin/sh指该脚本使用/bin/sh来执行 sh只是其中一种解释方式,通过如下命令可以查到支持的shell解释方式: xx ...
redis5.0.3单实例简单安装记录
redis5.0.3单实例简单安装记录日常需要测试使用,索性记录下来,免得临时又麻烦的找资料. yum -y install make gcc-c++ cmake bison-devel ncurs ...
Thunk
Thunk https://en.wikipedia.org/wiki/Thunk In computer programming, a thunk is a subroutine used to i ...
Vue插槽的深入理解和应用
一开始接触vue时并不知道插槽是什么,后来看了很多文章也是一知半解.然后自己手动敲了一下,在项目中实际应用一下,实在太好用了.后来做小程序后发现也能使用slot,不单单在vue中使用.我就是这么目光短 ...

【算法】Attention is all you need

Transformer

Transformer整体结构

数据流梳理

符号含义速查

1. 训练

1.1 输入数据预处理

1.2 Encoder

1.3 Decoder

2. 测试

对于Position Embedding的理解

参考文献

【算法】Attention is all you need的更多相关文章

随机推荐

热门专题