谷歌在文章《Attention is all you need》中提出的transformer模型。如图主要架构：同样为encoder-decoder模式，左边部分是encoder，右边部分是decoder。
TensorFlow代码：https://www.github.com/kyubyong/transformer

用 sentencepiece 进行分词。

Encoder 输入

初始输入为待翻译语句的embedding矩阵，由于句子长度不一致，需要做统一长度处理，长度取maxlength1，不够长的句子padding 0值，句尾加上 </s> 。

d = 512, [batchsize，maxlen1，d]

考虑到词语间的相对位置信息，还要加上语句的position
encoding，由函数形式直接求出。

PE(pos,2i) = sin(pos/10002i/d)

PE(pos,2i+1) = cos(pos/10002i/d)

Padding的值不做position encoding。 [batchsize，maxlen1，d] ，最终:

encoder input = position encoding + input embedding。

encoder input : [batchsize，maxlen1，d]

Encoder

Encoder 由N = 6个相同的layer连接组成。每个layer中有两个sublayer，分别是multihead
self-attention以及FFN。

Q = K = V = input

MultiHead(Q, K, V) = concat(head1, …, headh)Wo

headi = Attention(QWiQ，KWik，VWiV)

Attention(Q, K, V) = softmax(QKT/$$sqrt{d}$$) V

softmax前要做key_mask，把pad 0 的地方赋值为-inf，softmax后权重做query mask，赋值0。

h = 8

WiQ, Wik, WiV : [d, d/h]

Q : [maxlen_q, d]

K = V : [maxlen_k, d]

Maxlen_q = maxlen_k so: Q = K = V : [maxlen1, d]

QWkQ，KWik，VWiV : [maxlen1, d/h]

headi : [maxlen1, d/h] * [d/h, maxlen1] * [maxlen1, d/h] = [maxlen1, d/h]

Wo : [d, d]

MultiHead(Q,K,V): [maxlen, d]

Softmax([maxlen_q, maxlen_k]) 在最后一个维度即 maxlen_k 上做 softmax。
position-wise是因为处理的attention输出是某一个位置i的attention输出。

FFN(x) = ReLU ( xW1 + b1 ) * W2 + b2

ReLU(x) = max( 0, x )

dff = 4 * d = 2048

W1 : [d, dff]

W2 : [dff, d]

流程：

Input -> dropout ->

(

multihead self-attention -> dropout -> residual connection -> LN ->

FFN-> dropout -> residual connection -> LN ->

) * 6

-> memory [batchsize，maxlen，d]

代码中在multihead attention中对score做dropout，FFN后没有dropout，但文章说每个sublayer的output都有一个dropout。

大专栏 Transformer详解：各个特征维度分析推导"#Decoder-输入" class="headerlink" title="Decoder 输入">Decoder 输入

训练

目标句子首尾分别加上 <s> , </s>。

Decoder input = Output embedding + position encoding

Decoder input : [batchsize，maxlen2，d]

预测

初始向量为<s>对应embedding，之后将前一步的输出拼接到当前的所有预测构成当前的decoder输入。

Decoder

Decoder由N = 6 个相同的layer组成，每个layer中有三个sublayer，分别是multihead self-attention, mutihead attention以及FFN。

decoder input -> dropout ->

(

   Masked multihead self-attention(dec, dec, dec) = dec-> dropout ->

   multihead attention(dec, memory, memory) -> dropout -> residual connection

   -> LN -> FFN -> dropout -> residual connection -> LN ->

) * 6

-> dec -> linear -> softmax

Self-attention 的mask为一个和dec相同维度的上三角全为-inf的矩阵。

Linear( x ) = xW

Dec : [batchsize，maxlen2，d]

W : [d, vocabsize]

W为词汇表embedding矩阵的转置, 输入输出的词汇表embedding矩阵为W。即三个参数共享。

Linear( x ) : [batchsize，maxlen2，vocabsize]

Softmax函数：

$pleft( k|x right)=frac{exp({{z}_{k}})}{sumnolimits_{i=1}^{K}{exp ({{z}_{i}})}}$

其中zi一般叫做 logits，即未被归一化的对数概率。

损失函数

损失函数：cross entropy。用p代表predicted probability，用q代表groundtruth。即：

$cross_entropy_loss=sumlimits_{k=1}^{K}{qleft( k|xright)log (pleft( k|x right))}$

groundtruth为one-hot，即每个样本只有惟一的类别，$q(k)={{delta}_{k,y}}$，y是真实类别。

${{delta }_{k,y}}text{=}left{begin{matrix} 1,k=y \0,kne y \end{matrix} right.$

对目标句子onehot 做labelmsmooth用$tilde{q}(k|x)$代替$q(k|x)$。（为了正则化，防止过拟合）

$tilde{q}(k|x)=(1-varepsilon ){{delta }_{k,y}}+varepsilon u(k)$

可以理解为，对于$q(k)={{delta}_{k,y}}$函数分布的真实标签，将它变成以如下方式获得：首先从标注的真实标签的$delta$分布中取定，然后以一定的概率$varepsilon$，将其替换为在$u(k)$分布中的随机变量。$u(k)$为均匀分布，即$u(k)=1/K$

优化方法

Adam优化器：

学习率使用warm up learning rate:

learningrate = dmodel-0.5 * min ( step_num-0.5, step_num * warmup_steps-1.5 )

warmup_steps ：4000

Transformer详解：各个特征维度分析推导的更多相关文章

Android应用AsyncTask处理机制详解及源码分析
1 背景 Android异步处理机制一直都是Android的一个核心,也是应用工程师面试的一个知识点.前面我们分析了Handler异步机制原理(不了解的可以阅读我的<Android异步消息处理机 ...
Java SPI机制实战详解及源码分析
背景介绍提起SPI机制,可能很多人不太熟悉,它是由JDK直接提供的,全称为:Service Provider Interface.而在平时的使用过程中也很少遇到,但如果你阅读一些框架的源码时,会发现 ...
Spring Boot启动命令参数详解及源码分析
使用过Spring Boot,我们都知道通过java -jar可以快速启动Spring Boot项目.同时,也可以通过在执行jar -jar时传递参数来进行配置.本文带大家系统的了解一下Spring ...
【转载】Android应用AsyncTask处理机制详解及源码分析
[工匠若水 http://blog.csdn.net/yanbober 转载烦请注明出处,尊重分享成果] 1 背景 Android异步处理机制一直都是Android的一个核心,也是应用工程师面试的一个 ...
线程池底层原理详解与源码分析（补充部分---ScheduledThreadPoolExecutor类分析）
[1]前言本篇幅是对线程池底层原理详解与源码分析的补充,默认你已经看完了上一篇对ThreadPoolExecutor类有了足够的了解. [2]ScheduledThreadPoolExecut ...
Attention和Transformer详解
目录 Transformer引入 Encoder 详解输入部分 Embedding 位置嵌入注意力机制人类的注意力机制 Attention 计算多头 Attention 计算残差及其作用 B ...
SpringMVC异常处理机制详解[附带源码分析]
目录前言重要接口和类介绍 HandlerExceptionResolver接口 AbstractHandlerExceptionResolver抽象类 AbstractHandlerMethodE ...
Linux 链接详解----静态链接实例分析
由Linux链接详解(1)中我们简单的分析了静态库的引用解析和重定位的内容, 下面我们结合实例来看一下静态链接重定位过程. /* * a.c */ ; void add(int c); int mai ...
HTTP协议详解之http请求分析
当今web程序的开发技术真是百家争鸣,ASP.NET, PHP, JSP,Perl, AJAX 等等. 无论Web技术在未来如何发展,理解Web程序之间通信的基本协议相当重要, 因为它让我们理解了We ...

随机推荐

当初希望自己是如何投入这个专业的学习的？曾经做过什么准备，或者立下过什么FLAG吗？
学习好累,打游戏好爽我不爱学习认真勤勉投入学习精心准备,刻苦学习我的flag 作为大学生,需要了解今后职场社会,对职业方向有了进一步的认识.社会对于人才的要求在某些方面都是不谋而合的,比 ...
CMake命令之install
CMAKE_INSTALL_PREFIX Install directory used by install(). if make install is invoked or INSTALL is b ...
前端Json 增加,删除,修改元素（包含json数组处理）
一:基础JSON对象二:JSON数组数据以下为增删修改方法: <!DOCTYPE html> <html lang="en"> <head> ...
15）png图片旋转贴图
1)基本代码展示还是上一个那个总代码: #include<Windows.h> #include<gdiplus.h>//GDI+的头文件 using namespace ...
负载均衡配置篇（Nginx）
负载均衡 == 分身的能力. 既然要有分身的能力嘛,这好办,多弄几台服务器就搞定了.今天我们讲的实例嘛…..我们还是先看图比较好: 还是图比较清晰,以下我都用别名称呼: PA : 负载均衡服务器/WE ...
【按位dp】文盲的学习方法
当年大神的文章 <浅谈数位统计问题> 对于没什么文化(x 没有充分时间或懒得看那么多理论应付个水考试的我 eg:62问题某大大的代码和分析 #include <iostream& ...
ZJNU 1067 - 约瑟夫——中级
打表处理(否则Case 1超时) 对m进行枚举,每次枚举进行一次判断因为好人坏人均为k个,那么只要让下一个死亡的人的位置p保证在1~剩余坏人数量之间即可,不满足则直接break枚举下一个m 实际上对 ...
微信小程序使用第三方FontIcon库的部分字体图标
一.提取部分图标重新制作TTF字库我没有使用网上大多数文章写的淘宝提供的fonticon,而只使用了Ionicons的几个图标,所以打开Ionicons的官网点击右上角的Designer pack下 ...
GCC与G++区别
gcc和g++的区别总结:gcc: GNU C Compilerg++: GNU C++ Compiler 共同点:均属于the GNU Compiler Collection,gcc是鼻祖,后来才有 ...
UEFI启动（翻译）
本文是我翻译自国外技术博客的一篇文章,其中讲述了 UEFI 的一些基本概念和细节. 本文的原始链接位于: https://www.happyassassin.net/2014/01/25/uefi-b ...

Transformer详解：各个特征维度分析推导