transformers---BERT

BERT模型主要包括两个部分，encoder和decoder，encoder可以理解为一个加强版的word2vec模型，以下是对于encoder部分的内容

预训练任务

MLM任务

MLM任务通过单词表示来表示上下文关系
NSP任务

NSP任务通过句子向量表示句间的关系

1. BERT模型的输入

wordpiece embedding 单词向量
position embedding 位置编码向量

两种生成方式：
- 相对位置编码
  \[PE_{(pos,2i)}=sin(\frac{pos}{10000^{\frac{2i}{model}}})
  \]
  
  \[PE_{(pos,2i+1)}=cos(\frac{pos}{10000^{\frac{2i}{model}}})
  \]
- 通过模型学习生成
segment embedding 区分文中的上下句，应用在问答匹配中

2. self-attention

句子向量

\(\downarrow \ \ \ \ \downarrow\)
Input Embedding + Position Embedding

\(\downarrow\)
\[X_{embedding}\in R^{batch size\ *\ seq len\ *\ embed dim}
\]

\(\downarrow\) 线性映射（学到多重含义，分配三个权重(\(W_Q,W_k,W_v\))
\(Q=Linear(X_{embedding})=X_{embedding}W_Q\)

\(K=Linear(K_{embedding})=K_{embedding}W_K\)

\(V=Linear(V_{embedding})=V_{embedding}W_V\)

\(\downarrow\) multi head atention(\(head size=embed dim/head size\))
\(Q,K,V \rightarrow[batch size,seq len,head size,embed dim/h\)

\((Q,K,V)^T \rightarrow[batch size,head size,
seq len,embed dim/h]\)

head_size：即多头注意力机制中的head, \(head size=embed dim/head num\)

embed_size：句子中每个字的编码向量的长度

seq_len：句子的长度

如图：C1C2表示第一个字和第二个字的注意力机制结果

\(Attention(Q,K,V)=softmax(\frac{QK^T}{\sqrt{d_k}})V\)

\(\frac{QK^T}{\sqrt{d_k}}\)的第一列和\(V\)的第一行决定了结果中的第一个值，这样保证了结果向量中每个元素包含了该句中所有字的特征

note:

Attention mask

在encoder的过程中，输入句子的\(seq len\)是不等长的，此时需要对句子进行补全，如果使用0补全，使用softmax函数\(softmax=\sigma(z)=\frac{e^{z_i}}{\sum^{k}_{j=1}e^{z_j}}\)，e=0时，将导致补0的部分参与到运算中

解决办法：给补0的部分添加偏置\(Z_{illeagl}=Z_{illeagl}+bias ,\ bias\rightarrow -\infty\)

此时，\(e^{-\infty}=0 ,\ e^{Z_{illegal}}=0\),便面了无效区参与运算。

3. Layer Normalization 残差连接

\(X=X_{embedding}+Attention(Q,K,V)\)

transformers---BERT的更多相关文章

BERT论文解读
本文尽量贴合BERT的原论文,但考虑到要易于理解,所以并非逐句翻译,而是根据笔者的个人理解进行翻译,其中有一些论文没有解释清楚或者笔者未能深入理解的地方,都有放出原文,如有不当之处,请各位多多包含,并 ...
(转) Using the latest advancements in AI to predict stock market movements
Using the latest advancements in AI to predict stock market movements 2019-01-13 21:31:18 This blog ...
BERT(Bidirectional Encoder Representations from Transformers)
BERT的新语言表示模型,它代表Transformer的双向编码器表示.与最近的其他语言表示模型不同,BERT旨在通过联合调节所有层中的上下文来预先训练深度双向表示.因此,预训练的BERT表示可以通过 ...
BERT(Bidirectional Encoder Representations from Transformers)理解
BERT的新语言表示模型,它代表Transformer的双向编码器表示.与最近的其他语言表示模型不同,BERT旨在通过联合调节所有层中的上下文来预先训练深度双向表示.因此,预训练的BERT表示可以通过 ...
文本分类实战（十）—— BERT 预训练模型
1 大纲概述文本分类这个系列将会有十篇左右,包括基于word2vec预训练的文本分类,与及基于最新的预训练模型(ELMo,BERT等)的文本分类.总共有以下系列: word2vec预训练词向量 te ...
【译】BERT表示的可解释性分析
目录从词袋模型到BERT 分析BERT表示不考虑上下文的方法考虑语境的方法结论本文翻译自Are BERT Features InterBERTible? 从词袋模型到BERT Mikol ...
【译】为什么BERT有3个嵌入层，它们都是如何实现的
目录引言概览 Token Embeddings 作用实现 Segment Embeddings 作用实现 Position Embeddings 作用实现合成表示结论参考文献本文翻译 ...
深入理解BERT Transformer ，不仅仅是注意力机制
来源商业新知网,原标题:深入理解BERT Transformer ,不仅仅是注意力机制 BERT是google最近提出的一个自然语言处理模型,它在许多任务检测上表现非常好. 如:问答.自然语言推断和 ...
采用Google预训bert实现中文NER任务
本博文介绍用Google pre-training的bert(Bidirectional Encoder Representational from Transformers)做中文NER(Name ...
【中文版 | 论文原文】BERT：语言理解的深度双向变换器预训练
BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding 谷歌AI语言组论文<BERT:语言 ...

随机推荐

javascript 之迭代器
简介迭代器是一种设计模式,可在容器对象如链表.数组上遍历,无需关心容器对象的内存分配的实现细节.简单的理解就是可以一个一个的依次拿到其中的数据,类似一个移动的指针,但是会告诉我们什么时候结束.这 ...
yum命令报错File "/usr/bin/yum", line 30 except KeyboardInterrupt, e:
使用yum命令报错File "/usr/bin/yum", line 30 except KeyboardInterrupt, e: 问题出现原因:yum包管理是使用python2 ...
ks.cfg文件相关
原文转自:https://www.cnblogs.com/itzgr/p/10029631.html作者:木二目录一图形化生成ks.cfg文件二 ks.cfg文件相关项解析一图形化生成ks ...
centos7 查看端口占用情况
2021-08-02 1. 查看端口占用情况 # 查看 8088 端口占用情况 lsof -i tcp:8088 # 若提示没有 lsof 命令, yum 安装一下 yum -y install ls ...
sublime text 3 中文排序插件
ST3 的排序不支持中文按拼音排序,所以需要搞一个插件来支持这一特性 pypinyin 这个库可以把中文转成拼音,可惜不支持 python3.3,而 ST3 内置的 python 就是 3.3 我系统 ...
20210804 noip30
考场第一眼感觉 T1 是状压 DP,弃了.T2 好像也是 DP???看上去 T3 比较可做. 倒序开题.T3 暴力是 \(O(pn\log p)\)(枚举 \(x\),二分答案,看能否分成合法的不超 ...
Docker - 解决 docker push 上传镜像报：denied: requested access to the resource is denied 的问题
问题背景在 Linux 已登录自己的 Docker hub 账号上传本地镜像但是报错了 docker push tomcat 解决方案 docker tag tomcat poloyy/tomca ...
SpringBoot 如何生成接口文档，老鸟们都这么玩的！
大家好,我是飘渺. SpringBoot老鸟系列的文章已经写了两篇,每篇的阅读反响都还不错,果然大家还是对SpringBoot比较感兴趣.那今天我们就带来老鸟系列的第三篇:集成Swagger接口文档以 ...
angularjs实现购物清单
HTML: 1:要定义ng-app,在html上定义ng-app="App"; 2:在body上定义ng-controller="ToDoCtrl" 3: &l ...
任由文字肆意流淌，更自由的开源 Markdown 编辑器
对于创作平台来说内容编辑器是十分重要的功能,强大的编辑器可以让创作者专注于创作"笔"下生花.而最好取悦程序员创作者的方法之一就是支持 Markdown 写作,因为大多数程序员都是用 ...

transformers---BERT

transformers---BERT

预训练任务

1. BERT模型的输入

2. self-attention

3. Layer Normalization 残差连接

transformers---BERT的更多相关文章

随机推荐

热门专题