1.Contextualized Word Embedding

同样的单词有不同的意思，比如下面的几个句子，同样有 “bank” ，却有着不同的意思。但是用训练出来的 Word2Vec 得到 “bank” 的向量会是一样的。向量一样说明 “word” 的意思是一样的，事实上并不是如此。这是 Word2Vec 的缺陷。

下面的句子中，同样是“bank”，确是不同的 token，只是有同样的 type

我们期望每一个 word token 都有一个 embedding。每个 word token 的 embedding 依赖于它的上下文。这种方法叫做 Contextualized Word Embedding。

2.EMLO

EMLO 是 Embeddings from Language Model 的缩写，它是一个 RNN-based 的模型，只需要有大量句子就可以训练。

我们可以把训练的 RNN 隐藏层的权重拿出来，把词汇经过隐藏层后输出的向量当做这个单词的 embedding，因为 RNN 是考虑上下文的，所以同一个单词在不同的上下文中它会得到不同的向量。上面是一个正向里的 RNN，如果觉得考虑到的信息不够，可以训练双向 RNN ，同样将隐藏层的输出作为 embedding。

如果我们的 RNN 有很多层，我们要拿那一隐藏层的输出作为 embedding？

在 ELMO 中，它取出每一层得到的向量，经过运算得到我们每一个单词的 embedding

比如上图，假设我们有2层，所以每个单词都会得到 2 个向量，最简单的方法就是把两个向量加起来作为这个单词的embedding。

EMLO中会把两个向量取出来，然后乘以不同的权重 $\alpha $，再将得到的我们得到的 embedding 做下游任务。

$\alpha $ 也是模型学习得到的，它会根据我们的下游任务一起训练得到，所以不同的任务用到的 $\alpha $ 是不一样的

比如我们的 embedding 可以有3个来源，如上图所示。分别是

原来没有经过 contextualized 的 embedding，就是上面的 Token
Token 经过第一层抽出第一个 embedding
Token 经过第二层抽出第二个 embedding

颜色的深浅代表了权重的大小，可以看到不同的任务（SRL、Coref 等）有着不同的权重。

3.BERT

BERT 是 Bidirectional Encoder Representations from Transformers 的缩写，BERT 是 Transformer 中的 Encoder。它由许多个 Encoder 堆叠而成

论文地址：https://arxiv.org/pdf/1810.04805.pdf

推荐的文章：https://cloud.tencent.com/developer/article/1389555

在 BERT 里面，我们的文本是不需要标签的，只有收集到一堆句子就可以训练了。

BERT 是 Encoder，所以可以看成输入一个句子，输出 embedding，每个 embedding 对应一个 word

上图的例子我们是以 “词” 为单位，有时候我们以 “字” 为单位会更好。比如中文的 “词” 是很多的，但是常用的 “字” 是有限的。

在 BERT 中，有两种训练方法，一种是 Masked LM。另一种是 Next Sentence Prediction。但一般同时使用，会取得更好的效果。下图是 BERT 的大体架构。可以看到 Pre-training 阶段和 Fine-Tuning 阶段中 BERT 模型，只有输出层不同，其他部分是完全一样的。

3.1Masked LM

在 Masked LM 中，我们会把输入的句子中随机将15%的词汇置换为一个特殊的 token ，叫做 [MASK]

其实并不是所有被选中的词汇都会被替换为 [MASK] ，在 BERT 论文的 3.1 Pre-training BERT 中谈到了 3 种方式。

（1）80% 被替换为 [MASK]

（2）10% 被替换为随机 token

（3）10% 不替换

BERT 的任务就是猜出这些被置换掉的词汇的什么。

就像是一个填词游戏，挖去一句话中的某个单词，让你自己填上合适的单词

经过 BERT 后我们得到一个 embedding，再把置换为 [MASK] 的那个位置输出的 embedding 通过一个线性分类器，预测这个单词是什么

因为这个分类器是 Linear 的，所以它的能力非常非常弱，所以 BERT 要输出一个非常好的 embedding，才能预测出被置换掉的单词是什么

如果两个不同的词可以填在同一个句子，他们会有相似的embedding，因为他们语义相近

3.2Next Sentence Prediction

在 Next Sentence Prediction 中，我们给 BERT 两个句子，让 BERT 预测这两个句子是不是接在一起的

[SEP]：特殊的toekn，代表两个句子的交界处

[CLS]：特殊的token，代表要做分类

我们再把 [CLS] 输出的向量通过一个线性分类器，让分类器判断这两个句子应不应该接在一起。

BERT 是 Transformer 的 Encoder，它用到了 self-attention 机制，可以读到句子的全部信息，所以 [CLS] 可以放在开头

BERT 论文中谈到输入的句子对中，以 A-B 描述这样的句子对。B 有50%的概率不变，就是真正的下一句（IsNext）。也有 50% 的概率会变成其他句子（NotNext）。

我们也可以直接把这个向量输入一个分类器中，判断文本的类别，比如下面判断垃圾邮件的实例

3.3BERT的输入

如上图所处，BERT 的输入 embedding 是 token embeddings、segment embeddings 和 position embedding 的和

token embedding：词向量

segment embedding：表示句子是第一句还是第二句

position embedding：表示词汇在句子中的位置

3.4ERNIE

ERNIE 是 Enhance Representation through Knowledge Integration 的缩写

ERNIE是专门为中文准备的，BERT的输入以中文的字为单位，随机盖掉一些字后其实是很容易被猜出来的，如上图所示。所以盖掉一个词汇比较合适。

4.GPT

GPT 是 Generative Pre-Training 的缩写，它的参数量特别大，如下图所示，它的参数量是 BERT 的4.5倍左右

BERT 是 Transformer 的 Encoder，GPT则是 Transformer 的 Decoder。GPT 输入一些词汇，预测接下来的词汇。其计算过程如下图所示。

我们输入单词 “潮水”，经过许多层的 self-attention 后得到输出 “退了”。再把 “退了” 作为输入，预测下一个输出。

GPT可以做阅读理解、句子或段落生成和翻译等NLP任务

下面的网址可以体验训练好的 GPT

https://talktotransformer.com/

比如让它自己写代码

也可以让它写文章、写剧本什么的，网址就在上面，可以自己去体验

参考资料：

http://jalammar.github.io/illustrated-bert/

李宏毅深度学习

ELMO，BERT和GPT简介的更多相关文章

GPT and BERT
目录概主要内容 GPT BERT Radford A., Narasimhan K., Salimans T. and Sutskever I. Improving language unders ...
理解BERT:一个突破性NLP框架的综合指南
概述 Google的BERT改变了自然语言处理(NLP)的格局了解BERT是什么,它如何工作以及产生的影响等我们还将在Python中实现BERT,为你提供动手学习的经验 BERT简介想象一下-- ...
从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史（转载）
转载 https://zhuanlan.zhihu.com/p/49271699 首发于深度学习前沿笔记写文章从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史张 ...
【中文版 | 论文原文】BERT：语言理解的深度双向变换器预训练
BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding 谷歌AI语言组论文<BERT:语言 ...
【NLP】彻底搞懂BERT
# 好久没更新博客了,有时候随手在本上写写,或者Evernote上记记,零零散散的笔记带来零零散散的记忆o(╥﹏╥)o..还是整理到博客上比较有整体性,也方便查阅~ 自google在2018年10月底 ...
BERT论文解读
本文尽量贴合BERT的原论文,但考虑到要易于理解,所以并非逐句翻译,而是根据笔者的个人理解进行翻译,其中有一些论文没有解释清楚或者笔者未能深入理解的地方,都有放出原文,如有不当之处,请各位多多包含,并 ...
zz从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史
从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史 Bert最近很火,应该是最近最火爆的AI进展,网上的评价很高,那么Bert值得这么高的评价吗?我个人判断是值得.那为什么 ...
BERT解析及文本分类应用
目录前言 BERT模型概览 Seq2Seq Attention Transformer encoder部分 Decoder部分 BERT Embedding 预训练文本分类试验参考文献前言在 ...
bert论文笔记
摘要 BERT是“Bidirectional Encoder Representations from Transformers"的简称,代表来自Transformer的双向编码表示.不同于 ...

随机推荐

P3379 【模板】最近公共祖先（LCA）（欧拉序+rmq）
P3379 [模板]最近公共祖先(LCA) 用欧拉序$+rmq$维护的$lca$可以做到$O(nlogn)$预处理,$O(1)$查询从这里剻个图 #include<iostream> # ...
实体模型集合对象转换为VO对象集合
例如: 数据库中查出来的数据为 List<RptDayMonthTarget> List<RptDayMonthTarget> list = targetService.sel ...
zTree根节点默认打开
1.在生成tree的json数据中,直接给出:open:true的属性; 2.treeObj.expandAll(true); 3.var zTree = $.fn.zTree.getZTreeObj ...
linux下查看Apache的访问日志及ip
linux下查看Apache的实时访问日志:tail -f /etc/httpd/logs/access_log 查看有哪些ip访问过:cat access_log |awk '{print $1} ...
Taro -- 使用 Redux 来进行全局变量的管理
前言 Redux是JavaScript 状态容器,提供可预测化的状态管理.一般来说,规模比较大的小程序,页面状态,数据缓存,需要管理的东西太多,这时候引入Redux可以方便的管理这些状态,同一数据,一 ...
实验查看PHP本地的Session信息
通过Nginx调度器负载后端两台Web服务器,实现以下目标: - 部署Nginx为前台调度服务器 - 调度算法设置为轮询 - 后端为两台LNMP服务器 - 部署测试页面,查看PHP本地的Session ...
在vue项目中，解决如何在element表格中循环出图片列！
效果图: 1,vue项目环境 2,引入element-ui组件 3,制作表格此处省去制作循环表格数据那步,想看的可以找回我的博客:element中的表格处理:循环出表格数据今天想在表格出循环出一列 ...
kafka消费组、消费者
consumer group consumer instance 一个消费组可能有一个或者多个消费者.同一个消费组可以订阅一个或者多个主题.主题的某一个分区只能被消费组的某一个消费者消费.那么分区和消 ...
转Oracle、MySql、SQLServer 数据分页查询
最近简单的对oracle,mysql,sqlserver2005的数据分页查询作了研究,把各自的查询的语句贴出来供大家学习..... (一). mysql的分页查询 mysql的分页查询是最简单的,借 ...
Linux下安装Harbor 1.8.0 仓库的安装和使用(亲测)
根据Harbor官方描述: Harbor是一个用于存储和分发Docker镜像的企业级Registry服务器,通过添加一些企业必需的功能特性,例如安全.标识和管理等,扩展了开源Docker Distri ...

ELMO，BERT和GPT简介