46997268

NLP突破性成果 BERT 模型详细解读

不懂算法的产品经理不是好的程序员

关注她

82 人赞了该文章

Google发布的论文《Pre-training of Deep Bidirectional Transformers for Language Understanding》，提到的BERT模型刷新了自然语言处理的11项记录。最近在做NLP中问答相关的内容，抽空写了篇论文详细解读。我发现大部分关注人工智能领域的朋友看不懂里面的主要结论，为了让你快速了解论文精髓，这里特地为初学者和刚接触深度学习的朋友们奉上技能点突破roadmap。如果别人写的论文解读你看不懂，代表你需要补充基础知识啦。另外给了主要论文参考，在第五部分，希望对你在NLP领域全面的了解有所帮助。

一、总体介绍

BERT模型实际上是一个语言编码器，把输入的句子或者段落转化成特征向量（embedding）。论文中有两大亮点：1.双向编码器。作者沿用了《attention is all you need》里提到的语言编码器，并提出双向的概念，利用masked语言模型实现双向。2.作者提出了两种预训练的方法Masked语言模型和下一个句子的预测方法。作者认为现在很多语言模型低估了预训练的力量。Masked语言模型比起预测下一个句子的语言模型，多了双向的概念。

二、模型框架

BERT模型复用OpenAI发布的《Improving Language Understanding with Unsupervised Learning》里的框架，BERT整体模型结构与参数设置都尽量做到OpenAI GPT一样，只在预训练方法做了改造。而GPT让编码器只学习每一个token(单词）与之前的相关内容。

上图是根据OpenAI GPT的架构图做的改动，以便读者更清楚的了解整个过程。

整体分为两个过程：1.预训练过程（左边图）预训练过程是一个multi-task learning，迁移学习的任务，目的是学习输入句子的向量。2微调过程（右边图）可基于少量监督学习样本，加入Feedword神经网络，实现目标。因为微调阶段学习目标由简单的feedward神经网络构成，且用少量标注样本，所以训练时间短。

1.输入表示

对比其他语言模型输入是一个句子或者文档，Bert模型对输入做了更宽泛的定义，输入表示即可以是一个句子也可以一对句子（比如问答和答案组成的问答对）。

输入表示为每个词对应的词向量，segment向量，位置向量相加而成。（位置向量参考《attention is all you need》）

2.预训练过程-Masked语言模型

Masked语言模型是为了训练深度双向语言表示向量，作者用了一个非常直接的方式，遮住句子里某些单词，让编码器预测这个单词是什么。

训练方法为：作者随机遮住15%的单词作为训练样本。

（1）其中80%用masked token来代替。

（2）10%用随机的一个词来替换。

（3）10%保持这个词不变。

作者在论文中提到这样做的好处是，编码器不知道哪些词需要预测的，哪些词是错误的，因此被迫需要学习每一个token的表示向量。另外作者表示，每个batchsize只有15%的词被遮盖的原因，是性能开销。双向编码器比单项编码器训练要慢。

3.预测下一个句子。

预训练一个二分类的模型，来学习句子之间的关系。预测下一个句子的方法对学习句子之间关系很有帮助。

训练方法：正样本和负样本比例是1：1，50%的句子是正样本，随机选择50%的句子作为负样本。

[CLS]为句子起始符，[MASK]为遮蔽码，[SEP]为分隔符和截止符

4.预训练阶段参数

（1）256个句子作为一个batch,每个句子最多512个token。

（2）迭代100万步。

（3）总共训练样本超过33亿。

（4）迭代40个epochs。

（5）用adam学习率， 1 = 0.9, 2 = 0.999。

（6）学习率头一万步保持固定值，之后线性衰减。

（7）L2衰减，衰减参数为0.01。

（8）drop out设置为0.1。

（9）激活函数用GELU代替RELU。

（10）Bert base版本用了16个TPU，Bert large版本用了64个TPU，训练时间4天完成。

（论文定义了两个版本，一个是base版本，一个是large版本。Large版本（L=24, H=1024, A=16, Total Parameters=340M）。base版本（ L=12, H=768, A=12, Total Pa- rameters=110M）。L代表网络层数，H代表隐藏层数，A代表self attention head的数量。）

5.微调阶段

微调阶段根据不同任务使用不同网络模型。在微调阶段，大部分模型的超参数跟预训练时差不多，除了batchsize，学习率，epochs。

训练参数：

Batch size: 16, 32

Learning rate (Adam): 5e-5, 3e-5, 2e-5

Number of epochs: 3, 4

三、实验效果

1.分类数据集上的表现

2.问答数据集上的表现

在问答数据集SQuAD v1.1上的表现，TriviaQA是一个问答数据集。EM的基本算法是比较两个字符串的重合率。F1是综合衡量准确率和召回率的一个指标。

3.命名实体识别上的表现

4.常识推理上的表现

四、模型简化测试

Blation study就是为了研究模型中所提出的一些结构是否有效而设计的实验。对该模型推广和工程化部署有极大作用。

1.预训练效果测试

NO NSP: 用masked语言模型，没用下一个句子预测方法（next sentence prediction）

LTR&NO NSP: 用从左到右（LTR）语言模型，没有masked语言模型，没用下一个句子预测方法

+BiLSTM: 加入双向LSTM模型做预训练。

2.模型结构的复杂度对结果的影响

L代表网络层数，H代表隐藏层数，A代表self attention head的数量。

3.预训练中training step对结果的影响

4.基于特征的方法对结果的影响

五、重要参考论文

如何你想了解2017年到2018年NLP领域重要发展趋势，你可以参考以下几篇论文。google直接就可以下载。

《Attention is all you need》2017年NLP领域最重要突破性论文之一。

《Convolutional Sequence to Sequence Learning》2017年NLP领域最重要突破性论文之一。

《Deep contextualized word representations》2018年NAACL最佳论文，大名鼎鼎的ELMO。

《Improving Language Understanding by Generative PreTraining》，OpenAI GPT，Bert模型主要借鉴和比较对象。

《An efficient framework for learning sentence representations》句子向量表示方法。

《Semi-supervised sequence tagging with bidirectional language models》提出双向语言模型。

六、个人观点

个人觉得如果你大概了解近两年NLP的发展的话，BERT模型的突破在情理之中，大多思想是借用前人的突破，比如双向编码器想法是借助这篇论文《Semi-supervised sequence tagging with bidirectional language models》。并且，他提出的一些新的思想，是我们自然而然就会想到的。（十一在家的时候，在做问答模型的时候，我就在想，为什么不能把前一个句子和后一个句子作为标注数据，组成一个二分类模型来训练呢。）

整片论文最有价值的部分，我认为是预训练的两种方法，不需要大量标注数据，在工程实践和一些NLP基础训练中具有很大借鉴意义。

自然语言处理领域2017年和2018年的两个大趋势：一方面，模型从复杂回归到简单。另一方面，迁移学习和半监督学习大热。这两个趋势是NLP从学术界向产业界过渡的苗头，因为现实情况往往是，拿不到大量高质量标注数据，资源设备昂贵解决不了效率问题。

NLP突破性成果 BERT 模型详细解读 bert参数微调的更多相关文章

[NLP自然语言处理]谷歌BERT模型深度解析
我的机器学习教程「美团」算法工程师带你入门机器学习已经开始更新了,欢迎大家订阅~ 任何关于算法.编程.AI行业知识或博客内容的问题,可以随时扫码关注公众号「图灵的猫」,加入”学习小组“,沙雕博主 ...
BERT模型总结
BERT模型总结前言 BERT是在Google论文<BERT: Pre-training of Deep Bidirectional Transformers for Language U ...
从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史（转载）
转载 https://zhuanlan.zhihu.com/p/49271699 首发于深度学习前沿笔记写文章从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史张 ...
zz从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史
从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史 Bert最近很火,应该是最近最火爆的AI进展,网上的评价很高,那么Bert值得这么高的评价吗?我个人判断是值得.那为什么 ...
BERT模型
BERT模型是什么 BERT的全称是Bidirectional Encoder Representation from Transformers,即双向Transformer的Encoder,因为de ...
Bert模型实现垃圾邮件分类
近日,对近些年在NLP领域很火的BERT模型进行了学习,并进行实践.今天在这里做一下笔记. 本篇博客包含下列内容: BERT模型简介概览 BERT模型结构 BERT项目学习及代码走读项目基本特性介 ...
Pytorch | BERT模型实现，提供转换脚本【横扫NLP】
<谷歌终于开源BERT代码:3 亿参数量,机器之心全面解读>,上周推送的这篇文章,全面解读基于TensorFlow实现的BERT代码.现在,PyTorch用户的福利来了:一个名为Huggi ...
NLP学习（3）---Bert模型
一.BERT模型: 前提:Seq2Seq模型前提:transformer模型 bert实战教程1 使用BERT生成句向量,BERT做文本分类.文本相似度计算 bert中文分类实践用bert做中文命 ...
NLP与深度学习（六）BERT模型的使用
1. 预训练的BERT模型从头开始训练一个BERT模型是一个成本非常高的工作,所以现在一般是直接去下载已经预训练好的BERT模型.结合迁移学习,实现所要完成的NLP任务.谷歌在github上已经开放 ...

随机推荐

spring boot定时任务解析
在SpringBoot中定时任务一般使用的是@Scheduled注解. @Scheduled 1.注解内容: @Target({ElementType.METHOD, ElementType.ANNO ...
Codeforces Round #436 (Div. 2) 题解864A 864B 864C 864D 864E 864F
A. Fair Game time limit per test 1 second memory limit per test 256 megabytes input standard input o ...
Redis 复制、Sentinel的搭建和原理说明（转）
Redis 复制.Sentinel的搭建和原理说明转自:http://www.cnblogs.com/zhoujinyi/p/5570024.html. 背景: Redis-Sentinel是Re ...
微服务开源生态报告 No.7
「微服务开源生态报告」,汇集各个开源项目近期的社区动态,帮助开发者们更高效的了解到各开源项目的最新进展. 社区动态包括,但不限于:版本发布.人员动态.项目动态和规划.培训和活动. 非常欢迎国内其他微服 ...
webpack学习之——Output
配置 output 选项可以控制 webpack 如何向硬盘写入编译文件.注意,即使可以存在多个入口起点,但只指定一个输出配置. 1. 用法在 webpack 中配置 output 属性的最低要求是 ...
超线程（Hyper-Threading）
运行方式每个单位时间内,一个CPU只能处理一个线程(操作系统:thread),以这样的单位进行,如果想要在一单位时间内处理超过一个线程是不可能的,除非是有两个CPU的实体单元.双核心技术是将两个一样 ...
IUAP--单点登录
登录组件: 提供统一的登录组件身份.证明验证身份支持多种身份标识,用户名.邮箱.手机号支持多个域,从与得到用户响应的角色,权限进行验证用户时候能进行操作. 支持会话管理和安全管理支持多种验证策 ...
云服务器 ECS Linux Web 环境配置站点的方法
摘自:https://help.aliyun.com/knowledge_detail/41100.html ECS Linux 系统一键安装 Web 环境<专业版>下 Tomcat 添加 ...
友盟iOS sdk整理
文档中心 :http://dev.umeng.com 集成文档:http://dev.umeng.com/analytics/ios-doc/integration 报表中心:http://www.u ...
SDUT-3375_数据结构实验之查找三：树的种类统计
数据结构实验之查找三:树的种类统计 Time Limit: 400 ms Memory Limit: 65536 KiB Problem Description 随着卫星成像技术的应用,自然资源研究机 ...

NLP突破性成果 BERT 模型详细解读 bert参数微调

https://zhuanlan.zhihu.com/p/46997268

NLP突破性成果 BERT 模型详细解读

NLP突破性成果 BERT 模型详细解读 bert参数微调的更多相关文章

随机推荐

热门专题