什么是Bert
Bert能干什么？
Bert和TensorFlow的关系
BERT的原理
Bert相关工具和服务
Bert的局限性和对应的解决方案

沉舟侧畔千帆过, 病树前头万木春. 今天介绍的是NLP新秀 - Bert.

什么是Bert

一年多之前, 那是2018年的一个秋天(10月11日), 谷歌AI团队新发布了BERT模型，在NLP业内引起巨大反响，认为是NLP领域里程碑式的进步。BERT模型在机器阅读理解顶级水平测试SQuAD1.1中表现出惊人的成绩：全部两个衡量指标上全面超越人类，并且还在11种不同NLP测试中创出最佳成绩，包括将GLUE基准推至80.4％（绝对改进7.6％），MultiNLI准确度达到86.7%（绝对改进率5.6％）等。

Bert的官网是: https://github.com/google-research/bert

Bert能干什么？

Bert能显著提升智能客服系统的表现, 因为Bert在智能客服系统所需要的如下技术和模块中都表现优越:

• 问答 Question Answering (SQuAD v1.1)

• 推理 Natural Language Inference (MNLI)

除了智能客服系统外, Bert还可以用于以下系统和任务中:

• 问答系统

• 命名实体识别

• 文档聚类

• 邮件过滤和分类

• 情感分析

Bert和TensorFlow的关系

那Bert和大名鼎鼎的TensorFlow有什么关系呢?

1. Bert是一个模型, 不是一个工具. TensorFlow是一个工具.

2. Bert这个模型可以在TensorFlow这个工具里实现.

3. 可见, 这两者不是一个维度的东西, 并不是竞争对手, 所以Bert的推出会取代TensorFlow绝对是一个谣言.

BERT的原理

BERT的创新点在于它将双向 Transformer 用于语言模型，

之前的模型是从左向右输入一个文本序列，或者将 left-to-right 和 right-to-left 的训练结合起来。

实验的结果表明，双向训练的语言模型对语境的理解会比单向的语言模型更深刻，

论文中介绍了一种新技术叫做 Masked LM（MLM），在这个技术出现之前是无法进行双向语言模型训练的。

BERT 利用了 Transformer 的 encoder 部分。

Transformer 是一种注意力机制，可以学习文本中单词之间的上下文关系的。

Transformer 的原型包括两个独立的机制，一个 encoder 负责接收文本作为输入，一个 decoder 负责预测任务的结果。

BERT 的目标是生成语言模型，所以只需要 encoder 机制。

Transformer 的 encoder 是一次性读取整个文本序列，而不是从左到右或从右到左地按顺序读取，

这个特征使得模型能够基于单词的两侧学习，相当于是一个双向的功能。

Bert相关工具和服务

那么Bert有没有开箱即用的工具和服务呢?

有的, 比如bert-as-service: https://github.com/hanxiao/bert-as-service

现在让我们来走一遍bert-as-sevice吧. (我用mac, 所以以下所用命令会和在windows下不一样, windows的朋友请自行调整)

第一时间想到的最简单、快速、方便的方法当然是去docker hub上拉一个最新的image啦，然而docker hub上的bert-as-service太旧了，不得不放弃了，我们还是使用传统方法来安装吧。

先要确认安装了：

vs code,
python 3.5到3.7(on 2020年2月14日: 不要python 3.8, 因为目前tensorflow最高版本只支持到3.7) (中国的朋友可以使用taobao镜像： https://npm.taobao.org/mirrors/python/ ),
Tensorflow 1.10 到1.15.0 (中国的朋友可以使用douban镜像：sudo pip3 install tensorflow==1.15.0 -i https://pypi.douban.com/simple ) (on 2020年2月14日 :不要安装Tensorflow其他版本 )
Windows的话还需要安装Microsoft Visual C++ Redistributable for Visual Studio 2015, 2017 and 2019. https://aka.ms/vs/16/release/vc_redist.x64.exe

1. 打开vs code, 建立好bert目录. 在bert目录右键打开命令区

2. 先建立python虚拟环境, 输入命令: python3 -m venv bert-env

3. 安装server: pip install bert-serving-server

4. 安装client: pip install bert-serving-client

5. 下载Download a Pre-trained BERT Model一节里的模型。我选择了BERT-Large, Cased https://storage.googleapis.com/bert_models/2018_10_18/cased_L-24_H-1024_A-16.zip. 如果需要对中文做处理的推荐 https://storage.googleapis.com/bert_models/2018_11_03/chinese_L-12_H-768_A-12.zip

6. 新建一个model文件夹，下载后解压到这个model文件夹里。

7. 启动BERT service： bert-serving-start -model_dir /model/cased_L-24_H-1024_A-16/ -num_worker=4

如果运行报错, 大概率是版本不对, 可以指定绝对路径来确保你调用的是正确的版本

Bert的局限性和对应的解决方案

说得这么牛，那么Bert有什么局限性吗？

万事万物是不可能完美的，Bert当然也有其局限性，Bert只适合处理数百个单词，所以用来做智能、问答系统、命名实体识别、文档聚类、邮件过滤和分类、情感分析等一般只有几百个单词的人工智能系统是很适合的。

但是Bert不能处理成千上万个单词，所以不适用于书籍、合同等大量文本。如果需要处理书籍、合同等大量文本，推荐使用Google的另一个模型：Reformer。

Reformer模型能够处理多达100万字的环境，从目前的实际应用来讲，面向百字的Bert + 面向万字的Reformer组合基本能够横扫整个NLP领域了。

不得不说，Google真的是牛，不但连续拿到了互联网、移动互联网、人工智能等领域的门票。现在还针对NLP各个子领域推出相应技术和产品。这样下去，Google又在NLP届全领域占领了！

自从Google在2016年AlphaGo下赢围棋以来，推出Tensorflow，又在Tensorflow上面推出一堆模型，战略布局很赞，这盘大棋下得真好！

最后以一句话结束此文, 学习让我青春, 学习让我年轻 -> 不断地学习让我永葆青春.

NLP新秀 - Bert的更多相关文章

站在BERT肩膀上的NLP新秀们（PART I）
站在BERT肩膀上的NLP新秀们(PART I)
最强NLP模型-BERT
简介: BERT,全称Bidirectional Encoder Representations from Transformers,是一个预训练的语言模型,可以通过它得到文本表示,然后用于下游任务, ...
NLP采用Bert进行简单文本情感分类
参照当Bert遇上Kerashttps://spaces.ac.cn/archives/6736此示例准确率达到95.5%+ https://github.com/CyberZHG/keras-ber ...
语言模型预训练方法（ELMo、GPT和BERT）——自然语言处理（NLP）
1. 引言在介绍论文之前,我将先简单介绍一些相关背景知识.首先是语言模型(Language Model),语言模型简单来说就是一串词序列的概率分布.具体来说,语言模型的作用是为一个长度为m的文本确定 ...
自然语言处理中的语言模型预训练方法（ELMo、GPT和BERT）
自然语言处理中的语言模型预训练方法(ELMo.GPT和BERT) 最近,在自然语言处理(NLP)领域中,使用语言模型预训练方法在多项NLP任务上都获得了不错的提升,广泛受到了各界的关注.就此,我将最近 ...
Paper: 《Bert》
Bert: Bidirectional Encoder Representations from Transformers. 主要创新点:Masked LM 和 Next sentence predi ...
BERT的几个可能的应用
BERT是谷歌公司于2018年11月发布的一款新模型,它一种预训练语言表示的方法,在大量文本语料(维基百科)上训练了一个通用的"语言理解"模型,然后用这个模型去执行想做的NLP ...
基于Bert的文本情感分类
详细代码已上传到github: click me Abstract: Sentiment classification is the process of analyzing and reaso ...
学习AI之NLP后对预训练语言模型——心得体会总结
一.学习NLP背景介绍: 从2019年4月份开始跟着华为云ModelArts实战营同学们一起进行了6期关于图像深度学习的学习,初步了解了关于图像标注.图像分类.物体检测,图像都目标物体检测等 ...

随机推荐

Spring中常见的设计模式——策略模式
策略模式(Strategy Pattern) 一.策略模式的应用场景策略模式的应用场景如下: 系统中有很多类,而他们的区别仅仅在于行为不同. 一个系统需要动态的在集中算法中选择一种二.用策略模式实 ...
zabbix 4.04 安装文档 - 基于CentOS 7.6
1 安装前准备: 1.1 安装JDK 卸载openjdk # rpm -qa | grep java # yum remove java-1.8.0-openjdk # yum remove ...
基于Jenkins的持续交付全流程设计与实践
1 从理论开始什么是DevOps? 近年来,随着DevOps理念的逐渐深入人心,企业逐渐意识到从看似重复的手工劳动中实现自动化流程处理,对于提高企业劳动生产力已经非常重要,尤其是面向互联网的开发者, ...
初学者的API测试技巧
API(应用程序编程接口)测试是一种直接在API级别执行验证的软件测试.它是集成测试的一部分,它确认API是否满足测试人员对功能.可靠性.性能和安全性的期望.与UI测试不同,API测试是在没有GUI层 ...
编写SQL查询范围分区类型,MAX分区范围
需求对于分区表,对于范围分区类型来说,查询MAX分区及对应的分区范围. ==查询分区表对应的最大分区信息 ==排除了自扩展分区(如果是自扩展分区,但是最大的分区不是自扩展的并未排除在外) ==排除了 ...
Android 平台JS调试技术
1. 测试技术简介 Android平台微信公众号一般以H5的形式开发,测试发现流量一般都通过js进行加密传输,导致无法对越权.SQL注入等风险点进行测试.针对此难点,本手册会介绍包括Android环 ...
C# HttpWebRequest传递参数多种方式混合使用
在做CS调用第三方接口的时候遇到了这样的一个问题,通过PSOTman调试需要分别在parmas.Headers.Body里面同时传递参数.在网上查询了很多资料,以此来记录一下开发脱坑历程. POSTm ...
kaggle竞赛分享：NFL大数据碗（上篇）
kaggle竞赛分享:NFL大数据碗 - 上竞赛简介一年一度的NFL大数据碗,今年的预测目标是通过两队球员的静态数据,预测该次进攻推进的码数,并转换为该概率分布: 竞赛链接 https://www ...
如何学习理解Redux Middleware
Redux中的middleware其实就像是给你提供一个在action发出到实际reducer执行之前处理一些事情的机会.可以允许我们添加自己的逻辑在这段当中.它提供的是位于 action 被发起之后 ...
hadoop中两种上传文件方式
记录如何将本地文件上传至HDFS中前提是已经启动了hadoop成功(nodedate都成功启动) ①先切换到HDFS用户 ②创建一个user件夹 bin/hdfs dfs -mkdir /user ...

NLP新秀 - Bert