[NLP]LSTM理解

简介

LSTM(Long short-term memory,长短期记忆)是一种特殊的RNN，主要是为了解决长序列训练过程中的梯度消失问题。以下先从RNN介绍。

简说RNN

RNN(Recurrent Neural Network,循环神经网络)是一种处理序列数据的神经网络。下图是它的结构：

从上图可以看出，RNN循环获取输入序列，并保存上一次输入的计算结果，与当前输入进行计算后，将计算结果输出并保存当前的计算结果，这样不断循环输入并计算，即可获取上文信息。

RNN内部网络如下图所示，从图中可以看出,在神经元内部的计算过程：先将上一个神经元细胞的输出h_t-1与当前状态下神经元细胞的输入x_t拼接后进行tan计算。

注：输出的h_t-1(下图中的紫色圆圈)通常是将h_t-1输入到一个线性层(主要是进行维度映射)，然后使用softmax进行分类得到需要的数据。具体的计算方式要看模型的使用方式。

RNN优点：它能处理序列数据，并且有记忆能力，能够利用上文信息。

RNN缺点：

梯度消失：对于获取长距离依赖的效果不是很好(即如果上文信息离当前输入距离太远的话，理论上它是能够记得上文信息，但是事实上并不是这样，所以它并不能很好地处理长距离依赖问题)
梯度爆炸
RNN较难训练

注：长距离依赖处理效果不佳的原因是使用tanh或者relu作为激活函数。（如果是sigmoid函数则不会）

LSTM结构

LSTM也是一种RNN，因此它也是一种循环结构，不同的是RNN神经元内部只用tan层进行计算，而LSTM是有4个全连接层进行计算的，LSTM的内部结构如下图所示。

上图中符号的含义如下图所示，黄色方框类似于CNN中的激活函数操作，粉色圆圈表示点操作，单箭头表示数据流向，下图中第四个符号表示两个向量的连接操作，第五个符号表示向量的拷贝操作，且上图中的σ表示sigmoid层(该层的输出时0-1的值，0表示不能通过，1表示能通过)。

现在来描述LSTM的内部操作，具体内容如下图所示：

LSTM的核心是细胞状态——最上层的横穿整个细胞的水平线，它通过门来控制信息的增加或者删除。

那么什么是门呢？门是一种用来选择信息通过与否的方式，它由一个sigmoid层和点乘操作组成。LSTM共有三个门，分别是遗忘门，输入门和输出门，具体内容如下所述：

(1)遗忘门：遗忘门决定丢弃哪些信息，输入是上一个神经元细胞的计算结果h_t-1以及当前的输入向量x_t,二者联接并通过遗忘门后(sigmoid会决定哪些信息留下，哪些信息丢弃)，会生成一个0-1向量Γ^f_t(维度与上一个神经元细胞的输出向量C_t-1相同)，Γ^f_t与C_t-1进行点乘操作后，就会获取上一个神经元细胞经过计算后保留的信息。

(2)输入门：表示要保存的信息或者待更新的信息，如上图所示是h_t-1与x_t的连接向量，经过sigmoid层后得到的结果Γⁱ_t，这就是输入门的输出结果了。

但是接下来我们要计算该神经元细胞的输出结果,即新细胞的更新状态：C_t，C_t= C_t-1· Γ^f_t + Γⁱ_t· ^~c_t(其中^~c_t= tanh(h_t-1_，x_t))，文字描述是：输入门的计算结果点乘 h_t-1与x_t的连接向量经过tanh层计算的结果后，再与上一个神经元细胞经过计算后保留的信息进行相加，则是最终要输出的C_t_。

(3)输出门：输出门决定当前神经原细胞输出的隐向量h_t，h_t与C_t不同，h_t要稍微复杂一点，它是C_t进过tanh计算后与输出门的计算结果进行点乘操作后的结果，用公式描述是：h_t= tanh(c_t) · Γ^o_t

LSTM具体实现步骤[5]

1、首先，输入上一个神经元细胞输出的隐藏层向量和当前神经元细胞的输入，并将其连接起来。

2、将步骤1中的结果传入遗忘门中，该层将删除不相关的信息。

4、一个备选层将用步骤1中的结果创建，这一层将保存可能的会加入细胞状态的值或者说信息。

3、将步骤1中的结果传入输入门中，这一层决定步骤4的备选层中哪些信息应该加入到细胞状态中去。

5、步骤2、3、4计算结束后，用这三个步骤计算后的向量和上一个神经元细胞传出的细胞状态向量来更新当前细胞的细胞状态。

6、结果就被计算完了。

7、将结果和新的细胞状态进行点乘则是当前细胞状态的隐向量。

LSTM如何避免梯度消失与梯度爆炸

RNN中的梯度消失/爆炸与CNN中的含义不同，CNN中不同的层有不同的参数，每个参数都有自己的梯度；而RNN中同样的权重在各个时间步中共享，所以最终的梯度等于各个时间步的梯度和。因此，RNN中的梯度不会消失，它只会遗忘远距离的依赖关系，而被近距离的梯度所主导。但是LSTM中的梯度传播有很多条路径，最主要的一条是当前细胞的状态更新这一过程，该过程中只有逐元素的相乘和相加操作，梯度流最稳定，因此基本不会发生梯度消失或者梯度爆炸；但是其他的传播路径依然有梯度消失或者爆炸风险，而最终的梯度计算是各个梯度路径的和，因此LSTM仍然有梯度消失或者爆炸的风险，只是这个风险被大幅降低了。

LSTM变种-GRU

GRU是LSTM的变种，它也是一种RNN，因此是循环结构，相比LSTM而言，它的计算要简单一些，计算量也降低，但是二者的效果却不能一概而论，需要针对不同的case进行尝试才能知道哪一个模型效果更好。GRU使用隐向量进行信息交换(LSTM使用细胞状态)，它有2个门：重置门和更新门。

如上图所示，现分别介绍两个门：

重置门：用来决定需要丢弃哪些上一个神经元细胞的信息，它的计算过程是将C_t-1与当前输入向量x_t进行连接后，输入sigmoid层进行计算，结果为S₁，再将S₁与C_t-1进行点乘计算，则结果为保存的上个神经元细胞信息，用C’_t-1表示。

公式表示为：C’_t-1 = C_t-1· S₁_，S₁= sigmoid(concat(C_t-1,X_t))

更新门：更新门类似于LSTM的遗忘门和输入门，它决定哪些信息会丢弃，以及哪些新信息会增加。

总结

LSTM优点：LSTM降低了梯度消失或者梯度爆炸的风险，并且比RNN具有更强的长距离依赖能力。

LSTM缺点：

LSTM处理长距离依赖的能力依然不够，因此Transformer横空出世，它具有比LSTM更强的长距离依赖处理能力。
它的计算很费时。每个细胞中都有4个全连接层(MLP)，因此如果LSTM的时间跨度很大的话，计算量会很大也很费时。

参考资料

[1] https://zhuanlan.zhihu.com/p/32085405

[2] https://www.jianshu.com/p/95d5c461924c

[3] https://www.zhihu.com/question/34878706

[4] https://r2rt.com/written-memories-understanding-deriving-and-extending-the-lstm.html(待学习)

[5] https://towardsdatascience.com/illustrated-guide-to-lstms-and-gru-s-a-step-by-step-explanation-44e9eb85bf21

[NLP]LSTM理解的更多相关文章

nlp语义理解的一点儿看法
nlp领域里,语义理解仍然是难题! 给你一篇文章或者一个句子,人们在理解这些句子时,头脑中会进行上下文的搜索和知识联想.通常情况下,人在理解语义时头脑中会搜寻与之相关的知识.知识图谱的创始人人为,构成 ...
LSTM理解
简介 LSTM(Long short-term memory,长短期记忆)是一种特殊的RNN,主要是为了解决长序列训练过程中的梯度消失问题.以下先从RNN介绍. 简说RNN RNN(Recurrent ...
基于pytorch的CNN、LSTM神经网络模型调参小结
(Demo) 这是最近两个月来的一个小总结,实现的demo已经上传github,里面包含了CNN.LSTM.BiLSTM.GRU以及CNN与LSTM.BiLSTM的结合还有多层多通道CNN.LSTM. ...
学习AI之NLP后对预训练语言模型——心得体会总结
一.学习NLP背景介绍: 从2019年4月份开始跟着华为云ModelArts实战营同学们一起进行了6期关于图像深度学习的学习,初步了解了关于图像标注.图像分类.物体检测,图像都目标物体检测等 ...
自然语言处理NLP学习笔记一：概念与模型初探
前言先来看一些demo,来一些直观的了解. 自然语言处理: 可以做中文分词,词性分析,文本摘要等,为后面的知识图谱做准备. http://xiaosi.trs.cn/demo/rs/demo 知识图 ...
小样本利器2.文本对抗+半监督 FGSM & VAT & FGM代码实现
小样本利器2.文本对抗+半监督 FGSM & VAT & FGM代码实现上一章我们聊了聊通过一致性正则的半监督方案,使用大量的未标注样本来提升小样本模型的泛化能力.这一章我们结合FG ...
[翻译]Primer on Cognitive Computing(认知计算入门)
Source Kelly J., Primer on Cognitive Computing 20150216. 侵删,联系方式:zhoujiagen\@gmail.com. 按A candidate ...
资源 | 数十种TensorFlow实现案例汇集：代码+笔记
选自 Github 机器之心编译参与:吴攀.李亚洲这是使用 TensorFlow 实现流行的机器学习算法的教程汇集.本汇集的目标是让读者可以轻松通过案例深入 TensorFlow. 这些案例适合那 ...
数十种TensorFlow实现案例汇集：代码+笔记（转）
转:https://www.jiqizhixin.com/articles/30dc6dd9-39cd-406b-9f9e-041f5cbf1d14 这是使用 TensorFlow 实现流行的机器学习 ...

随机推荐

Python爬虫：手把手教你写迷你爬虫架构
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者:我爱学Python 语言&环境语言:继续用Python开路 ...
Zookeeper是什么&怎么用
1.Zookeeper概述 Zookeeper 是一个开源的分布式协调服务框架 ,主要用来解决分布式集群中应用系统的一致性问题和数据管理问题 2:Zookeeper的特点 Zookeeper 本质上是 ...
百万级别数据Excel导出优化
前提这篇文章不是标题党,下文会通过一个仿真例子分析如何优化百万级别数据Excel导出. 笔者负责维护的一个数据查询和数据导出服务是一个相对远古的单点应用,在上一次云迁移之后扩展为双节点部署,但是发现 ...
web 部署专题（一）：Gunicorn运行与配置方法
Gunicorn“绿色独角兽”是一个被广泛使用的高性能的Python WSGI UNIX HTTP服务器,移植自Ruby的独角兽(Unicorn )项目,使用pre-fork worker模式,具有使 ...
Python网络编程04 /recv工作原理、展示收发问题、粘包现象
Python网络编程04 /recv工作原理.展示收发问题.粘包现象目录 Python网络编程04 /recv工作原理.展示收发问题.粘包现象 1. recv工作原理 2. 展示收发问题示例发多次 ...
基于Python的HTTP接口自动化测试框架实现
今天我们来讲一下基于Python的HTTP接口自动化测试框架的实现,范例如下: 一.测试需求描述对服务后台一系列的http接口功能测试. 输入:根据接口描述构造不同的参数输入值输出:XML文件 e ...
Java多线程原理+基础知识（超级超级详细）+（并发与并行）+（进程与线程）1
Java多线程我们先来了解两个概念!!!! 1.什么是并发与并行 2.什么是进程与线程 1.什么是并发与并行 1.1并行:两个事情在同一时刻发生 1.2并发:两个事情在同一时间段内发生并发与并行的 ...
JAVA学习过程中遇到的BUG
Java异常 1.NullPointException java.lang.NullPointException,就是我们经常遇到的空指针异常. java是没有指针的,这里说的"java指针 ...
Ubuntu构建Docker私有仓库(Repository) 配置过程笔记
一.准备: 1.服务器(或者虚拟机2台,我的服务环境[ 阿里云服务器-Ubuntu 1804 +百度云-Ubuntu 1604]) 2.有效镜像(我这里以上一篇随笔镜像作为有效镜像https://w ...
ES6面试
未完持续概念 ECMAScript6(以下简称ES6)是 JavaScript 语言的下一代标准,前者是后者的规格,后者是前者的一种实现. ES6(新增的)一些特性 1.变.常量:let声明变量,c ...

[NLP]LSTM理解

[NLP]LSTM理解的更多相关文章

随机推荐

热门专题