LSTM理解

简介

　　LSTM(Long short-term memory,长短期记忆)是一种特殊的RNN，主要是为了解决长序列训练过程中的梯度消失问题。以下先从RNN介绍。

简说RNN

　　RNN(Recurrent Neural Network,循环神经网络)是一种处理序列数据的神经网络。下图是它的结构：

RNN优点：它能处理序列数据，并且有记忆能力，能够利用上文信息。

RNN缺点：

梯度消失：对于获取长距离依赖的效果不是很好(即如果上文信息离当前输入距离太远的话，理论上它是能够记得上文信息，但是事实上并不是这样，所以它并不能很好地处理长距离依赖问题)
梯度爆炸
RNN较难训练

注：长距离依赖处理效果不佳的原因是使用tanh或者relu作为激活函数。（如果是sigmoid函数则不会）

LSTM结构

　　LSTM也是一种RNN，因此它也是一种循环结构，不同的是RNN神经元内部只用tan层进行计算，而LSTM是有4个全连接层进行计算的，LSTM的内部结构如下图所示。

　　上图中符号的含义如下图所示，黄色方框类似于CNN中的激活函数操作，粉色圆圈表示点操作，单箭头表示数据流向，下图中第四个符号表示两个向量的连接操作，第五个符号表示向量的拷贝操作，且上图中的σ表示sigmoid层(该层的输出时0-1的值，0表示不能通过，1表示能通过)。

　　现在来描述LSTM的内部操作，具体内容如下图所示：

　　LSTM的核心是细胞状态——最上层的横穿整个细胞的水平线，它通过门来控制信息的增加或者删除。

　　那么什么是门呢？门是一种用来选择信息通过与否的方式，它由一个sigmoid层和点乘操作组成。LSTM共有三个门，分别是遗忘门，输入门和输出门，具体内容如下所述：

　　(1)遗忘门：遗忘门决定丢弃哪些信息，输入是上一个神经元细胞的计算结果h_t-1以及当前的输入向量x_t,二者联接并通过遗忘门后(sigmoid会决定哪些信息留下，哪些信息丢弃)，会生成一个0-1向量Γ^f_t(维度与上一个神经元细胞的输出向量C_t-1相同)，Γ^f_t与C_t-1进行点乘操作后，就会获取上一个神经元细胞经过计算后保留的信息。遗忘门控制前一步记忆单元中的信息有多大程度被遗忘掉。

　　(2)输入门：表示要保存的信息或者待更新的信息，如上图所示是h_t-1与x_t的连接向量，经过sigmoid层后得到的结果Γⁱ_t，这就是输入门的输出结果了。但是接下来我们要计算该神经元细胞的输出结果，即新细胞的更新状态：C_t，C_t= C_t-1· Γ^f_t + Γⁱ_t· ^~c_t(其中^~c_t= tanh(h_t-1_，x_t))，文字描述是：输入门的计算结果点乘 h_t-1与x_t的连接向量经过tanh层计算的结果后，再与上一个神经元细胞经过计算后保留的信息进行相加，则是最终要输出的C_t_。输入门控制当前计算的新状态以多大程度更新到记忆单元中。

　　(3)输出门：输出门决定当前神经原细胞输出的隐向量h_t，h_t与C_t不同，h_t要稍微复杂一点，它是C_t进过tanh计算后与输出门的计算结果进行点乘操作后的结果，用公式描述是：h_t= tanh(c_t) · Γ^o_t。输出门控制当前的输出有多大程度上取决于当前的记忆单元。

　　在一个训练好的网络中，当输入的序列中没有重要信息时。LSTM的遗忘门的值接近于1，输入门的值接近于0，此时过去的记忆会被保存，从而实现了长期记忆的功能；当输入的序列中出现了重要的信息时，LSTM应当把其存入记忆中，此时其输入门的值会接近于1；当输入的序列中出现了重要信息，且该信息意味着之前的记忆不再重要时，输入门的值接近于1，而遗忘门的值接近于0，这样旧的记忆被遗忘，新的重要信息被记忆。经过这样的设计，整个网络更容易学习到序列之间的长期依赖。

LSTM具体实现步骤

　　1、首先，输入上一个神经元细胞输出的隐藏层向量和当前神经元细胞的输入，并将其连接起来。

　　2、将步骤1中的结果传入遗忘门中，该层将删除不相关的信息。

　　3、一个备选层将用步骤1中的结果创建，这一层将保存可能的会加入细胞状态的值或者说信息。

　　4、将步骤1中的结果传入输入门中，这一层决定步骤4的备选层中哪些信息应该加入到细胞状态中去。

　　5、步骤2、3、4计算结束后，用这三个步骤计算后的向量和上一个神经元细胞传出的细胞状态向量来更新当前细胞的细胞状态。

　　6、结果就被计算完了。

　　7、将结果和新的细胞状态进行点乘则是当前细胞状态的隐向量。

LSTM如何避免梯度消失与梯度爆炸

　　RNN中的梯度消失/爆炸与CNN中的含义不同，CNN中不同的层有不同的参数，每个参数都有自己的梯度；而RNN中同样的权重在各个时间步中共享，所以最终的梯度等于各个时间步的梯度和。因此，RNN中的梯度不会消失，它只会遗忘远距离的依赖关系，而被近距离的梯度所主导。但是LSTM中的梯度传播有很多条路径，最主要的一条是当前细胞的状态更新这一过程，该过程中只有逐元素的相乘和相加操作，梯度流最稳定，因此基本不会发生梯度消失或者梯度爆炸；但是其他的传播路径依然有梯度消失或者爆炸风险，而最终的梯度计算是各个梯度路径的和，因此LSTM仍然有梯度消失或者爆炸的风险，只是这个风险被大幅降低了。

总结

　LSTM优点：LSTM降低了梯度消失或者梯度爆炸的风险，并且比RNN具有更强的长距离依赖能力。

　LSTM缺点：

LSTM处理长距离依赖的能力依然不够，因此Transformer横空出世，它具有比LSTM更强的长距离依赖处理能力。
它的计算很费时。每个细胞中都有4个全连接层(MLP)，因此如果LSTM的时间跨度很大的话，计算量会很大也很费时。

参考：https://www.cnblogs.com/mj-selina/p/12463265.html

LSTM理解的更多相关文章

[NLP]LSTM理解
简介 LSTM(Long short-term memory,长短期记忆)是一种特殊的RNN,主要是为了解决长序列训练过程中的梯度消失问题.以下先从RNN介绍. 简说RNN RNN(Recurrent ...
基于pytorch的CNN、LSTM神经网络模型调参小结
(Demo) 这是最近两个月来的一个小总结,实现的demo已经上传github,里面包含了CNN.LSTM.BiLSTM.GRU以及CNN与LSTM.BiLSTM的结合还有多层多通道CNN.LSTM. ...
Recurrent Neural Network[Content]
下面的RNN,LSTM,GRU模型图来自这里简单的综述 1. RNN 图1.1 标准RNN模型的结构 2. BiRNN 3. LSTM 图3.1 LSTM模型的结构 4. Clockwork RNN ...
RNN及其变体框架
RNN及其变体框架含RNN推导 LSTM理解理解LSTM网络算法细节理解及参考文献
练手项目之image caption问题记录
小白一个,刚刚费了老大的劲完成一个练手项目--image caption,虽然跑通了,但是评估结果却惨不忍睹.于是贴上大神的作品,留待日后慢慢消化.顺便记录下自己踩坑的一些问题. 先膜拜下大神的作品. ...
[论文] FRCRN：利用频率递归提升特征表征的单通道语音增强
本文介绍了ICASSP2022 DNS Challenge第二名阿里和新加坡南阳理工大学的技术方案,该方案针对卷积循环网络对频率特征的提取高度受限于卷积编解码器(Convolutional Encod ...
递归神经网络之理解长短期记忆网络（LSTM NetWorks）（转载）
递归神经网络人类并不是每时每刻都从头开始思考.正如你阅读这篇文章的时候,你是在理解前面词语的基础上来理解每个词.你不会丢弃所有已知的信息而从头开始思考.你的思想具有持续性. 传统的神经网络不能做到这 ...
[译] 理解 LSTM 网络
原文链接:http://colah.github.io/posts/2015-08-Understanding-LSTMs/ 吴恩达版:http://www.ai-start.com/dl2017/h ...
通过keras例子理解LSTM 循环神经网络(RNN)
博文的翻译和实践: Understanding Stateful LSTM Recurrent Neural Networks in Python with Keras 正文一个强大而流行的循环神经 ...

随机推荐

day40 作业
利用线程和进程实现tcp 服务端 from multiprocessing import Process from threading import Thread import socket def ...
导出数据到Excel的时候报JAVA.LANG.NOSUCHMETHODERROR: ORG.APACHE.POI.SS.USERMODEL.CELLSTYLE.SETVERTICALALIGNMENT(LORG/APACHE/POI/SS/USERMODEL/VERTICALALIGNMENT;)V
JAVA.LANG.NOSUCHMETHODERROR: ORG.APACHE.POI.SS.USERMODEL.CELLSTYLE.SETVERTICALALIGNMENT(LORG/APACHE/ ...
【JVM之内存与垃圾回收篇】StringTable
StringTable String的基本特性 String:字符串,使用一对 "" 引起来表示 String s1 = "Nemo"; // 字面量的定义方式 ...
Java中lambda(λ)表达式的语法
举一个排序的例子,我们传入代码来检查一个字符串是否比另一个字符串短.这里要计算: first.length() - second.length() first和second是什么?他们都是字符串.Ja ...
Zookeeper ----- 系统模型
数据模型 Zookeeper的数据模型与文件系统非常相似,唯一不同的它的每个节点(ZNode)都可以存放数据,无论父节点还是子节点. 事务ID 即前面提到的ZXID.对每个事务请求,Zookeeper ...
three.js 数学方法之Matrix4
今天郭先生说一说three.js中的Matrix4,相较于Matrix3来说,Matrix4和three.js联系的更紧密,因为在4x4矩阵最常用的用法是作为一个变换矩阵.这使得表示三维空间中的一个点 ...
深度学习中损失值(loss值)为nan（以tensorflow为例）
我做的是一个识别验证码的深度学习模型,识别的图片如下验证码图片识别4个数字,数字间是有顺序的,设立标签时设计了四个onehot向量链接起来,成了一个长度为40的向量,然后模型的输入也是40维向量用s ...
CSMA/CD ，现在的交换式以太网还用吗？谈全双工，半双工与CSMA/CD的关系
我们知道:以太网访问控制用的是CSMA/CD,即载波侦听多点接入/ 冲突检测,是以广播的方式将数据发送到所有端口: 我们还知道:交换机能主动学习端口所接设备的MAC地址,在获知该端口的MAC 地址后, ...
两个问题解答、opencv、tensorflow、numpy、matplotlib的基本使用
开始图像处理的海洋 (1)两个问题的详细解答在开始畅游opencv.tensorflow的海洋之前,我们这里先要解决两个问题. 1.Jupyter notebook 解决了无法自动跳转到浏览器的问题 ...
scp的使用以及cp的对比
scp是secure copy的简写,用于在Linux下进行远程拷贝文件的命令,和它类似的命令有cp,不过cp只是在本机进行拷贝不能跨服务器,而且scp传输是加密的.可能会稍微影响一下速度.当你服务器 ...

LSTM理解

简介

简说RNN

LSTM理解的更多相关文章

随机推荐

热门专题