详解 LSTM

LSTM

长短时记忆网络(Long Short Term Memory Network, LSTM)，是一种改进之后的循环神经网络，可以解决RNN无法处理长距离的依赖的问题，目前比较流行。

长短时记忆网络的思路：

原始 RNN 的隐藏层只有一个状态，即h，它对于短期的输入非常敏感。
再增加一个状态，即c，让它来保存长期的状态，称为单元状态(cell state)。

把上图按照时间维度展开：

在 t 时刻，LSTM 的输入有三个：当前时刻网络的输入值 x_{_t}、上一时刻 LSTM 的输出值 h_{_t-1}、以及上一时刻的单元状态 c_{_t-1}；
LSTM 的输出有两个：当前时刻 LSTM 输出值 h_{_t}、和当前时刻的单元状态 c_{_t}.

关键问题是：怎样控制长期状态 c ？

方法是：使用三个控制开关

第一个开关，负责控制继续保存长期状态c；
第二个开关，负责控制把即时状态输入到长期状态c；
第三个开关，负责控制是否把长期状态c作为当前的LSTM的输出。

如何在算法中实现这三个开关？

方法：用门（gate）

定义：gate 实际上就是一层全连接层，输入是一个向量，输出是一个 0到1 之间的实数向量。
公式为：

回忆一下它的样子：

gate 如何进行控制？

方法：用门的输出向量按元素乘以我们需要控制的那个向量
原理：门的输出是 0到1 之间的实数向量，
当门输出为 0 时，任何向量与之相乘都会得到 0 向量，这就相当于什么都不能通过；
输出为 1 时，任何向量与之相乘都不会有任何改变，这就相当于什么都可以通过。

LSTM 的前向计算:

遗忘门（forget gate）
它决定了上一时刻的单元状态 c_{_t-1} 有多少保留到当前时刻 c_{_t}

输入门（input gate）
它决定了当前时刻网络的输入 x_{_t} 有多少保存到单元状态 c_{_t}

输出门（output gate）
控制单元状态 c_{_t} 有多少输出到 LSTM 的当前输出值 h_{_t}

（１）遗忘门（forget gate）：
它决定了上一时刻的单元状态 `c_{_t-1}` 有多少保留到当前时刻 `c_{_t}`

（２）输入门（input gate）：
它决定了当前时刻网络的输入 `x_{_t}` 有多少保存到单元状态 `c_{_t}`

（３）输出门（output gate）：
控制单元状态 `c_{_t}` 有多少输出到 LSTM 的当前输出值 `h_{_t}`

LSTM 的反向传播训练算法

主要有三步：

1. 前向计算每个神经元的输出值，一共有 5 个变量，计算方法就是前一部分：

2. 反向计算每个神经元的误差项值。与 RNN 一样，LSTM 误差项的反向传播也是包括两个方向：
一个是沿时间的反向传播，即从当前 t 时刻开始，计算每个时刻的误差项；
一个是将误差项向上一层传播。

3. 根据相应的误差项，计算每个权重的梯度。

目标是要学习 8 组参数，如下图所示：

又权重矩阵 W 都是由两个矩阵拼接而成，这两部分在反向传播中使用不同的公式，因此在后续的推导中，权重矩阵也要被写为分开的两个矩阵。

接着就来求两个方向的误差，和一个梯度计算。

１.误差项沿时间的反向传递：

定义 t 时刻的误差项：

目的是要计算出 t-1 时刻的误差项：

２.利用 h_t c_t 的定义，和全导数公式，可以得到将误差项向前传递到任意k时刻的公式：

3. 权重梯度的计算：

参考：https://zybuluo.com/hanbingtao/note/581764

https://www.jianshu.com/p/dcec3f07d3b5

以上就是 LSTM 的训练算法的全部公式。

详解 LSTM的更多相关文章

详解LSTM
https://blog.csdn.net/class_brick/article/details/79311148 今天的内容有: LSTM 思路 LSTM 的前向计算 LSTM 的反向传播关于调 ...
pytorch nn.LSTM()参数详解
输入数据格式:input(seq_len, batch, input_size)h0(num_layers * num_directions, batch, hidden_size)c0(num_la ...
Github-karpathy/char-rnn代码详解
Github-karpathy/char-rnn代码详解 zoerywzhou@gmail.com http://www.cnblogs.com/swje/ 作者:Zhouwan 2016-1-10 ...
基于双向BiLstm神经网络的中文分词详解及源码
基于双向BiLstm神经网络的中文分词详解及源码基于双向BiLstm神经网络的中文分词详解及源码 1 标注序列 2 训练网络 3 Viterbi算法求解最优路径 4 keras代码讲解最后源代码 ...
Kaggle网站流量预测任务第一名解决方案：从模型到代码详解时序预测
Kaggle网站流量预测任务第一名解决方案:从模型到代码详解时序预测 2017年12月13日 17:39:11 机器之心V 阅读数:5931 近日,Artur Suilin 等人发布了 Kaggl ...
Attention is all you need 论文详解（转）
一.背景自从Attention机制在提出之后,加入Attention的Seq2Seq模型在各个任务上都有了提升,所以现在的seq2seq模型指的都是结合rnn和attention的模型.传统的基于R ...
Github-jcjohnson/torch-rnn代码详解
Github-jcjohnson/torch-rnn代码详解 zoerywzhou@gmail.com http://www.cnblogs.com/swje/ 作者:Zhouwan 2016-3- ...
Transformer各层网络结构详解！面试必备！(附代码实现)
1. 什么是Transformer <Attention Is All You Need>是一篇Google提出的将Attention思想发挥到极致的论文.这篇论文中提出一个全新的模型,叫 ...
seq2seq模型详解及对比（CNN，RNN，Transformer）
一,概述在自然语言生成的任务中,大部分是基于seq2seq模型实现的(除此之外,还有语言模型,GAN等也能做文本生成),例如生成式对话,机器翻译,文本摘要等等,seq2seq模型是由encoder, ...

随机推荐

idea 安装 codota 插件
为抄代码而生的插件哇,码农们的知心姐姐!!!
Security and Risk Management(5)
Ethics: ISC Code of Ethics You agree to this before the exam, and the code of ethics is very testabl ...
linux中neovim+tmux安装与配置遇到的问题
Neovim 安装与配置安装 pip3 install neovim 之前安装过anaconda,默认安装python3和pip3 检查状态 :checkhealth 终端输入'nvim' 进入nv ...
Qt-操作xml文件
1 简介参考视频:https://www.bilibili.com/video/BV1XW411x7AB?p=12 xml简介:可扩展标记语言,标准通用标记语言的子集,简称XML.是一种用于标记电 ...
vue学习(四) v-on:事件绑定
//html <div id="app"> <input type="button" value="ok" v-bind: ...
Linux上搭建文件浏览的web服务（创建软件仓库）（一）
软件仓库的创建方式有很多,这是一种很简单的创建方式: python -m SimpleHTTPServer 快速搭建一个http服务,提供一个文件浏览的web服务. 使用:Python SimpleH ...
2020 年百度之星·程序设计大赛 - 初赛三
2020 年百度之星·程序设计大赛 - 初赛三解题思路及代码(Discount.Game.Permutation) 1.Discount Problem Description学皇来到了一个餐馆吃饭. ...
Java Script 数组
数组:有许多变量的集合,它们的名称和数据类型都是一致的. 定义操作(添加修改) Var arr=new Array(): Var arr=[ ]; //定义 Var arr1=[ 1,2,3, ...
机器学习 | 简介推荐场景中的协同过滤算法，以及SVD的使用
本文始发于个人公众号:TechFlow,原创不易,求个关注今天是机器学习专题的第29篇文章,我们来聊聊SVD在上古时期的推荐场景当中的应用. 推荐的背后逻辑有没有思考过一个问题,当我们在淘宝或者是 ...
Django学习路15_创建一个订单信息,并查询2020年\9月的信息都有哪些
在 app5.models.py 中添加一个 Order 表 class Order(models.Model): o_num = models.CharField(max_length= 16 ,u ...