LSTM 分类器笔记及Theano实现

Pallashadow 2024-08-16 13:54:44 原文

相关讨论

http://tieba.baidu.com/p/3960350008

基于教程
http://deeplearning.net/tutorial/lstm.html

LSTM基本原理
http://tieba.baidu.com/p/3405569985

GRAVES 教程 http://www.cs.toronto.edu/~graves/preprint.pdf

因为原教程有些不太直观的地方，展开讲一下
目的：根据IMDB影评网站扒取的文本，及文本对应的对电影的评分（一颗星到五颗星）作为训练集；得到自动分析文本情绪的LSTM分类器；可用来分析任意文本的情绪（积极或消极）

理论部分：

模型的时间展开图：

如果一句话有n个词，那么将这n个词用维数为d的向量表示，分别为x0到xn；

这里的LSTM方框是一个又m个LSTM节点组成的阵列；m是模型中LSTM节点的总数。
也就是说x0箭头所指的LSTM和x1所指的LSTM是同一个阵列，只不过它们发生在不同的时间。可以认为这个模型运行了n个时间单位(n为文本长度)，每个时间单位t上，LSTM阵列的输入为xt，输出为ht, 其中t<=n；
Mean pooling是对所有时间单位上的ht的平均，得到向量h，再用逻辑回归分类。

如果对上图x0到LSTM到h0放大就是这个样子；其中LSTM阵列中包含m个LSTM单元;
而其中每个单元如L1，有4组输入权重（均为n维向量）与x0连接，且有4组输入权重（均为m维向量）与h0连接。L1将输出一个数作为h0中的第一个元素；

将L1部分再展开：

L1的输入有8个，4个来自xt，分别为xt*Wc, xt*Wi, xt*Wf, xt*Wo; 4个来自h(t-1)分别为ht-1*Uc, ht-1*Ui, ht-1*Uf, ht-1*Uo; 而L1的输出为ht 的一个元素

将L1单个节点展开
其中包含6个标量，分别为\tilde{Ct}, it, Ct, ft, ot, ht
其中展开it为 sigmoid(Wixt + Uiht-1)，纸面有限其他的不画了

权值更新

连接和计算方法如下

这样在每个时间点t，xt对LSTM阵列的输入权重为4个d*m的矩阵，而ht-1对LSTM阵列的输入权重为4个m*m的矩阵。经过计算后生成ht。

权值更新：
在每一个minibatch，在此例中一个minibatch是16句话（每句话小于100个词多余删掉），计算出logistic regression的cost，然后计算出h 的残差；
并计算出对应的Δh1，Δh2,... Δht
而由于ht和，ht-1存在某种函数关系，能够计算出与Δht对应的Δht-1'，这一来自LSTM阵列的惨差应该与来自Δh的残差合并，并继续做误差反传；

即对于每个minibatch，权重应该更新了t次，t即是每句话词的数量；

我double check了一下，理解是正确的；reference:
DLBOOK(2015)page 315

http://www.iro.umontreal.ca/~bengioy/DLbook/rnn.html

Theano中权值更新通过theano.scan实现参考
http://deeplearning.net/software/theano/library/scan.html

keras包

然而keras包（基于theano）搞同样的东西只要30行代码
https://github.com/fchollet/keras/blob/master/examples/imdb_lstm.py

测试：

keras 文本生成器
https://github.com/fchollet/keras/blob/master/examples/lstm_text_generation.py
双层LSTM 示例

LSTM 分类器笔记及Theano实现的更多相关文章

Highway LSTM 学习笔记
Highway LSTM 学习笔记 zoerywzhou@gmail.com http://www.cnblogs.com/swje/ 作者:Zhouwan 2016-4-5 声明 1)该Dee ...
TensorFlow的序列模型代码解释（RNN、LSTM）---笔记（16）
1.学习单步的RNN:RNNCell.BasicRNNCell.BasicLSTMCell.LSTMCell.GRUCell (1)RNNCell 如果要学习TensorFlow中的RNN,第一站应该 ...
Theano学习笔记：Theano的艰辛安装体验
http://www.cnblogs.com/hanahimi/p/4127026.html
Theano 学习笔记(一)
Theano 学习笔记(一) theano 为什么要定义共享变量? 定义共享变量的原因在于GPU的使用,如果不定义共享的话,那么当GPU调用这些变量时,遇到一次就要调用一次,这样就会花费大量时间在数据 ...
TensorFlow之RNN：堆叠RNN、LSTM、GRU及双向LSTM
RNN(Recurrent Neural Networks,循环神经网络)是一种具有短期记忆能力的神经网络模型,可以处理任意长度的序列,在自然语言处理中的应用非常广泛,比如机器翻译.文本生成.问答系统 ...
论文笔记【四】Semi-supervised Word Sense Disambiguation with Neural Models
基于神经模型的半监督词义消歧 Dayu Yuan Julian Richardson Ryan Doherty Colin Evans Eric Altendorf Google, Mount ...
使用tensorflow的lstm网络进行时间序列预测
https://blog.csdn.net/flying_sfeng/article/details/78852816 版权声明:本文为博主原创文章,未经博主允许不得转载. https://blog. ...
theano 安装杂记
0. MinGW MinGW:Windows 下的 g++等linux 下的编译工具: Anaconda 下 MinGW 的安装(进行 windows cmd 界面):conda install mi ...
TensorFlow从入门到实战资料汇总 2017-02-02 06:08 | 数据派
TensorFlow从入门到实战资料汇总 2017-02-02 06:08 | 数据派来源:DataCastle数据城堡 TensorFlow是谷歌基于DistBelief进行研发的第二代人工智能学 ...

随机推荐

Django值Cookie基础
一.什么是Cookie? Cookies就是服务器暂时存放在你的电脑里的资料(.txt格式的文本文件),好让服务器用来辨认你的计算机.当你在浏览网站的时候,Web服务器会先送一小小资料放在你的计算机上 ...
CodeIgniter 开发，支付宝接口调用实例
准备:1.alipay官方下载最新接口类库2.解压后,将目录"\即时到账交易接口-create_direct_pay_by_user\demo\create_direct_pay_by_us ...
[PHP] - Laravel - CSRF token禁用方法
前文 CSRF攻击和漏洞的参考文章: http://www.cnblogs.com/hyddd/archive/2009/04/09/1432744.html Laravel默认是开启了CSRF功能, ...
加快http请求图片的速度
在web网页里面经常需要请求图片,为了减少图片的http请求,总共有三种办法使用map和area,具体看下面的链接 http://www.w3school.com.cn/tags/att_area_ ...
小例子熟悉jquery
<div class="tab-head"> <h2 id="tab1" class="selected">JQGr ...
Android学习笔记（十三）
Android中的广播机制 Android提供了一套完整的API,允许应用程序自由地发送和接受广播. 发送广播的方法借助于Intent,接受广播的方法需要广播接收器(BroadcastsReceive ...
CSS中的绝对定位与相对定位
层级关系为:<div ----------- position:relative; 不是最近的祖先定位元素,不是参照物<div----------没有设置为定位元素,不是参照物<di ...
[Linux] 无法访问国外网站，完成epel源安装的解决办法--待续
一.缘由: 由于一个机房的网络限制,无法访问国外IP地址,在安装一些开源软件的时候比如smokeping.ansible就无法从epel源在线安装, 编译安装的话,又需要安装各种依赖,麻烦的一逼.所以 ...
AMap公交线路查询
<!doctype html> <html> <head> <meta charset="utf-8"> <meta http ...
Tomcat Connector三种运行模式（BIO, NIO, APR）的比较和优化
Tomcat Connector的三种不同的运行模式性能相差很大,有人测试过的结果如下: 这三种模式的不同之处如下: BIO: 一个线程处理一个请求.缺点:并发量高时,线程数较多,浪费资源. Tomc ...