《转》循环神经网络(RNN, Recurrent Neural Networks)学习笔记：基础理论

转自 http://blog.csdn.net/xingzhedai/article/details/53144126

更多参考：http://blog.csdn.net/mafeiyu80/article/details/51446558

http://blog.csdn.net/caimouse/article/details/70225998

http://kubicode.me/2017/05/15/Deep%20Learning/Understanding-about-RNN/

RNN(Recurrent Neuron Network)是一种对序列数据建模的神经网络。继Bengio提出基于神经网络的概率语言模型并获得成功之后，Mikolov于2010年提出利用RNN建模语言模型，2012年Sundermeyer提出RNN的改进版本--LSTM。近两年，RNN开始在自然语言处理、图像识别、语音识别等领域迅速得到大量应用。因项目需要，近期重点学习研究了这几类学习模型，DNN、RNN、LSTM等，后面会陆续把学习总结记录并发布出来，首先为了自己加深印象，其次如果能对他人提供些许帮助就更好了。

循环神经网络(Recurrent Neural Networks，RNNs)已经在众多自然语言处理(Natural Language Processing, NLP)中取得了巨大成功以及广泛应用，因此搜rnn能搜到大把资料，所以本文就仅从自己理解的角度简单介绍RNNs的原理以及如何实现，后面会专门再发一篇blog结合实际源码进行分析学习：

1. RNN的基本原理及推导

2. RNN神牛简介

1. RNN的基本原理及推导

（1）什么是RNNs

RNNs的目的使用来处理序列数据。在传统的神经网络模型中，是从输入层到隐含层再到输出层，层与层之间是全连接的，每层之间的节点是无连接的。但是这种普通的神经网络对于很多问题却无能无力。例如，你要预测句子的下一个单词是什么，一般需要用到前面的单词，因为一个句子中前后单词并不是独立的。RNNs之所以称为循环神经网路，即一个序列当前的输出与前面的输出也有关。具体的表现形式为网络会对前面的信息进行记忆并应用于当前输出的计算中，即隐藏层之间的节点不再无连接而是有连接的，并且隐藏层的输入不仅包括输入层的输出还包括上一时刻隐藏层的输出。理论上，RNNs能够对任何长度的序列数据进行处理。但是在实践中，为了降低复杂性往往假设当前的状态只与前面的几个状态相关，下图便是一个典型的RNNs：

有别于传统的机器学习模型中隐层单元彼此间是完全对等的，RNN中间的隐层从左向右是有时序的（阿拉伯人看是从右向左有时序，哈哈），因此隐层单元之间是要讲究先来后到的。再来一张局部特写照片：

（2）RNNs是怎么工作的

RNNs包含输入单元(Input units)，输入集标记为{x0 ,x1 ,...,xt ,xt+1 ,...} ，用向量表示为X(t)，而输出单元(Output units)的输出集则被标记为{y0 ,y1 ,...,yt ,yt+1 .,..} ，表示成向量形式为Y(t)。RNNs还包含隐藏单元(Hidden units)，我们将其输出集标记为{ s0,s1 ,...,st ,st+1 ,...} ，表示成向量形式为S(t)，这些隐藏单元完成了最为主要的工作。你会发现，在图中：有一条单向流动的信息流是从输入单元到达隐藏单元的，与此同时另一条单向流动的信息流从隐藏单元到达输出单元。在某些情况下，RNNs会打破后者的限制，引导信息从输出单元返回隐藏单元，这些被称为“Back Projections”，并且隐藏层的输入还包括上一隐藏层的状态，即隐藏层内的节点可以自连也可以互连。
上图将循环神经网络进行展开成一个全神经网络。例如，对一个包含5个单词的语句，那么展开的网络便是一个五层的神经网络，每一层代表一个单词。对于该网络的计算过程如下：
       step1： x(t)表示第t时刻(t=1,2,3... )的输入，比如，x1为当前输入句子中第二个词的Vow(vector-of-word)向量； PS：使用计算机对自然语言进行处理，便需要将自然语言处理成为机器能够识别的符号，加上在机器学习过程中，需要将其进行数值化。而词是自然语言理解与处理的基础，因此需要对词进行数值化，词向量(Word Representation，Word embeding)[1]便是一种可行又有效的方法。何为词向量，即使用一个指定长度的实数向量v来表示一个词。有一种种最简单的表示方法，就是使用One-hot vector表示单词，即根据单词的数量|V|生成一个|V| * 1的向量，当某一位为一的时候其他位都为零，然后这个向量就代表一个单词。所以，训练之前要先建立词典（工作量也不小），于是出现了一种更加有效的词向量模式，该模式是通过神经网或者深度学习对词进行训练，输出一个指定维度的向量，该向量便是输入词的表达。如word2vec（同样是神牛Mikolov在google时的成果）。
       step2： s(t)为隐藏层的第t时刻的状态，它是网络的记忆单元。s(t)根据当前输入层的输出与上一步隐藏层的状态进行计算。s(t) =f(U*x(t) +W*s(t−1))，其中f()一般是非线性的激活函数，如tanh或ReLU或Sigmoid，在计算s(0)时，即第一个单词的隐藏层状态，需要用到s(−1)，在实现中一般置为0向量即可；
       step3：o(t)是t时刻的输出，即下个单词的向量表示，o(t) =softmax(V*s(t)).
需要注意的是：可以认为隐藏层状态s(t)是网络的记忆单元，包含了前面所有步的隐藏层状态。而输出层的输出o(t)只与当前步的s(t)有关，在实践中，为了降低网络的复杂度，往往s(t)只包含前面若干步而不是所有步的隐藏层状态；在传统神经网络中，每一个网络层的参数是不共享的。而在RNNs中，每输入一步，每一层各自都共享参数U,V,W U,V,W。其反应者RNNs中的每一步都在做相同的事，只是输入不同，因此大大地降低了网络中需要学习的参数。

（3）再讲一遍RNN是怎么工作的（详细推导）（这部分摘自神牛的ppt，感觉是各版本中最容易理解的，还是一手的信息最有价值）

Input layer w and output layer y have the same dimensionality as the vocabulary (10K - 200K)；
Hidden layer s is orders of magnitude smaller (50 - 1000 neurons)；
U is the matrix of weights between input and hidden layer, V is thematrix of weights between hidden and output layer
Without the recurrent weightsW, this model would be a bigram neuralnetwork language model。

上图里左上角的输入信号，在下面推导中用x(t)来表示，以免弄混。

隐层的输出为s(t)， s(t) = f (U*w(t) + W*s(t-1)) (1)

输出层的输出为y(t)， y(t) = g (V*s(t)) (2)

其中，f(z) and g(z) are sigmoid and softmax activation，

训练的过程采用随机梯度下降（SGD），U、V、W每输入一个词就更新一次，更新采用反向传播算法，误差（这里称为交叉熵）的公式为式(4)：

where d(t) is a target vector that represents the word w(t + 1)(encoded as 1-of-V vector)

系数矩阵V的更新：

输出层梯度误差向隐层的传播为：

where the error vector is obtained using function dh() that isapplied element-wise：

注：这里的x不是输入信号

系数矩阵U的更新，注意，这里的w(t)应为输入信号x(t)：

RNN还可以继续展开成上面的递归结构，相应地，隐层的误差传播函数也可以写成递归形式如下：

权系数W的更新写成递归形式：

2. RNN神牛简介(另附他在 SIGIR 2016 大会中神经信息检索研讨会（Neu-IR Workshop）上的演讲解说)

学习RNN，不得不先提一下Tomas Mikolov，他是RNN建模语言模型的提出者（不是RNN的创造者），这位老兄应该是先在google做自然语言处理的研究，作为Google Brain 团队的一员，参与了 word2vec 项目的开发，2014年又去了facebook人工智能实验室担任研究科学家，他的 Facebook 个人页面上写到他的长期研究目标是「开发能够使用自然语言进行学习和与人类交流的智能机器」，有兴趣的同学可以在fb上加他为好友一起聊聊:-)

他在 SIGIR 2016 大会中神经信息检索研讨会（Neu-IR Workshop）上的演讲解说http://chuansong.me/n/464503442191

《转》循环神经网络(RNN, Recurrent Neural Networks)学习笔记：基础理论的更多相关文章

循环神经网络(RNN, Recurrent Neural Networks)介绍（转载）
循环神经网络(RNN, Recurrent Neural Networks)介绍这篇文章很多内容是参考:http://www.wildml.com/2015/09/recurrent-neur ...
循环神经网络(RNN, Recurrent Neural Networks)介绍
原文地址: http://blog.csdn.net/heyongluoyao8/article/details/48636251# 循环神经网络(RNN, Recurrent Neural Netw ...
循环神经网络(RNN, Recurrent Neural Networks)——无非引入了环，解决时间序列问题
摘自:http://blog.csdn.net/heyongluoyao8/article/details/48636251 不同于传统的FNNs(Feed-forward Neural Networ ...
第十四章——循环神经网络（Recurrent Neural Networks）（第二部分）
本章共两部分,这是第二部分: 第十四章--循环神经网络(Recurrent Neural Networks)(第一部分) 第十四章--循环神经网络(Recurrent Neural Networks) ...
第十四章——循环神经网络（Recurrent Neural Networks）（第一部分）
由于本章过长,分为两个部分,这是第一部分. 这几年提到RNN,一般指Recurrent Neural Networks,至于翻译成循环神经网络还是递归神经网络都可以.wiki上面把Recurrent ...
循环神经网络（Recurrent Neural Network，RNN）
为什么使用序列模型(sequence model)?标准的全连接神经网络(fully connected neural network)处理序列会有两个问题:1)全连接神经网络输入层和输出层长度固定, ...
4.5 RNN循环神经网络（recurrent neural network）
自己开发了一个股票智能分析软件,功能很强大,需要的点击下面的链接获取: https://www.cnblogs.com/bclshuai/p/11380657.html 1.1 RNN循环神经网络 ...
转：RNN(Recurrent Neural Networks)
RNN(Recurrent Neural Networks)公式推导和实现 http://x-algo.cn/index.php/2016/04/25/rnn-recurrent-neural-net ...
RNN(Recurrent Neural Networks)公式推导和实现
RNN(Recurrent Neural Networks)公式推导和实现 http://x-algo.cn/index.php/2016/04/25/rnn-recurrent-neural-net ...

随机推荐

oracle报错ORA-01653 dba_free_space中没有该表空间
新建了一个表空间t101,在dba_tablespaces和dba_data_files都出现了,在dba_free_space却没有,这个很有可能是表空间满了. 插入数据会报错:ORA-01653: ...
【翻译】Spark 调优 (Tuning Spark) 中文版
由于Spark自己的调优guidance已经覆盖了很多很有价值的点,因此这里直接翻译一份过来.也作为一个积累. Spark 调优 (Tuning Spark) 由于大多数Spark计算任务是在内存中运 ...
9、js扩展
作用域是JavaScript最重要的概念之一,想要学好JavaScript就需要理解JavaScript作用域和作用域链的工作原理. 本片导航: js的作用域作用域链(Scope Chain) 一. ...
python测试开发django-54.xadmin添加自定义页面
前言 xadmin后台如何添加一个自己写的页面呢?如果仅仅是在GlobalSettings添加url地址的话,会丢失左侧的导航菜单和顶部的页面,和整体的样式不协调. 新增页面后希望能保留原来的样式,只 ...
NoSQL简单介绍
这里介绍一下如今经常使用的NoSQL以及各自的特点. NoSQL是2009年突然发展起来的.如今趋于稳定的状态,市场上也有了一些比較成熟的产品. 传统的关系型数据库为了保证通用性的设计而带来了功能复杂 ...
【转】Wireshark和Fiddler分析Android中的TLS协议包数据(附带案例样本)
本文转自:http://www.wjdiankong.cn/wireshark%E5%92%8Cfiddler%E5%88%86%E6%9E%90android%E4%B8%AD%E7%9A%84tl ...
Google Maps V3 之路线服务
概述您可以使用 DirectionsService 对象计算路线(使用各种交通方式).此对象与 Google Maps API 路线服务进行通信,该服务会接收路线请求并返回计算的结果.您可以自行处理 ...
SSE图像算法优化系列二十：一种快速简单而又有效的低照度图像恢复算法。
又有很久没有动笔了,主要是最近没研究什么东西,而且现在主流的趋势都是研究深度学习去了,但自己没这方面的需求,同时也就很少有动力再去看传统算法,今天一个人在家,还是抽空分享一个简单的算法吧. 前段日子在 ...
centos exfat格式U盘不支持问题
centos exfat格式U盘不支持问题 1. 下载fuse-exfat-1.3.0-1.el7.x86_64.rpm 2. 终端安装 rpm -ivh fuse-exfat-1.3.0-1.el ...
使用Mybatis时mybatis-config.xml配置中"configuration" 的内容必须匹配 (.....)解决方案
一.简述使用Mybatis配置mybatis-config配置文件时,经常遇到下列报错信息:org.xml.sax.SAXParseException; lineNumber: 36; column ...

《转》循环神经网络(RNN, Recurrent Neural Networks)学习笔记：基础理论

《转》循环神经网络(RNN, Recurrent Neural Networks)学习笔记：基础理论的更多相关文章

随机推荐

热门专题