通俗易懂--循环神经网络(RNN)的网络结构！(TensorFlow实现)

1. 什么是RNN

循环神经网络（Recurrent Neural Network, RNN）是一类以序列（sequence）数据为输入，在序列的演进方向进行递归（recursion）且所有节点（循环单元）按链式连接的递归神经网络（recursive neural network）

1.1 RNN的应用

文本生成(生成序列)
机器翻译
看图说话
文本(情感)分析
智能客服
聊天机器人
语音识别
搜索引擎
个性化推荐

1.2 为什么有了CNN，还要RNN?

传统神经网络(包括CNN)，输入和输出都是互相独立的。图像上的猫和狗是分隔开的，但有些任务，后续的输出和之前的内容是相关的。例如：我是中国人，我的母语是____。这是一道填空题，需要依赖于之前的输入。
所以，RNN引入“记忆”的概念，也就是输出需要依赖于之前的输入序列，并把关键输入记住。循环2字来源于其每个元素都执行相同的任务。
它并⾮刚性地记忆所有固定⻓度的序列，而是通过隐藏状态来存储之前时间步的信息。

1.3 RNN的网络结构

首先先上图，然后再解释：

现在我们考虑输⼊数据存在时间相关性的情况。假设 $X_t\in_{}\mathbb{R}^{n*d}$ 是序列中时间步t的小批量输⼊，$H_t\in_{}\mathbb{R}^{n*h}$ 是该时间步的隐藏变量。那么根据以上结构图当前的隐藏变量的公式如下：

\[H_t=\phi(X_tW_{xh}+H_{t-1}W_{hh}+b_h)\]

从以上公式我们可以看出，这⾥我们保存上⼀时间步的隐藏变量 $H_{t-1}$，并引⼊⼀个新的权重参数，该参数⽤来描述在当前时间步如何使⽤上⼀时间步的隐藏变量。具体来说，时间步 t 的隐藏变量的计算由当前时间步的输⼊和上⼀时间步的隐藏变量共同决定。 $\phi$ 函数其实就是激活函数。

我们在这⾥添加了 $H_{t-1}W_{hh}$ ⼀项。由上式中相邻时间步的隐藏变量 $H_t 和H_{t-1}$ 之间的关系可知，这⾥的隐藏变量能够捕捉截⾄当前时间步的序列的历史信息，就像是神经⽹络当前时间步的状态或记忆⼀样。因此，该隐藏变量也称为隐藏状态。由于隐藏状态在当前时间步的定义使⽤了上⼀时间步的隐藏状态，上式的计算是循环的。使⽤循环计算的⽹络即循环神经⽹络（recurrent neural network）。

在时间步t，输出层的输出和多层感知机中的计算类似：

\[O_t=H_tW_{hq}+b_q\]

1.4 双向RNN

之前介绍的循环神经⽹络模型都是假设当前时间步是由前⾯的较早时间步的序列决定的，因此它
们都将信息通过隐藏状态从前往后传递。有时候，当前时间步也可能由后⾯时间步决定。例如，
当我们写下⼀个句⼦时，可能会根据句⼦后⾯的词来修改句⼦前⾯的⽤词。双向循环神经⽹络通过增加从后往前传递信息的隐藏层来更灵活地处理这类信息。下图演⽰了⼀个含单隐藏层的双向循环神经⽹络的架构。

在双向循环神经⽹络的架构中，设该时间步正向隐藏状态为 $\overrightarrow{H}_t\in_{}\mathbb{R}^{n*h}$（正向隐藏单元个数为h），反向隐藏状态为 $\overleftarrow{H}_t\in_{}\mathbb{R}^{n*h}$（反向隐藏单元个数为h）。我们可以分别
计算正向隐藏状态和反向隐藏状态：

\[\overrightarrow{H}_t=\phi(X_tW_{xh}^{(f)}+\overrightarrow{H}_{t-1}W_{hh}^{(f)}+b_h^{(f)})\]

\[\overleftarrow{H}_t=\phi(X_tW_{xh}^{(b)}+\overleftarrow{H}_{t-1}W_{hh}^{(b)}+b_h^{(b)})\]

然后我们连结两个⽅向的隐藏状态 $\overrightarrow{H}_t和\overleftarrow{H}_t$ 来得到隐藏状态 $H_t\in_{}\mathbb{R}^{n*2h}$，并将其输⼊到输出层。输出层计算输出 $O_t\in_{}\mathbb{R}^{n*q}$（输出个数为q）：

\[O_t=H_tW_{hq}+b_q\]

双向循环神经⽹络在每个时间步的隐藏状态同时取决于该时间步之前和之后的⼦序列（包
括当前时间步的输⼊）。

1.5 BPTT算法

在之前你已经见过对于前向传播（上图蓝色箭头所指方向）怎样在神经网络中从左到右地计算这些激活项，直到输出所有地预测结果。而对于反向传播，我想你已经猜到了，反向传播地计算方向（上图红色箭头所指方向）与前向传播基本上是相反的。

我们先定义一个元素损失函数：

\[L^{(t)}(y^{'(t)},y^{(t)})=-y^{(t)}logy^{'(t)}-(1-y^{'(t)})log(1-y^{'(t)})\]

整个序列的损失函数：

\[L(y^{'},y)=\sum_{t=1}^{T_x}L^{(t)}(y^{'(t)},y^{(t)})\]$

在这个计算图中，通过$y^{'(1)}$可以计算对应的损失函数，于是计算出第一个时间步的损失函数，然后计算出第二个时间步的损失函数，然后是第三个时间步，一直到最后一个时间步，最后为了计算出总体损失函数，我们要把它们都加起来，通过等式计算出最后的