门控循环单元（GRU）

循环神经网络中的梯度计算方法。当时间步数较大或者时间步较小时，循环神经网络的梯度较容易出现衰减或爆炸。虽然裁剪梯度可以应对梯度爆炸，但无法解决梯度衰减的问题。通常由于这个原因，循环神经网络在实际中较难捕捉时间序列中时间步距离较大的依赖关系。

门控循环神经网络（gated recurrent neural network）的提出，正是为了更好地捕捉时间序列中时间步距离较大的依赖关系。它通过可以学习的门来控制信息的流动。其中，门控循环单元（gated recurrent unit，GRU）是一种常用的门控循环神经网络。

门控循环单元

门控循环单元的设计。它引入了重置门（reset gate）和更新门（update gate）的概念，从而修改了循环神经网络中隐藏状态的计算方式。

重置门和更新门

门控循环单元中的重置门和更新门的输入均为当前时间步输入X_t与上一时间步隐藏状态H_t−1，输出由激活函数为sigmoid函数的全连接层计算得到。

候选隐藏状态

隐藏状态

代码实现

 #!/usr/bin/env python

 # coding: utf-8

 # In[10]:

 import d2lzh as d2l

 from mxnet import nd

 from mxnet.gluon import rnn

 import zipfile

 # In[11]:

 def load_data_jay_lyrics(file):

     """Load the Jay Chou lyric data set (available in the Chinese book)."""

     with zipfile.ZipFile(file) as zin:

         with zin.open('jaychou_lyrics.txt') as f:

             corpus_chars = f.read().decode('utf-8')

     corpus_chars = corpus_chars.replace('\n', ' ').replace('\r', ' ')

     corpus_chars = corpus_chars[0:10000]

     idx_to_char = list(set(corpus_chars))

     char_to_idx = dict([(char, i) for i, char in enumerate(idx_to_char)])

     vocab_size = len(char_to_idx)

     corpus_indices = [char_to_idx[char] for char in corpus_chars]

     return corpus_indices, char_to_idx, idx_to_char, vocab_size

 # In[12]:

 file ='/Users/James/Documents/dev/test/data/jaychou_lyrics.txt.zip'

 (corpus_indices, char_to_idx, idx_to_char, vocab_size) = load_data_jay_lyrics(file)

 # In[13]:

 num_inputs, num_hiddens, num_outputs = vocab_size, 256, vocab_size

 ctx = d2l.try_gpu()

 def get_params():

     def _one(shape):

         return nd.random.normal(scale=0.01, shape=shape, ctx=ctx)

     def _three():

         return (_one((num_inputs, num_hiddens)),

                 _one((num_hiddens, num_hiddens)),

                 nd.zeros(num_hiddens, ctx=ctx))

     W_xz, W_hz, b_z = _three()  # 更新门参数

     W_xr, W_hr, b_r = _three()  # 重置门参数

     W_xh, W_hh, b_h = _three()  # 候选隐藏状态参数

     # 输出层参数

     W_hq = _one((num_hiddens, num_outputs))

     b_q = nd.zeros(num_outputs, ctx=ctx)

     # 附上梯度

     params = [W_xz, W_hz, b_z, W_xr, W_hr, b_r, W_xh, W_hh, b_h, W_hq, b_q]

     for param in params:

         param.attach_grad()

     return params

 # In[14]:

 def init_gru_state(batch_size, num_hiddens, ctx):

     return (nd.zeros(shape=(batch_size, num_hiddens), ctx=ctx), )

 # In[15]:

 def gru(inputs, state, params):

     W_xz, W_hz, b_z, W_xr, W_hr, b_r, W_xh, W_hh, b_h, W_hq, b_q = params

     H, = state

     outputs = []

     for X in inputs:

         Z = nd.sigmoid(nd.dot(X, W_xz) + nd.dot(H, W_hz) + b_z)

         R = nd.sigmoid(nd.dot(X, W_xr) + nd.dot(H, W_hr) + b_r)

         H_tilda = nd.tanh(nd.dot(X, W_xh) + nd.dot(R * H, W_hh) + b_h)

         H = Z * H + (1 - Z) * H_tilda

         Y = nd.dot(H, W_hq) + b_q

         outputs.append(Y)

     return outputs, (H,)

 # In[16]:

 num_epochs, num_steps, batch_size, lr, clipping_theta = 160, 35, 32, 1e2, 1e-2

 pred_period, pred_len, prefixes = 40, 50, ['分开', '不分开']

 # In[ ]:

 d2l.train_and_predict_rnn(gru, get_params, init_gru_state, num_hiddens,

                           vocab_size, ctx, corpus_indices, idx_to_char,

                           char_to_idx, False, num_epochs, num_steps, lr,

                           clipping_theta, batch_size, pred_period, pred_len,

                           prefixes)

长短期记忆（LSTM）

常用的门控循环神经网络：长短期记忆（long short-term memory，LSTM）。它比门控循环单元的结构稍微复杂一点。

长短期记忆

LSTM 中引入了3个门，即输入门（input gate）、遗忘门（forget gate）和输出门（output gate），以及与隐藏状态形状相同的记忆细胞（某些文献把记忆细胞当成一种特殊的隐藏状态），从而记录额外的信息。

输入门、遗忘门和输出门

候选记忆细胞

记忆细胞

隐藏状态

代码实现

 #LSTM 初始化参数

 num_inputs, num_hiddens, num_outputs = vocab_size, 256, vocab_size

 ctx = d2l.try_gpu()

 def get_params():

     def _one(shape):

         return nd.random.normal(scale=0.01, shape=shape, ctx=ctx)

     def _three():

         return (_one((num_inputs, num_hiddens)),

                 _one((num_hiddens, num_hiddens)),

                 nd.zeros(num_hiddens, ctx=ctx))

     W_xi, W_hi, b_i = _three()  # 输入门参数

     W_xf, W_hf, b_f = _three()  # 遗忘门参数

     W_xo, W_ho, b_o = _three()  # 输出门参数

     W_xc, W_hc, b_c = _three()  # 候选记忆细胞参数

     # 输出层参数

     W_hq = _one((num_hiddens, num_outputs))

     b_q = nd.zeros(num_outputs, ctx=ctx)

     # 附上梯度

     params = [W_xi, W_hi, b_i, W_xf, W_hf, b_f, W_xo, W_ho, b_o, W_xc, W_hc,

               b_c, W_hq, b_q]

     for param in params:

         param.attach_grad()

     return params

 # In[19]:

 def init_lstm_state(batch_size, num_hiddens, ctx):

     return (nd.zeros(shape=(batch_size, num_hiddens), ctx=ctx),

             nd.zeros(shape=(batch_size, num_hiddens), ctx=ctx))

深度循环神经网络

双向循环神经网络

机器学习（ML）九之GRU、LSTM、深度神经网络、双向循环神经网络的更多相关文章

深度学习之循环神经网络RNN概述，双向LSTM实现字符识别
深度学习之循环神经网络RNN概述,双向LSTM实现字符识别 2. RNN概述 Recurrent Neural Network - 循环神经网络,最早出现在20世纪80年代,主要是用于时序数据的预测和 ...
深度学习之循环神经网络（RNN）
循环神经网络(Recurrent Neural Network,RNN)是一类具有短期记忆能力的神经网络,适合用于处理视频.语音.文本等与时序相关的问题.在循环神经网络中,神经元不但可以接收其他神经元 ...
TensorFlow深度学习实战---循环神经网络
循环神经网络(recurrent neural network,RNN)-------------------------重要结构(长短时记忆网络( long short-term memory,LS ...
学习笔记TF057:TensorFlow MNIST，卷积神经网络、循环神经网络、无监督学习
MNIST 卷积神经网络.https://github.com/nlintz/TensorFlow-Tutorials/blob/master/05_convolutional_net.py .Ten ...
Keras（四）CNN 卷积神经网络 RNN 循环神经网络原理及实例
CNN 卷积神经网络卷积池化 https://www.cnblogs.com/peng8098/p/nlp_16.html 中有介绍以数据集MNIST构建一个卷积神经网路 from keras. ...
TensorFlow深度学习笔记循环神经网络实践
转载请注明作者:梦里风林 Github工程地址:https://github.com/ahangchen/GDLnotes 欢迎star,有问题可以到Issue区讨论官方教程地址视频/字幕下载加 ...
开始学习深度学习和循环神经网络Some starting points for deep learning and RNNs
Bengio, LeCun, Jordan, Hinton, Schmidhuber, Ng, de Freitas and OpenAI have done reddit AMA's. These ...
吴裕雄 python 神经网络——TensorFlow 循环神经网络处理MNIST手写数字数据集
#加载TF并导入数据集 import tensorflow as tf from tensorflow.contrib import rnn from tensorflow.examples.tuto ...
【TensorFlow入门完全指南】神经网络篇·循环神经网络（RNN）
第一步仍然是导入库和数据集. ''' To classify images using a reccurent neural network, we consider every image row ...

随机推荐

HTTP请求中的GET-POST方式
目录一.前言部分(概念) 二.对比 GET 与 POST 二者最大的差异 GET 与 POST 请求本质上并无区别深层了解:POST 请求产生两个数据包? 三.两种请求方式如何灵活使用? 四.常见 ...
一个.NET程序员 "2019" 跳槽3次的悲惨故事
2019年是值得深思的一年,在找工作上没有那么用心,导致碌碌无为,在这里我建议大家找工作的时候不要太着急...要不然会被逼疯的,一定不能被“工作”挑,一定要做到挑"工作".:那我就 ...
Time、Date拼接成TimeStamp
Time.Date拼接成TimeStamp 有关于Time类型.Date类型的数据这里不再赘述,本文旨在讲解如何将数据库中的Time.Date类型取出来并转换成TimeStamp类型,话不多说,先看代 ...
MySQL 基础 SQL 操作
MySQL 用户 --登录 mysql -u<用户名> -p[密码] --修改密码 mysqladmin -u<用户名> -p[密码] password <new_pas ...
Go语言教程之结构体
Hello,大家好,我是小栈君,最近因为工作的事情延误了一点分享的进度,但是我会尽量抽时间分享关于IT干货知识,还希望大家能够持续关注"IT干货栈"哦. 闲话不多说,今天给大家继续 ...
Sql Server执行一条Update语句很慢，插入数据失败
今天同事要我修改服务器数据库里面的2条数据,查看服务器上的SQL Server数据库的时候,发现这几天数据没有添加成功,然后发现磁盘很快就满了,执行Update语句时,执行半天都提示还在执行,查询语句 ...
GitHub项目绑定自己的域名
github博客搭建:https://blog.csdn.net/walkerhau/article/details/77394659?utm_source=debugrun&utm_medi ...
什么样的项目适合docker部署，docker应用场景
docker官网上说明了docker的典型场景: 使应用的打包与部署自动化创建轻量.私密的PAAS环境实现自动化测试和持续的集成/部署根据这些特性,我们可以想象一下,如果你的项目有如下痛点或者需 ...
Flutter使用SingleTickerProviderStateMixin报错
最近在学习开发Flutter应用项目,在创建tabbar和tabview后,进行网络请求后显示顶部tab标签,设置TabController,并使class类实现SingleTickerProvide ...
Hive 这些基础知识，你忘记了吗？
Hive 其实是一个客户端,类似于navcat.plsql 这种,不同的是Hive 是读取 HDFS 上的数据,作为离线查询使用,离线就意味着速度很慢,有可能跑一个任务需要几个小时甚至更长时间都有可能 ...

机器学习（ML）九之GRU、LSTM、深度神经网络、双向循环神经网络

门控循环单元（GRU）