学习笔记TF036:实现Bidirectional LSTM Classifier

双向循环神经网络(Bidirectional Recurrent Neural Networks,Bi-RNN)，Schuster、Paliwal，1997年首次提出，和LSTM同年。Bi-RNN，增加RNN可利用信息。普通MLP，数据长度有限制。RNN，可以处理不固定长度时序数据，无法利用历史输入未来信息。Bi-RNN，同时使用时序数据输入历史及未来数据，时序相反两个循环神经网络连接同一输出，输出层可以同时获取历史未来信息。

Language Modeling，不适合Bi-RNN，目标是通过前文预测下一单词，不能将下文信息传给模型。分类问题，手写文字识别、机器翻译、蛋白结构预测，Bi-RNN提升模型效果。百度语音识别，通过Bi-RNN综合上下文语境，提升模型准确率。

Bi-RNN网络结构核心，普通单向RNN拆成两个方向，随时序正向，逆时序反赂。当前时间节点输出，同时利用正向、反向两个方向信息。两个不同方向RNN不共用state，正向RNN输出state只传给正向RNN，反向RNN输出state只传给反向RNN，正反向RNN没有直接连接。每个时间节点输入，分别传给正反向RNN，根据各自状态产生输出，两份输出一起连接到Bi-RNN输出节点，共同合成最终输出。对当前时间节点输出贡献(或loss)，在训练中计算出来，参数根据梯度优化到合适值。

Bi-RNN训练，正反向RNN没有交集，分别展开普通前馈网络。BPTT(back-propagation through time)算法训练，无法同时更新状态、输出。正向state在t=1时未知，反向state在t=T时未知，state在正反向开始处未知，需人工设置。正向状态导数在t=T时未知，反向状态导数在t=1时未知，state导数在正反向结晶尾处未知，需设0代表参数更新不重要。

开始训练，第一步，输入数据forward pass操作，inference操作，先沿1->T方向计算正向RNN state，再沿T->1方向计算反向RNN state，获得输出output。第二步，backward pass操作，目标函数求导操作，先求导输出output，先沿T->1方向计算正向RNN state导数，再沿1->T方向计算反向RNN state导数。第三步，根据求得梯度值更新模型参数，完成训练。

Bi-RNN每个RNN单元，可以是传统RNN，可以是LSTM或GRU单元。可以在一层Bi-RNN上再叠加一层Bi-RNN，上层Bi-RNN输出作下层Bi-RNN输入，可以进一步抽象提炼特征。分类任务，Bi-RNN输出序列连接全连接层，或连接全局平均池化Global Average Pooling，再接Softmax层，和卷积网络一样。

TensorFlow实现Bidirectional LSTM Classifier，在MNIST数据集测试。载入TensorFlow、NumPy、TensorFlow自带MNIST数据读取器。input_data.read_data_sets下载读取MNIST数据集。

设置训练参数。设置学习速率 0.01,优化器选择Adam，学习速率低。最大训练样本数 40万，batch_size 128,设置每间隔10次训练展示训练情况。

MNIST图像尺寸 28x28,输入n_input 28(图像宽)，n_steps LSTM展开步数(unrolled steps of LSTM)，设28(图像高)，图像全部信息用上。一次读取一行像素(28个像素点)，下个时间点再传入下一行像素点。n_hidden(LSTM隐藏节点数)设256,n_classes(MNIST数据集分类数目)设10。

创建输入x和学习目标y 的place_holder。输入x每个样本直接用二维结构。样本为一个时间序列，第一维度时间点n_steps，第二维度每个时间点数据n_input。设置Softmax层weights和biases，tf.random_normal初始化参数。双向LSTM，forward、backward两个LSTM cell，weights参数数量翻倍，2*n_hidden。

定义Bidirectional LSTM网络生成函数。形状(batch_size,n_steps,n_input)输入变长度n_steps列表，元素形状(batch_size,n_input)。输入转置，tf.transpose(x,[1,0,2])，第一维度batch_size，第二维度n_steps，交换。tf.reshape，输入x变(n_steps*batch_size,n_input)形状。 tf.split，x拆成长度n_steps列表，列表每个tensor尺寸(batch_size,n_input)，符合LSTM单元输入格式。tf.contrib.rnn.BasicLSTMCell，创建forward、backward LSTM单元，隐藏节点数设n_hidden，forget_bias设1。正向lstm_fw_cell和反向lstm_bw_cell传入Bi-RNN接口tf.nn.bidirectional_rnn，生成双向LSTM，传入x输入。双向LSTM输出结果output做矩阵乘法加偏置，参数为前面定义weights、biases。

最后输出结果，tf.nn.softmax_cross_entropy_with_logits，Softmax处理计算损失。tf.reduce_mean计算平均cost。优化器Adam，学习速率learning_rate。tf.argmax得到模型预测类别，tf.equal判断是否预测正确。tf.reduce_mean求平均准确率。

执行训练和测试操作。执行初始化参数，定义一个训练循环，保持总训练样本数(迭代数*batch_size)小于设定值。每轮训练迭代，mnist.train.next_batch拿到一个batch数据，reshape改变形状。包含输入x和训练目标y的feed_dict传入，执行训练操作，更新模型参数。迭代数display_step整数倍，计算当前batch数据预测准确率、loss，展示。

全部训练迭代结果，训练好模型，mnist.test.images全部测试数据预测，展示准确率。

完成40万样本训练，训练集预测准确率基本是1,10000样本测试集0.983准确率。

Bidirectional LSTM Classifier，MNIST数据集表现不如卷积神经网络。Bi-RNN、双向LSTM网络，时间序列分类任务表现更好，同时利用时间序列历史和未来信息，结合上下文信息，结果综合判断。

    import tensorflow as tf

    import numpy as np

    # Import MINST data

    from tensorflow.examples.tutorials.mnist import input_data

    mnist = input_data.read_data_sets("/tmp/data/", one_hot=True)

    # Parameters

    learning_rate = 0.01

    max_samples = 400000

    batch_size = 128

    display_step = 10

    # Network Parameters

    n_input = 28 # MNIST data input (img shape: 28*28)

    n_steps = 28 # timesteps

    n_hidden = 256 # hidden layer num of features

    n_classes = 10 # MNIST total classes (0-9 digits)

    # tf Graph input

    x = tf.placeholder("float", [None, n_steps, n_input])

    y = tf.placeholder("float", [None, n_classes])

    # Define weights

    weights = {

        # Hidden layer weights => 2*n_hidden because of foward + backward cells

        'out': tf.Variable(tf.random_normal([2*n_hidden, n_classes]))

    }

    biases = {

        'out': tf.Variable(tf.random_normal([n_classes]))

    }

    def BiRNN(x, weights, biases):

        # Prepare data shape to match `bidirectional_rnn` function requirements

        # Current data input shape: (batch_size, n_steps, n_input)

        # Required shape: 'n_steps' tensors list of shape (batch_size, n_input)

        # Permuting batch_size and n_steps

        x = tf.transpose(x, [1, 0, 2])

        # Reshape to (n_steps*batch_size, n_input)

        x = tf.reshape(x, [-1, n_input])

        # Split to get a list of 'n_steps' tensors of shape (batch_size, n_input)

        x = tf.split(x, n_steps)

        # Define lstm cells with tensorflow

        # Forward direction cell

        lstm_fw_cell = tf.contrib.rnn.BasicLSTMCell(n_hidden, forget_bias=1.0)

        # Backward direction cell

        lstm_bw_cell = tf.contrib.rnn.BasicLSTMCell(n_hidden, forget_bias=1.0)

        # Get lstm cell output

    #    try:

        outputs, _, _ = tf.contrib.rnn.static_bidirectional_rnn(lstm_fw_cell, lstm_bw_cell, x,

                                           dtype=tf.float32)

    #    except Exception: # Old TensorFlow version only returns outputs not states

    #        outputs = rnn.bidirectional_rnn(lstm_fw_cell, lstm_bw_cell, x,

    #                                        dtype=tf.float32)

        # Linear activation, using rnn inner loop last output

        return tf.matmul(outputs[-1], weights['out']) + biases['out']

    pred = BiRNN(x, weights, biases)

    # Define loss and optimizer

    cost = tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits(logits=pred, labels=y))

    optimizer = tf.train.AdamOptimizer(learning_rate=learning_rate).minimize(cost)

    # Evaluate model

    correct_pred = tf.equal(tf.argmax(pred,1), tf.argmax(y,1))

    accuracy = tf.reduce_mean(tf.cast(correct_pred, tf.float32))

    # Initializing the variables

    init = tf.global_variables_initializer()

    # Launch the graph

    with tf.Session() as sess:

        sess.run(init)

        step = 1

        # Keep training until reach max iterations

        while step * batch_size < max_samples:

            batch_x, batch_y = mnist.train.next_batch(batch_size)

            # Reshape data to get 28 seq of 28 elements

            batch_x = batch_x.reshape((batch_size, n_steps, n_input))

            # Run optimization op (backprop)

            sess.run(optimizer, feed_dict={x: batch_x, y: batch_y})

            if step % display_step == 0:

                # Calculate batch accuracy

                acc = sess.run(accuracy, feed_dict={x: batch_x, y: batch_y})

                # Calculate batch loss

                loss = sess.run(cost, feed_dict={x: batch_x, y: batch_y})

                print("Iter " + str(step*batch_size) + ", Minibatch Loss= " + \

                      "{:.6f}".format(loss) + ", Training Accuracy= " + \

                      "{:.5f}".format(acc))

            step += 1

        print("Optimization Finished!")

        # Calculate accuracy for 128 mnist test images

        test_len = 10000

        test_data = mnist.test.images[:test_len].reshape((-1, n_steps, n_input))

        test_label = mnist.test.labels[:test_len]

        print("Testing Accuracy:", \

            sess.run(accuracy, feed_dict={x: test_data, y: test_label}))

参考资料：
《TensorFlow实战》

欢迎付费咨询(150元每小时)，我的微信：qingxingfengzi

学习笔记TF036:实现Bidirectional LSTM Classifier的更多相关文章

TensorFlow实战12：Bidirectional LSTM Classifier
https://blog.csdn.net/felaim/article/details/70300362 1.双向递归神经网络简介双向递归神经网络(Bidirectional Recurrent ...
深度学习中的序列模型演变及学习笔记（含RNN/LSTM/GRU/Seq2Seq/Attention机制）
[说在前面]本人博客新手一枚,象牙塔的老白,职业场的小白.以下内容仅为个人见解,欢迎批评指正,不喜勿喷![认真看图][认真看图] [补充说明]深度学习中的序列模型已经广泛应用于自然语言处理(例如机器翻 ...
学习笔记TF035:实现基于LSTM语言模型
神经结构进步.GPU深度学习训练效率突破.RNN,时间序列数据有效,每个神经元通过内部组件保存输入信息. 卷积神经网络,图像分类,无法对视频每帧图像发生事情关联分析,无法利用前帧图像信息.RNN最大特 ...
实现Bidirectional LSTM Classifier----深度学习RNN
双向循环神经网络(Bidirectional Recurrent Neural Networks,Bi-RNN),Schuster.Paliwal,1997年首次提出,和LSTM同年.Bi-RNN,增 ...
TensorFlow学习笔记13-循环、递归神经网络
循环神经网络(RNN) 卷积网络专门处理网格化的数据,而循环网络专门处理序列化的数据. 一般的神经网络结构为: 一般的神经网络结构的前提假设是:元素之间是相互独立的,输入.输出都是独立的. 现实世界中 ...
Highway LSTM 学习笔记
Highway LSTM 学习笔记 zoerywzhou@gmail.com http://www.cnblogs.com/swje/ 作者:Zhouwan 2016-4-5 声明 1)该Dee ...
官网实例详解-目录和实例简介-keras学习笔记四
官网实例详解-目录和实例简介-keras学习笔记四 2018-06-11 10:36:18 wyx100 阅读数 4193更多分类专栏: 人工智能 python 深度学习 keras 版权声明: ...
cips2016+学习笔记︱简述常见的语言表示模型（词嵌入、句表示、篇章表示）
在cips2016出来之前,笔者也总结过种类繁多,类似词向量的内容,自然语言处理︱简述四大类文本分析中的"词向量"(文本词特征提取)事实证明,笔者当时所写的基本跟CIPS2016一 ...
Deep learning with Python 学习笔记（6）
本节介绍循环神经网络及其优化循环神经网络(RNN,recurrent neural network)处理序列的方式是,遍历所有序列元素,并保存一个状态(state),其中包含与已查看内容相关的信息. ...

随机推荐

同事在使用shiro后遇到的异常
一切配置按照demo来的,给他讲了一遍捋顺了.然后之前他做的demohim按照他网络摘抄的shiro博客看的. 然后注册了,正常,登录,提示密码不匹配. 问题出在注册的密码加密次数是2, 而shiro ...
Unity_3DText文字显示模糊怎么办
在unity3d中创建一个3d text文字对象模型,但是发现默认情况下显示的文字很模糊,这种情况我们可以通过放大字体尺寸的方式解决这个问题,然后通过缩放的方式改变其大小. 1.打开unity3d场景 ...
Learning-Python【31】：操作系统基础知识
什么是操作系统计算机系统由硬件和软件两部分组成.操作系统(OS,Operating System)是配置在计算机硬件上的第一层软件,是对硬件系统的首次扩充.它在计算机系统中占据了特别重要的地位:而其 ...
IdentityServer4中AccessToken和IdentityToken中包含的Claims构成
贴出主要代码(以下源码的位置位于:IdentityServer4.Services.DefaultClaimsService) /// <summary> /// Returns clai ...
Nginx教程---03.Nginx日志切割
Nginx的定时任务与自动切割明确: 如果这个网站的访问量比较大,那么一天下来 nginx日志可能会特别的大,所以当出现这种情况呢,如果把每天的日志都存在同一个日志文件里,会使你的日志文件大到让你 ...
NYOJ_1274_信道安全 -
别琢磨中间过程,我也整不清楚,死记住模板吧 #include <stdio.h> #include <string.h> #include <queue> usin ...
【转】Angular学习总结--很详细的教程
*这篇文章是转来的,做了自己的一点修改,排版.原始出处不明,如涉及原博主版权问题,请及时告知,我将会立即删除*. 1 前言前端技术的发展是如此之快,各种优秀技术.优秀框架的出现简直让人目不暇接,紧跟 ...
20175317 《Java程序设计》第四周学习总结
20175317 <Java程序设计>第四周学习总结教材学习内容总结第四周我学习了教材第五章的内容,了解了子类与继承的知识,学到了以下内容: 明白了什么是子类与父类.类的树形结构. 子 ...
word常用功能
1. 安装office2013 cn_office_professional_plus_2013_x86_dvd_1134005 密钥激活 (1)用专用软件彻底卸载原来的 (2)安装 (3)用暴风激活 ...
利用Fiddler编写Jmeter接口测试
利用Fiddler抓包APP应用接口,在Jmeter编写接口测试脚本 1.用Fiddler对Android用用进行抓包 Fiddler介绍: Fiddler是一款非常流行并且实用的http抓包工具,它 ...

学习笔记TF036:实现Bidirectional LSTM Classifier

学习笔记TF036:实现Bidirectional LSTM Classifier的更多相关文章

随机推荐

热门专题