tensorflow-LSTM-网络输出与多隐层节点

本文从tensorflow的代码层面理解LSTM。

看本文之前，需要先看我的这两篇博客

https://www.cnblogs.com/yanshw/p/10495745.html 谈到网络结构

https://www.cnblogs.com/yanshw/p/10515436.html 谈到多隐层神经网络

回忆一下LSTM网络

输出

tensorflow 用 tf.nn.dynamic_rnn构建LSTM的输出

lstm_cell = tf.nn.rnn_cell.BasicLSTMCell(n_hidden_number,forget_bias = 1.0)

# 初始化s

init_state = lstm_cell.zero_state(batch_size,dtype=tf.float32)

outputs,states = tf.nn.dynamic_rnn(lstm_cell,X_in,initial_state=init_state,time_major=False)

output，states 都是隐层的输出，注意只是隐层h，还没到o，o=vh+c（c是bias，不同于states的c，这是记忆单元）

output 是以三维矩阵形式记录了所有样本所有时刻所有隐层的输出，shape 为 [batch_size, timestep_size, hidden_size]

states 是所有样本最后时刻所有隐层的 c 和 h，c 是记忆单元， states的shape 为 [2, batch_size, hidden_size] ，2表示 c 和 h

故 states[1] == outputs[:,-1,:] == h

图形表示如下

多隐层

1. MultiRNNCell 构建多隐层LSTM，输出同 tf.nn,dynamic_rnn

2. 多隐层 h0 的shape

3. 多隐层的输出

# encoding:utf-8

__author__ = 'HP'

import tensorflow as tf

# 时序为1

batch_size=10

depth=128       # 特征数

inputs=tf.Variable(tf.random_normal([batch_size,depth]))        #

# 多隐层的h0

previous_state0=(tf.random_normal([batch_size,100]),tf.random_normal([batch_size,100]))

previous_state1=(tf.random_normal([batch_size,200]),tf.random_normal([batch_size,200]))

previous_state2=(tf.random_normal([batch_size,300]),tf.random_normal([batch_size,300]))

num_units=[100,200,300]     # 隐层神经元个数

print(inputs)

cells=[tf.nn.rnn_cell.BasicLSTMCell(num_unit) for num_unit in num_units]

mul_cells=tf.nn.rnn_cell.MultiRNNCell(cells)

# MultiRNNCell 直接输出

outputs,states=mul_cells(inputs,(previous_state0,previous_state1,previous_state2))

print(outputs.shape) #(10, 300)

print(states[0]) #第一层LSTM

print(states[1]) #第二层LSTM

print(states[2]) ##第三层LSTM

print(states[0].h.shape) #第一层LSTM的h状态,(10, 100)

print(states[0].c.shape) #第一层LSTM的c状态,(10, 100)

print(states[1].h.shape) #第二层LSTM的h状态,(10, 200)

网络构建

 lstm_cell = tf.nn.rnn_cell.BasicLSTMCell(num_units=hidden_size, forget_bias=1.0, state_is_tuple=True)

 mlstm_cell = rnn.MultiRNNCell([clstm() for i in range(layer_num)], state_is_tuple=True)

 outputs, state = tf.nn.dynamic_rnn(mlstm_cell, inputs=X, initial_state=init_state, time_major=False)

 vs

 mul_cells=tf.nn.rnn_cell.MultiRNNCell(cells)

 outputs,states=mul_cells(inputs,(previous_state0,previous_state1,previous_state2))

h0 shape

之前讲到h0的shape是 [batch_size, hidden_size]，只是针对单隐层的

多隐层应该是 [batch_size, hidden1_size] + [batch_size, hidden2_size] + [batch_size, hidden3_size] + ...

上例中用 MultiRNNCell 构建LSTM，需要同时定义 c0 和 h0，且二者shape相同，故

previous_state0=(tf.random_normal([batch_size,100]),tf.random_normal([batch_size,100]))

previous_state1=(tf.random_normal([batch_size,200]),tf.random_normal([batch_size,200]))

previous_state2=(tf.random_normal([batch_size,300]),tf.random_normal([batch_size,300]))

图形表示

多隐层输出

单隐层输出本文最开头已经讲了，多隐层会稍有不同

output 仍然是 [batch_size, timestep_size, hidden_size]

而 states 是 [n_layer, 2, batch_size, hidden_size]

print(outputs.shape) #(10, 300)

print(states[0]) #第一层LSTM

print(states[1]) #第二层LSTM

print(states[2]) ##第三层LSTM

print(states[0].h.shape) #第一层LSTM的h状态,(10, 100)

print(states[0].c.shape) #第一层LSTM的c状态,(10, 100)

print(states[1].h.shape) #第二层LSTM的h状态,(10, 200)

图形表示

故 state[-1][1] == outputs[:, -1, :] == h

tensorflow-LSTM-网络输出与多隐层节点的更多相关文章

吴裕雄--天生自然神经网络与深度学习实战Python+Keras+TensorFlow：使用TensorFlow和Keras开发高级自然语言处理系统——LSTM网络原理以及使用LSTM实现人机问答系统
!mkdir '/content/gdrive/My Drive/conversation' ''' 将文本句子分解成单词,并构建词库 ''' path = '/content/gdrive/My D ...
RNN，LSTM中如何使用TimeDistributed包装层，代码示例
本文介绍了LSTM网络中的TimeDistributed包装层,代码演示了具有TimeDistributed层的LSTM网络配置方法. 演示了一对一,多对一,多对多,三种不同的预测方法如何配置. 在对 ...
使用tensorflow的lstm网络进行时间序列预测
https://blog.csdn.net/flying_sfeng/article/details/78852816 版权声明:本文为博主原创文章,未经博主允许不得转载. https://blog. ...
Tensorflow进行POS词性标注NER实体识别 - 构建LSTM网络进行序列化标注
http://blog.csdn.net/rockingdingo/article/details/55653279 Github下载完整代码 https://github.com/rockingd ...
神经网络结构设计指导原则——输入层：神经元个数=feature维度输出层：神经元个数=分类类别数，默认只用一个隐层如果用多个隐层，则每个隐层的神经元数目都一样
神经网络结构设计指导原则原文 http://blog.csdn.net/ybdesire/article/details/52821185 下面这个神经网络结构设计指导原则是Andrew N ...
循环神经网络与LSTM网络
循环神经网络与LSTM网络循环神经网络RNN 循环神经网络广泛地应用在序列数据上面,如自然语言,语音和其他的序列数据上.序列数据是有很强的次序关系,比如自然语言.通过深度学习关于序列数据的算法要比两 ...
LSTM网络（Long Short-Term Memory ）
本文基于前两篇 1. 多层感知机及其BP算法(Multi-Layer Perceptron) 与 2. 递归神经网络(Recurrent Neural Networks,RNN) RNN 有一个致命的 ...
Tensorflow[LSTM]
0.背景通过对<tensorflow machine learning cookbook>第9章第3节"implementing_lstm"进行阅读,发现如下形式可以 ...
（译）理解 LSTM 网络（Understanding LSTM Networks by colah）
@翻译:huangyongye 原文链接: Understanding LSTM Networks 前言:其实之前就已经用过 LSTM 了,是在深度学习框架 keras 上直接用的,但是到现在对LST ...

随机推荐

基于Struts2框架的文件下载 --- Struts2
一.Struts2指定类型文件的下载 1.最终功能实现的截图:(点击文件下载链接,下载文件 ) 2.核心代码 index.jsp: <%@ page language="java&qu ...
p2739 Shuttle Puzzle
观察样例得知就是和离'_'左边最近的'w'交换位置,然后和离'_'右边最近的'b'交换位置,轮流进行. #include <iostream> #include <cstdio> ...
hdu-6035 Colorful Tree
题目意思是计算所有路径(n*(n-1)/2)经过的不同颜色的数目和. 这个数目和可以转化为每种颜色经过的路径数目的求和,而这个求和又等价于颜色总数*n*(n-1)/2-没有经过某种颜色的边的数量的求和 ...
vue 基础（一）
一 vue.js的M-V-VM思想 MVVM 是Model-View-ViewModel 的缩写,它是一种基于前端开发的架构模式. 1.Model指代的就是vue对象的data属性里面的数据.这里的数 ...
关于*[pylint]E1101:Module 'xxx' has no 'xxx' member* 简单而有效的解决办法
关于 pylint 的 *E1101* 错误: 概念: %s %r has no %r member Function %r has no %r member Variable %r has no % ...
GPLT L2-004 这是二叉搜索树吗？
题目链接:https://pintia.cn/problem-sets/994805046380707840/problems/994805070971912192 类似题目有FBI树这两个题有个小 ...
http认证方式，工程部分实现
学习过程中,被boss批评,要求去复习http协议,因此找了相关资料做成一个系列:对于http认证方式不清楚的可以参考我的上一篇文章 http认证方式https://www.cnblogs.com/j ...
『CUDA C编程权威指南』第二章编程题选做
第一题设置线程块中线程数为1024效果优于设置为1023,且提升明显,不过原因未知,以后章节看看能不能回答. 第二题参考文件sumArraysOnGPUtimer.cu,设置block=256,新 ...
ie8不支持currentTarget的解决办法
一般绑定事件时,我们都会在事件回调方法里用event.currentTarget获取当前对象,但到ie8里就获取不到了. 解决方法如下: var eve = event || window.event ...
数组的typedef 和函数的typedef
#include<stdio.h> #include<string.h> #include<stdlib.h> // 数组指针语法梳理 // //int a[1 ...

tensorflow-LSTM-网络输出与多隐层节点

tensorflow-LSTM-网络输出与多隐层节点的更多相关文章

随机推荐

热门专题