从rnn到lstm，再到seq2seq（一）

rnn的的公式很简单：

对于每个时刻，输入上一个时刻的隐层s和这个时刻的文本x，然后输出这个时刻的隐层s。对于输出的隐层s 做个ws+b就是这个时刻的输出y。

tf.scan(fn, elems, initializer) # scan operation

def fn(st_1, xt): # recurrent function

    st = f(st_1, xt)

    return st

rnn的实现：

def step(hprev, x):

    # initializer

    xav_init = tf.contrib.layers.xavier_initializer

    # params

    W = tf.get_variable('W', shape=[state_size, state_size], initializer=xav_init())

    U = tf.get_variable('U', shape=[state_size, state_size], initializer=xav_init())

    b = tf.get_variable('b', shape=[state_size], initializer=tf.constant_initializer(0.))

    # current hidden state

    h = tf.tanh(tf.matmul(hprev, W) + tf.matmul(x,U) + b)

    return h

states = tf.scan(step,

            tf.transpose(rnn_inputs, [1,0,2]),

            initializer=init_state)

lstm只是网络结构上个对rnn进行改进，它同时增加一个单元叫做state状态，每个lstm有个hidden和一个state。

下面图中h就是隐层，下面图中的c就是状态。首先根据这个时刻的输入x和上个时刻的隐层算出三个门，f(forget),i(input),o(ouput)

激活函数是sigmoid函数，输出0或者1。算出来的f门是来控制上个状态多少被忘记。算出来的i门来控制这个时刻状态的多少被输入。

本时刻的状态由这个时刻的输入x和上个时刻的隐层算出然后用tan函数激活（对应第四行公式）。

本时刻隐层的输出h是由本时刻的状态用tan来激活，然后乘以输出门

看看lstm的实现：

            def step(prev, x):

                # gather previous internal state and output state

                st_1, ct_1 = tf.unpack(prev)

                ####

                # GATES

                #

                #  input gate

                i = tf.sigmoid(tf.matmul(x,U[0]) + tf.matmul(st_1,W[0]))

                #  forget gate

                f = tf.sigmoid(tf.matmul(x,U[1]) + tf.matmul(st_1,W[1]))

                #  output gate

                o = tf.sigmoid(tf.matmul(x,U[2]) + tf.matmul(st_1,W[2]))

                #  gate weights

                g = tf.tanh(tf.matmul(x,U[3]) + tf.matmul(st_1,W[3]))

                ###

                # new internal cell state

                ct = ct_1*f + g*i

                # output state

                st = tf.tanh(ct)*o

                return tf.pack([st, ct])

            ###

            # here comes the scan operation; wake up!

            #   tf.scan(fn, elems, initializer)

            states = tf.scan(step,

                    tf.transpose(rnn_inputs, [1,0,2]),

                    initializer=init_state)

在来看下gru

gru里面没有state这个东西，它有两个门，一个是z，遗忘门，一个是r，就是reset门

跟lstm。算出遗忘门，来控制上个时刻的多少隐层被遗忘，另一半（1-z）就是本时刻多少隐层被输入。

本时刻多少隐层，跟lstm也很相似，只是在上个时刻的h上加了个reset门，就是：根据上个时刻的h加上reset门，和本时刻的输入x，通过tan来激活

看看gru的实现：

  def step(st_1, x):

                ####

                # GATES

                #

                #  update gate

                z = tf.sigmoid(tf.matmul(x,U[0]) + tf.matmul(st_1,W[0]))

                #  reset gate

                r = tf.sigmoid(tf.matmul(x,U[1]) + tf.matmul(st_1,W[1]))

                #  intermediate

                h = tf.tanh(tf.matmul(x,U[2]) + tf.matmul( (r*st_1),W[2]))

                ###

                # new state

                st = (1-z)*h + (z*st_1)

                return st

            ###

            # here comes the scan operation; wake up!

            #   tf.scan(fn, elems, initializer)

            states = tf.scan(step,

                    tf.transpose(rnn_inputs, [1,0,2]),

                    initializer=init_state)

参考文章：

http://colah.github.io/posts/2015-08-Understanding-LSTMs/

http://suriyadeepan.github.io/2017-02-13-unfolding-rnn-2/

https://github.com/suriyadeepan/rnn-from-scratch

http://karpathy.github.io/2015/05/21/rnn-effectiveness/

从rnn到lstm，再到seq2seq（一）的更多相关文章

RNN、LSTM、Seq2Seq、Attention、Teacher forcing、Skip thought模型总结
RNN RNN的发源: 单层的神经网络(只有一个细胞,f(wx+b),只有输入,没有输出和hidden state) 多个神经细胞(增加细胞个数和hidden state,hidden是f(wx+b) ...
3. RNN神经网络-LSTM模型结构
1. RNN神经网络模型原理 2. RNN神经网络模型的不同结构 3. RNN神经网络-LSTM模型结构 1. 前言之前我们对RNN模型做了总结.由于RNN也有梯度消失的问题,因此很难处理长序列的数 ...
RNN以及LSTM的介绍和公式梳理
前言好久没用正儿八经地写博客了,csdn居然也有了markdown的编辑器了,最近花了不少时间看RNN以及LSTM的论文,在组内『夜校』分享过了,再在这里总结一下发出来吧,按照我讲解的思路,理解RN ...
RNN、LSTM、Char-RNN 学习系列（一）
RNN.LSTM.Char-RNN 学习系列(一) zoerywzhou@gmail.com http://www.cnblogs.com/swje/ 作者:Zhouw 2016-3-15 版权声明 ...
机器学习- RNN以及LSTM的原理分析
概述 RNN是递归神经网络,它提供了一种解决深度学习的另一个思路,那就是每一步的输出不仅仅跟当前这一步的输入有关,而且还跟前面和后面的输入输出有关,尤其是在一些NLP的应用中,经常会用到,例如在NLP ...
RNN and LSTM saliency Predection Scene Label
http://handong1587.github.io/deep_learning/2015/10/09/rnn-and-lstm.html //RNN and LSTM http://hando ...
RNN 与 LSTM 的应用
之前已经介绍过关于 Recurrent Neural Nnetwork 与 Long Short-Trem Memory 的网络结构与参数求解算法( 递归神经网络(Recurrent Neural N ...
Naive RNN vs LSTM vs GRU
0 Recurrent Neural Network 1 Naive RNN 2 LSTM peephole Naive RNN vs LSTM 记忆更新部分的操作,Naive RNN为乘法,LSTM ...
TensorFlow之RNN：堆叠RNN、LSTM、GRU及双向LSTM
RNN(Recurrent Neural Networks,循环神经网络)是一种具有短期记忆能力的神经网络模型,可以处理任意长度的序列,在自然语言处理中的应用非常广泛,比如机器翻译.文本生成.问答系统 ...
RNN和LSTM
一.RNN 全称为Recurrent Neural Network,意为循环神经网络,用于处理序列数据. 序列数据是指在不同时间点上收集到的数据,反映了某一事物.现象等随时间的变化状态或程度.即数据之 ...

随机推荐

selenium 淘宝登入反爬虫解决方案（亲测有效）
前言目前在对淘宝进行数据爬取的时候都会碰到,登入时的滑块问题,无论是手动还是脚本都不成功.这里的很重要一个原因是很多的网站都对selenium做了反爬虫机制.接下来是笔者参考网上的网友们的方法亲自测 ...
python+requests+excel+unittest+ddt接口自动化数据驱动并生成html报告
1.环境准备: python3.6 requests xlrd openpyxl HTMLTestRunner_api 2.目前实现的功能: 封装requests请求方法在excel填写接口请求参数 ...
java中加与不加public
加public表示全局类,该类可以import到任何类内.不加public默认为保留类,只能被同一个包内的其他类引用来源:https://blog.csdn.net/qq_15037231/artic ...
C#设计模式(11)——外观模式（Facade Pattern）（转）
一.引言在软件开发过程中,客户端程序经常会与复杂系统的内部子系统进行耦合,从而导致客户端程序随着子系统的变化而变化,然而为了将复杂系统的内部子系统与客户端之间的依赖解耦,从而就有了外观模式,也称作 ...
https学习笔记二----基础密码学知识和python pycrypto库的介绍使用
在更详细的学习HTTPS之前,我也觉得很有必要学习下HTTPS经常用到的加密编码技术的背景知识.密码学是对报文进行编解码的机制和技巧.可以用来加密数据,比如数据加密常用的AES/ECB/PKCS5Pa ...
使用 Docker 搭建 Java Web 运行环境（转）
原文 http://www.importnew.com/21798.html Docker 是 2014 年最为火爆的技术之一,几乎所有的程序员都听说过它.Docker 是一种“轻量级”容器技术,它几 ...
2014西安赛区C题
将A[i]同他后面比他小的建边,然后求最大密度子图 #include <iostream> #include <algorithm> #include <string.h ...
[openjudge-动态规划]滑雪
题目描述描述 Michael喜欢滑雪百这并不奇怪, 因为滑雪的确很刺激.可是为了获得速度,滑的区域必须向下倾斜,而且当你滑到坡底,你不得不再次走上坡或者等待升降机来载你.Michael想知道载一个区 ...
c++: internal compiler error: Killed
原因:内存不足,SWAP不足创建分区文件,大小 4G [root@dbmspreapp205 ~]# dd if=/dev/zero of=/data/swapfile bs=1k count=40 ...
5、Spring-Kafka3
3. Introduction This first part of the reference documentation is a high-level overview of Spring fo ...

从rnn到lstm，再到seq2seq（一）

从rnn到lstm，再到seq2seq（一）的更多相关文章

随机推荐

热门专题