从rnn到lstm，再到seq2seq（二）

从图上可以看出来，decode的过程其实都是从encode的最后一个隐层开始的，如果encode输入过长的话，会丢失很多信息，所以设计了attation机制。

attation机制的decode的过程和原来的最大的区别就是，它输出的不只是基于本时刻的h，而是基于本时刻的h和C的concat矩阵。

那么C是什么，C就是encode的h的联合（见最后一张图的公式），含义非常明显了，就是我在decode的时候，不但考虑我现在decode的隐层的情况，同时也考虑到encode的隐层的情况，那么关键是encode的隐层那么多，你该怎么考虑了，这就是attation矩阵的计算方式。。目前的计算方式是，这个时刻decode的隐层和encode的所有隐层做个对应，最后一张图非常明白

如果你还没有理解，看这个公式，输入的d‘t就是我上面说的C，把这个和dt concat就是本时刻输出的隐层

其实实现起来不复杂，就是在decode的时候，隐层和encode的隐层对应一下，然后concat一下：

下面这个代码是在github上找的，两个隐层对应的方式可能跟上面说的不一样，但是原理都差不多，看这个代码感受一下这个流程。

s = self.encoder.zero_state(self.batch_size, tf.float32)

        encoder_hs = []

        with tf.variable_scope("encoder"):

            for t in xrange(self.max_size):

                if t > 0: tf.get_variable_scope().reuse_variables()

                x = tf.squeeze(source_xs[t], [1])

                x = tf.matmul(x, self.s_proj_W) + self.s_proj_b

                h, s = self.encoder(x, s)

                encoder_hs.append(h)

        encoder_hs = tf.pack(encoder_hs)

s = self.decoder.zero_state(self.batch_size, tf.float32)

        logits = []

        probs  = []

        with tf.variable_scope("decoder"):

            for t in xrange(self.max_size):

                if t > 0: tf.get_variable_scope().reuse_variables()

                if not self.is_test or t == 0:

                    x = tf.squeeze(target_xs[t], [1])

                x = tf.matmul(x, self.t_proj_W) + self.t_proj_b

                h_t, s = self.decoder(x, s)

                h_tld = self.attention(h_t, encoder_hs)

                oemb  = tf.matmul(h_tld, self.proj_W) + self.proj_b

                logit = tf.matmul(oemb, self.proj_Wo) + self.proj_bo

                prob  = tf.nn.softmax(logit)

                logits.append(logit)

                probs.append(prob)

def attention(self, h_t, encoder_hs):

        #scores = [tf.matmul(tf.tanh(tf.matmul(tf.concat(1, [h_t, tf.squeeze(h_s, [0])]),

        #                    self.W_a) + self.b_a), self.v_a)

        #          for h_s in tf.split(0, self.max_size, encoder_hs)]

        #scores = tf.squeeze(tf.pack(scores), [2])

        scores = tf.reduce_sum(tf.mul(encoder_hs, h_t), 2)

        a_t    = tf.nn.softmax(tf.transpose(scores))

        a_t    = tf.expand_dims(a_t, 2)

        c_t    = tf.batch_matmul(tf.transpose(encoder_hs, perm=[1,2,0]), a_t)

        c_t    = tf.squeeze(c_t, [2])

        h_tld  = tf.tanh(tf.matmul(tf.concat(1, [h_t, c_t]), self.W_c) + self.b_c)

        return h_tld

参考文章：

https://www.slideshare.net/KeonKim/attention-mechanisms-with-tensorflow

https://github.com/dillonalaird/Attention/blob/master/attention.py

http://www.tuicool.com/articles/nUFRban

http://www.cnblogs.com/rocketfan/p/6261467.html

http://blog.csdn.net/jerr__y/article/details/53749693

从rnn到lstm，再到seq2seq（二）的更多相关文章

RNN、LSTM、Seq2Seq、Attention、Teacher forcing、Skip thought模型总结
RNN RNN的发源: 单层的神经网络(只有一个细胞,f(wx+b),只有输入,没有输出和hidden state) 多个神经细胞(增加细胞个数和hidden state,hidden是f(wx+b) ...
RNN、LSTM、Char-RNN 学习系列（一）
RNN.LSTM.Char-RNN 学习系列(一) zoerywzhou@gmail.com http://www.cnblogs.com/swje/ 作者:Zhouw 2016-3-15 版权声明 ...
TensorFlow之RNN：堆叠RNN、LSTM、GRU及双向LSTM
RNN(Recurrent Neural Networks,循环神经网络)是一种具有短期记忆能力的神经网络模型,可以处理任意长度的序列,在自然语言处理中的应用非常广泛,比如机器翻译.文本生成.问答系统 ...
RNN和LSTM
一.RNN 全称为Recurrent Neural Network,意为循环神经网络,用于处理序列数据. 序列数据是指在不同时间点上收集到的数据,反映了某一事物.现象等随时间的变化状态或程度.即数据之 ...
浅谈RNN、LSTM + Kreas实现及应用
本文主要针对RNN与LSTM的结构及其原理进行详细的介绍,了解什么是RNN,RNN的1对N.N对1的结构,什么是LSTM,以及LSTM中的三门(input.ouput.forget),后续将利用深度学 ...
3. RNN神经网络-LSTM模型结构
1. RNN神经网络模型原理 2. RNN神经网络模型的不同结构 3. RNN神经网络-LSTM模型结构 1. 前言之前我们对RNN模型做了总结.由于RNN也有梯度消失的问题,因此很难处理长序列的数 ...
RNN以及LSTM的介绍和公式梳理
前言好久没用正儿八经地写博客了,csdn居然也有了markdown的编辑器了,最近花了不少时间看RNN以及LSTM的论文,在组内『夜校』分享过了,再在这里总结一下发出来吧,按照我讲解的思路,理解RN ...
深度学习：浅谈RNN、LSTM+Kreas实现与应用
主要针对RNN与LSTM的结构及其原理进行详细的介绍,了解什么是RNN,RNN的1对N.N对1的结构,什么是LSTM,以及LSTM中的三门(input.ouput.forget),后续将利用深度学习框 ...
利用RNN（lstm）生成文本【转】
本文转载自:https://www.jianshu.com/p/1a4f7f5b05ae 致谢以及参考最近在做序列化标注项目,试着理解rnn的设计结构以及tensorflow中的具体实现方法.在知乎 ...
Naive RNN vs LSTM vs GRU、attention基础
原文地址:https://www.jianshu.com/p/b8653f8b5b2b 一.Recurrent Neural Network 二.Naive RNN Naive RNN更新参数时易出现 ...

随机推荐

6.1-uC/OS-III软件定时器
1.软件定时器是 uC/OS 操作系统的一个内核对象,软件定时器是基于时钟节拍和系统管理创建的软件性定时器,理论上可以创建无限多个,但精准度肯定比硬件定时稍逊一筹. 2.软件定时器启动之后是由软件定时 ...
dyld_shared_cache_extract_dylibs failed
文章来源:https://www.jianshu.com/p/e276a784fbee s.png 数据线插上手机 Xcode->window 3.png 2.png 点击Unpai ...
[js]js中类的继承
凡事总有个开端,也有个tag节点(里程碑).阶段性的划分总结,是一种对精神的慰藉,否则精神就像野马一样,会放弃,会累死. 继承: 子类原型指向父类一个实例类的继承-模拟系统类 Object -> ...
python使用grpc调用rpc接口
proto文件: syntax = "proto3"; package coupon; // //message UnsetUseC2URequest { // int64 bid ...
leaflet实用插件整理
leaflet实用插件整理: https://www.giserdqy.com/webgis/leaflet/4920/leaflet%E5%AE%9E%E7%94%A8%E6%8F%92%E4%BB ...
PowerDesigner导出pdm设计为Word文档
点击Report->Reports 点击New Report 选择Standard Physical Report,语言选择简体中文,如下图此时目录下就会多一个Report 右窗口: 根据自己 ...
我设计的电脑usb红外遥控键盘原理图
我设计的电脑usb红外遥控键盘,orcad原理图备份如下:
融云开发漫谈：你是否了解Go语言并发编程的第一要义？
2007年诞生的Go语言,凭借其近C的执行性能和近解析型语言的开发效率,以及近乎完美的编译速度,席卷全球.Go语言相关书籍也如雨后春笋般涌现,前不久,一本名为<Go语言并发之道>的书籍被翻 ...
GoldenGate抽取Informix数据库安装及配置
GoldenGate抽取Informix数据库安装及配置本次测试架构 l 在中间机上安装informix csdk4.10版本,并编译配置unixODBC; l 在中间机上安装ogg for I ...
“Nested exception: 前言中不允许有内容"错误处理
最近在做一个小项目,使用org.dom4j.DocumentHelper.parseText方法时一直报错”Nested exception: 前言中不允许有内容",这个parseText解 ...

从rnn到lstm，再到seq2seq（二）

从rnn到lstm，再到seq2seq（二）的更多相关文章

随机推荐

热门专题