seq2seq

seq2seq:

seq2seq就是将输入序列经过encoder-decoder变成目标序列。

如图所示，输入序列是 [A, B, C, <EOS>]，输出序列是 [W, X, Y, Z, <EOS>]

encoder-decoder:

主要过程就是用RNN对输入序列进行编码，然后再用RNN对上下文向量进行解码。

实现方式：

1、tf.nn.dynamic_rnn

参考：https://github.com/ematvey/tensorflow-seq2seq-tutorials/blob/master/1-seq2seq.ipynb

流程：

输入序列： [A,B,C,EOS]，其中A，B，C, EOS都要进行embedding，encoder部分的代码如下所示：

encoder_cell = tf.contrib.rnn.LSTMCell(encoder_hidden_units)

encoder_outputs, encoder_final_state = tf.nn.dynamic_rnn(

    encoder_cell, encoder_inputs_embedded,

    dtype=tf.float32, time_major=True,

)

　encoder_outputs是一个时间步的输出，这个在decoder中用不到。encoder_final_stata是最后一层的输出结果，encoder_final_state是一个二元组，(整体的记忆c，隐藏层状态h)，然后用encoder_final_state来初始化decoder的状态，而decoder的输入序列为 [EOS, A, B, C]，因为dynamic_rnn不能根据上一步的输出来作为当前的输入，所以对于输入来说是固定，而非动态变化的。

decoder_cell = tf.contrib.rnn.LSTMCell(decoder_hidden_units)

decoder_outputs, decoder_final_state = tf.nn.dynamic_rnn(

    decoder_cell, decoder_inputs_embedded,

    initial_state=encoder_final_state,

    dtype=tf.float32, time_major=True, scope="plain_decoder",

)

2、tf.nn.raw_rnn

这种方法不像dynamic_rnn那样固定，它比较灵活，可以通过迭代函数改变每一个时间步的输入状态、输入。

offical document

tf.nn.raw_rnn(

    cell, //基础神经元

    loop_fn, //迭代函数，每次的状态与输入都可以在这里定义

    parallel_iterations=None,

    swap_memory=False,

    scope=None

)
输出：
(emit_ta, final_state, final_loop_state)，其中emit_ta是TensorArray类型，其实就是每一个时间步输出的tensor的数组，final_state最后的状态，final_loop_state这个好像是None，不知道啥作用

实现步骤

整体：

decoder_outputs_ta, decoder_final_state, _ = tf.nn.raw_rnn(decoder_cell, loop_fn) //decoder_cell是基础神经单元，loop_fn是迭代函数

迭代函数：

//迭代函数包含time, previous_output, previous_state, previous_loop_state(这个相当于LSTM中那个全局的记忆）
def loop_fn(time, previous_output, previous_state, previous_loop_state):

    if previous_state is None:    # time == 0， 初始化

        assert previous_output is None and previous_state is None

        return loop_fn_initial()

    else:

        return loop_fn_transition(time, previous_output, previous_state, previous_loop_state) //在上一个时间步结束后，即将进入当前时间步时会执行该函数，目的就是确定要将哪些内容传给下一步作为状态输入和输入向量

初始化函数：

def loop_fn_initial():

    initial_elements_finished = (0 >= decoder_lengths)  # all False at the initial step

    initial_input = eos_step_embedded #第一步的输入是EOS

    initial_cell_state = encoder_final_state #状态输入就是encoder的最终输出状态，包括(c,h)

    initial_cell_output = None

    initial_loop_state = None  # we don't need to pass any additional information

    return (initial_elements_finished,

            initial_input,

            initial_cell_state,

            initial_cell_output,

            initial_loop_state)

迭代函数：

def loop_fn_transition(time, previous_output, previous_state, previous_loop_state):

    #如何获取上一步的输出
     yhat = softmax(previous_output * W + b)
     然后概率最大的那个yhat即为上一步的输出结果，并对这个结果进行embedding,作为下一步的输入

    def get_next_input():

        output_logits = tf.add(tf.matmul(previous_output, W), b)

        prediction = tf.argmax(output_logits, axis=)

        next_input = tf.nn.embedding_lookup(embeddings, prediction)

        return next_input


    #判断是否停止，常数 >= tensor向量，tensor中每个位置都要和常数进行比较，结果是一个布尔型的tensor向量

    elements_finished = (time >= decoder_lengths) # this operation produces boolean tensor of [batch_size]

                                                  # defining if corresponding sequence has ended

    #因为这是一个batch块，所以该batch完成的标志是 所有的item都finish，所以需要reduce_all

    finished = tf.reduce_all(elements_finished) # -> boolean scalar
    #当前步的输入 = 上一步的输出（get_next_input)
    #tf.cond(条件，True时调用的函数, False时调用的函数)

    input = tf.cond(finished, lambda: pad_step_embedded, get_next_input)

    state = previous_state #状态不用改变直接传过去

    output = previous_output #previous_output也不用变，好像这个output是一个TensorArray吧？

    loop_state = None

    return (elements_finished,

            input,

            state,

            output,

            loop_state)

调用过程：

decoder_outputs_ta, decoder_final_state, _ = tf.nn.raw_rnn(decoder_cell, loop_fn)

　这样就实现了将上一步decoder出来的结果作为下一步的输入，真正实现上图中的过程。

待补充Attention机制

参考：

https://github.com/ematvey/tensorflow-seq2seq-tutorials

https://hanxiao.github.io/2017/08/16/Why-I-use-raw-rnn-Instead-of-dynamic-rnn-in-Tensorflow-So-Should-You-0/

seq2seq的更多相关文章

DL4NLP —— seq2seq+attention机制的应用：文档自动摘要（Automatic Text Summarization）
两周以前读了些文档自动摘要的论文,并针对其中两篇( [2] 和 [3] )做了presentation.下面把相关内容简单整理一下. 文本自动摘要(Automatic Text Summarizati ...
深度学习之seq2seq模型以及Attention机制
RNN,LSTM,seq2seq等模型广泛用于自然语言处理以及回归预测,本期详解seq2seq模型以及attention机制的原理以及在回归预测方向的运用. 1. seq2seq模型介绍 seq2se ...
深度学习之 seq2seq 进行英文到法文的翻译
深度学习之 seq2seq 进行英文到法文的翻译 import os import torch import random source_path = "data/small_vocab_ ...
ChatGirl 一个基于 TensorFlow Seq2Seq 模型的聊天机器人[中文文档]
ChatGirl 一个基于 TensorFlow Seq2Seq 模型的聊天机器人[中文文档] 简介简单地说就是该有的都有了,但是总体跑起来效果还不好. 还在开发中,它工作的效果还不好.但是你可以直 ...
ChatGirl is an AI ChatBot based on TensorFlow Seq2Seq Model
Introduction [Under developing,it is not working well yet.But you can just train,and run it.] ChatGi ...
tf.contrib.seq2seq.sequence_loss example:seqence loss 实例代码
#!/usr/bin/env python # -*- coding: utf-8 -*- import tensorflow as tf import numpy as np params=np.r ...
深度学习之注意力机制（Attention Mechanism）和Seq2Seq
这篇文章整理有关注意力机制(Attention Mechanism )的知识,主要涉及以下几点内容: 1.注意力机制是为了解决什么问题而提出来的? 2.软性注意力机制的数学原理: 3.软性注意力机制. ...
Pytorch系列教程-使用Seq2Seq网络和注意力机制进行机器翻译
前言本系列教程为pytorch官网文档翻译.本文对应官网地址:https://pytorch.org/tutorials/intermediate/seq2seq_translation_tutor ...
[转] 图解Seq2Seq模型、RNN结构、Encoder-Decoder模型到 Attention
from : https://caicai.science/2018/10/06/attention%E6%80%BB%E8%A7%88/ 一.Seq2Seq 模型 1. 简介 Sequence-to ...

随机推荐

Dynamics 365-关于Solution的那些事(一)
关于CRM Solution,我准备写两到三篇的博客来做下介绍:包括一些基本信息,超大solution,还有增量更新solution操作等. CRM中的component,都是放在一个名叫Soluti ...
Snapde和Excel、PowerPivot、WPS打开超大CSV文件性能比较
Snapde,一个专门为编辑超大型数据量CSV文件而设计的单机版电子表格软件:它运行的速度非常快,反应非常灵敏. 我们拿四份文件进行测试,对比一下他们打开大文件的性能:loan_theme_ids.c ...
一起学Android之ToggleButton和Switch
本文以一个简单的小例子,简述在Android开发中ToggleButton(开关按钮)和Switch(开关)的简单使用,仅供学习分享使用. 概述 ToggleButton是一个有两种状态(checke ...
章节十、5-CSS---用CSS 通配符定位元素
以下演示操作以该网址中的输入框为例:https://learn.letskodeit.com/p/practice 一.css样式中有三种通配符“^.$.*” 语法:tag[attribute< ...
Surging微服务的注意事项
做个记录 1.Service的方法必须是异步方法这个是同事发现的,非异步方法Swagger会用不了 2.仓储层不能用接口这个是自己做的,根据同事的例子,本来好好的,想着在仓储层给加个接口,然后用接 ...
「技巧」如何快速安装 Sketch 插件
Sketch拥有强大丰富的插件,但是这些插件天各一方,四处查找下载地址非常麻烦.这里提供一个技巧,通过一个入口可以安装各种插件,基本涵盖了市面上所有靠谱的插件. 准备 Sketch54 Runner ...
28 Python初学（事件驱动模型）
参考文章地址:http://www.cnblogs.com/yuanchenqi/articles/5722574.html 两个步骤: recvfrom 系统调用 : 拷贝数据从kernel到数据 ...
遍历一个List的几种方法
方式1.一开始是这样的: public static void test1(List<String> list) { for (int i = 0; i < list.size(); ...
openstack第五章：cinder
第五篇cinder— 存储服务一.cinder 介绍: 理解 Block Storage 操作系统获得存储空间的方式一般有两种: 通过某种协议(SAS,SCSI,SAN,iSCSI 等)挂接 ...
关于map的初级应用
map实际采用了红黑树的实现,在此,我们先不讨论map的底层实现结构原理,先来看看map究竟是怎么用,以及我是怎么看待map的. 先上代码: #include <map> #include ...

seq2seq

seq2seq的更多相关文章

随机推荐

热门专题