seq2seq:

seq2seq就是将输入序列经过encoder-decoder变成目标序列。

如图所示,输入序列是 [A, B, C, <EOS>],输出序列是  [W, X, Y, Z, <EOS>]

encoder-decoder:

主要过程就是用RNN对输入序列进行编码,然后再用RNN对上下文向量进行解码。

实现方式:

1、tf.nn.dynamic_rnn

    参考:https://github.com/ematvey/tensorflow-seq2seq-tutorials/blob/master/1-seq2seq.ipynb

流程:

输入序列: [A,B,C,EOS],其中A,B,C, EOS都要进行embedding,encoder部分的代码如下所示:

encoder_cell = tf.contrib.rnn.LSTMCell(encoder_hidden_units)

encoder_outputs, encoder_final_state = tf.nn.dynamic_rnn(
encoder_cell, encoder_inputs_embedded,
dtype=tf.float32, time_major=True,
)

 encoder_outputs是一个时间步的输出,这个在decoder中用不到。encoder_final_stata是最后一层的输出结果,encoder_final_state是一个二元组,(整体的记忆c,隐藏层状态h),然后用encoder_final_state来初始化decoder的状态,而decoder的输入序列为 [EOS, A, B, C],因为dynamic_rnn不能根据上一步的输出来作为当前的输入,所以对于输入来说是固定,而非动态变化的。

decoder_cell = tf.contrib.rnn.LSTMCell(decoder_hidden_units)

decoder_outputs, decoder_final_state = tf.nn.dynamic_rnn(
decoder_cell, decoder_inputs_embedded, initial_state=encoder_final_state, dtype=tf.float32, time_major=True, scope="plain_decoder",
)

2、tf.nn.raw_rnn

这种方法不像dynamic_rnn那样固定,它比较灵活,可以通过迭代函数改变每一个时间步的 输入状态、输入。

offical document

tf.nn.raw_rnn(
cell, //基础神经元
loop_fn, //迭代函数,每次的状态与输入都可以在这里定义
parallel_iterations=None,
swap_memory=False,
scope=None
)
输出:
(emit_ta, final_state, final_loop_state),其中emit_ta是TensorArray类型,其实就是每一个时间步输出的tensor的数组,final_state最后的状态,final_loop_state这个好像是None,不知道啥作用

实现步骤

整体:

decoder_outputs_ta, decoder_final_state, _ = tf.nn.raw_rnn(decoder_cell, loop_fn) //decoder_cell是基础神经单元,loop_fn是迭代函数

迭代函数:

//迭代函数包含time, previous_output, previous_state, previous_loop_state(这个相当于LSTM中那个全局的记忆)
def loop_fn(time, previous_output, previous_state, previous_loop_state):
if previous_state is None: # time == 0, 初始化
assert previous_output is None and previous_state is None
return loop_fn_initial()
else:
return loop_fn_transition(time, previous_output, previous_state, previous_loop_state) //在上一个时间步结束后,即将进入当前时间步时会执行该函数,目的就是确定要将哪些内容传给下一步作为状态输入和输入向量

初始化函数:

def loop_fn_initial():
initial_elements_finished = (0 >= decoder_lengths) # all False at the initial step
initial_input = eos_step_embedded #第一步的输入是EOS
initial_cell_state = encoder_final_state #状态输入就是encoder的最终输出状态,包括(c,h)
initial_cell_output = None
initial_loop_state = None # we don't need to pass any additional information
return (initial_elements_finished,
initial_input,
initial_cell_state,
initial_cell_output,
initial_loop_state)

迭代函数:

def loop_fn_transition(time, previous_output, previous_state, previous_loop_state):
#如何获取上一步的输出
yhat = softmax(previous_output * W + b)
然后概率最大的那个yhat即为上一步的输出结果,并对这个结果进行embedding,作为下一步的输入 def get_next_input():
output_logits = tf.add(tf.matmul(previous_output, W), b)
prediction = tf.argmax(output_logits, axis=)
next_input = tf.nn.embedding_lookup(embeddings, prediction)
return next_input

#判断是否停止,常数 >= tensor向量,tensor中每个位置都要和常数进行比较,结果是一个布尔型的tensor向量
elements_finished = (time >= decoder_lengths) # this operation produces boolean tensor of [batch_size]
# defining if corresponding sequence has ended
#因为这是一个batch块,所以该batch完成的标志是 所有的item都finish,所以需要reduce_all
finished = tf.reduce_all(elements_finished) # -> boolean scalar
#当前步的输入 = 上一步的输出(get_next_input)
#tf.cond(条件,True时调用的函数, False时调用的函数)
input = tf.cond(finished, lambda: pad_step_embedded, get_next_input)
state = previous_state #状态不用改变直接传过去
output = previous_output #previous_output也不用变,好像这个output是一个TensorArray吧?
loop_state = None return (elements_finished,
input,
state,
output,
loop_state)

调用过程:

decoder_outputs_ta, decoder_final_state, _ = tf.nn.raw_rnn(decoder_cell, loop_fn)

 这样就实现了将上一步decoder出来的结果作为下一步的输入,真正实现上图中的过程。

待补充Attention机制

参考:

https://github.com/ematvey/tensorflow-seq2seq-tutorials

https://hanxiao.github.io/2017/08/16/Why-I-use-raw-rnn-Instead-of-dynamic-rnn-in-Tensorflow-So-Should-You-0/

seq2seq的更多相关文章

  1. DL4NLP —— seq2seq+attention机制的应用:文档自动摘要(Automatic Text Summarization)

    两周以前读了些文档自动摘要的论文,并针对其中两篇( [2] 和 [3] )做了presentation.下面把相关内容简单整理一下. 文本自动摘要(Automatic Text Summarizati ...

  2. 深度学习之seq2seq模型以及Attention机制

    RNN,LSTM,seq2seq等模型广泛用于自然语言处理以及回归预测,本期详解seq2seq模型以及attention机制的原理以及在回归预测方向的运用. 1. seq2seq模型介绍 seq2se ...

  3. 深度学习之 seq2seq 进行 英文到法文的翻译

    深度学习之 seq2seq 进行 英文到法文的翻译 import os import torch import random source_path = "data/small_vocab_ ...

  4. ChatGirl 一个基于 TensorFlow Seq2Seq 模型的聊天机器人[中文文档]

    ChatGirl 一个基于 TensorFlow Seq2Seq 模型的聊天机器人[中文文档] 简介 简单地说就是该有的都有了,但是总体跑起来效果还不好. 还在开发中,它工作的效果还不好.但是你可以直 ...

  5. ChatGirl is an AI ChatBot based on TensorFlow Seq2Seq Model

    Introduction [Under developing,it is not working well yet.But you can just train,and run it.] ChatGi ...

  6. tf.contrib.seq2seq.sequence_loss example:seqence loss 实例代码

    #!/usr/bin/env python # -*- coding: utf-8 -*- import tensorflow as tf import numpy as np params=np.r ...

  7. 深度学习之注意力机制(Attention Mechanism)和Seq2Seq

    这篇文章整理有关注意力机制(Attention Mechanism )的知识,主要涉及以下几点内容: 1.注意力机制是为了解决什么问题而提出来的? 2.软性注意力机制的数学原理: 3.软性注意力机制. ...

  8. Pytorch系列教程-使用Seq2Seq网络和注意力机制进行机器翻译

    前言 本系列教程为pytorch官网文档翻译.本文对应官网地址:https://pytorch.org/tutorials/intermediate/seq2seq_translation_tutor ...

  9. [转] 图解Seq2Seq模型、RNN结构、Encoder-Decoder模型 到 Attention

    from : https://caicai.science/2018/10/06/attention%E6%80%BB%E8%A7%88/ 一.Seq2Seq 模型 1. 简介 Sequence-to ...

随机推荐

  1. 工具资源系列之给虚拟机装个centos

    前文我们已经讲解了如何在 mac 系统上安装虚拟机软件,这节我们接着讲解如何利用虚拟机安装 centos 镜像. 安装镜像的大致步骤基本相同,只不过是配置项略显不同而已,如果需要安装其他系统镜像,请参 ...

  2. (办公)mysql安装完,只能通过localhost访问,而不能通过本机ip访问.(转)

    GRANT ALL PRIVILEGES ON *.* TO '; 这里面*.*代表是所有库.所有表,root是用户名,%代表所有ip都可访问,也可指定ip访问,例如'root'@'172.17.5. ...

  3. 【English】九、kids/children/toddlers 三个单词的区别

    一.child.kid.toddler 参考:https://www.zybang.com/question/a9150bb1239cf1d667135e9bd8518f75.html child:美 ...

  4. 升级Mac OS X上的git

    今天一打开visual studio code就提示我git版本low,需要升级,然后提供了一个下载链接(git官方下载地址:https://git-scm.com/),然后我就根据链接去下载了mac ...

  5. MongoDB 集合间关联查询后通过$filter进行筛选

    在前面的分享中,有讲解 “详解MongoDB中的多表关联查询($lookup)” 一节,其内容涵盖了常见的集合管理的需求.我们知道文档的选择都是通过$match进行匹配刷选.但这是文档间的匹配筛选,并 ...

  6. 项目案例【Net Core】如何注入多个服务实现类

    需求 库表保存时,需要校验逻辑. 提交时有更深层次校验. **状态,还有特殊校验 接口 写一个通用的校验接口,这里定义了校验时间.每个阶段校验可能需要考虑顺序,增加一个顺序字段. public int ...

  7. python3 re模块正则匹配字符串中的时间信息

    匹配时间: # -*- coding:utf-8 -*- import re def parseDate(l): patternForTime = r'(\d{4}[\D]\d{1,2}[\D]\d{ ...

  8. Jenkins 使用Tfs 插件出现 MappingConflictException 错误问题解决

    FATAL: com.microsoft.tfs.core.clients.versioncontrol.exceptions.MappingConflictException: The path C ...

  9. 解决 WordPress“正在执行例行维护,请一分钟后回来”

    WordPress在升级程序.主题.插件时,都会先切换到维护模式,也就是显示 “正在执行例行维护,请一分钟后回来(Briefly unavailable for scheduled maintenan ...

  10. 基于CAS在.NET中实现SSO单点登录

    单点登录(Single Sign On),简称为 SSO,是目前比较流行的企业业务整合的解决方案之一.SSO的定义是在多个应用系统中,用户只需要登录一次就可以访问所有相互信任的应用系统. 单点登录原理 ...