seq2seq（1）- EncoderDecoder架构

零

seq2seq是从序列到序列的学习过程，最重要的是输入序列和输出序列是可变长的，这种方式就非常灵活了，典型的机器翻译就是这样一个过程。

一

最基本的seq2seq网络架构如下所示：

可以看到，encoder构成一个RNN的网络，decoder也是一个RNN的网络。训练过程和推断过程有一些不太一样的地方，介绍如下。

训练过程：

encoder构成一个RNN网络，输入为源语言的文本，输出最后一个timestep的hidden state，同时不需要output，将最后一个hidden state作为decoder的初始化state；
decoder也构成一个RNN网络，输入为目标语言的文本，这个地方要注意的是输入需要往后lag一个位置，输出就是正常的目标语言文本即可，选用categorical cross entropy进行多分类训练。

# input sentence

How are you

# output sentence

I am fine

# encoder input

["How", "are", "you"]

# decoder input

["<start tag>", "I", "am", "fine"]

# decoder target

["I", "am", "fine", "<end tag>"]

推断过程：

推断过程只有encoder input了，所以有个greedy/sampling/beam-search等decoding的方法，下面讨论最简单的greedy方法。

将源语言的输入经过encoder编码成最后timestep的hidden state；
目标语言的输入设定成一个单词<start tag>，喂给decoder，产出一个目标单词；
将上一步的目标的单词作为目标语言新的输入，继续2的步骤，直到遇到<end tag>，或者产生的预测sequence长度超过阈值。

二

以上就是最基本的seq2seq架构，优点就是简单，缺点也很明显，我们人类一般翻译文本的时候，目标语言单词往往只和源语言文本其中有限一两个单词有关，而上面的做法，将源语言文本编码成一个固定长度的hidden state，导致decoder过程中每个单词都是受固定state的影响，而没有差异化和重点，由此下一篇会介绍seq2seq优化的比较重要的一个机制 - Attention Mechanism。

seq2seq（1）- EncoderDecoder架构的更多相关文章

6. 从Encoder-Decoder(Seq2Seq)理解Attention的本质
1. 语言模型 2. Attention Is All You Need(Transformer)算法原理解析 3. ELMo算法原理解析 4. OpenAI GPT算法原理解析 5. BERT算法原 ...
深度学习的seq2seq模型——本质是LSTM，训练过程是使得所有样本的p(y1,...,yT‘|x1,...,xT)概率之和最大
from:https://baijiahao.baidu.com/s?id=1584177164196579663&wfr=spider&for=pc seq2seq模型是以编码(En ...
RNN/LSTM/GRU/seq2seq公式推导
概括:RNN 适用于处理序列数据用于预测,但却受到短时记忆的制约.LSTM 和 GRU 采用门结构来克服短时记忆的影响.门结构可以调节流经序列链的信息流.LSTM 和 GRU 被广泛地应用到语音识别. ...
seq2seq和attention应用到文档自动摘要
一.摘要种类抽取式摘要直接从原文中抽取一些句子组成摘要.本质上就是个排序问题,给每个句子打分,将高分句子摘出来,再做一些去冗余(方法是MMR)等.这种方式应用最广泛,因为比较简单.经典方法有Lex ...
seq2seq模型以及其tensorflow的简化代码实现
本文内容: 什么是seq2seq模型 Encoder-Decoder结构常用的四种结构带attention的seq2seq 模型的输出 seq2seq简单序列生成实现代码一.什么是seq2seq ...
NMT 机器翻译
本文近期学习NMT相关知识,学习大佬资料,汇总便于后期复习用,有问题,欢迎斧正. 目录 RNN Seq2Seq Attention Seq2Seq + Attention Transformer Tr ...
TACOTRON:端到端的语音合成
tacotron主要是将文本转化为语音,采用的结构为基于encoder-decoder的Seq2Seq的结构.其中还引入了注意机制(attention mechanism).在对模型的结构进行介绍之前 ...
CNN卷积神经网络的改进（15年最新paper）
回归正题,今天要跟大家分享的是一些 Convolutional Neural Networks(CNN)的工作. 大家都知道,CNN 最早提出时,是以一定的人眼生理结构为基础,然后逐渐定下来了一些经典 ...
Google工程师亲授 Tensorflow2.0－入门到进阶
第1章 Tensorfow简介与环境搭建本门课程的入门章节,简要介绍了tensorflow是什么,详细介绍了Tensorflow历史版本变迁以及tensorflow的架构和强大特性.并在Tensor ...

随机推荐

nginx中查看关于php的配置和php-fpm的重启等操作
1.查看当前使用的php的配置信息在php项目的根目录下新建findini.php文件,内容如下: <?php phpinfo(); ?> 然后在页面上访问就可以看到如下页面: 搜索Lo ...
Linux的gnu c下itoa的代替函数用sprintf（转载）
转自:http://www.linuxidc.com/Linux/2011-01/31600.htm int number = 12345; char string[25]; // itoa(numb ...
bzoj 1017: [JSOI2008]魔兽地图DotR【树形dp+背包】
bzoj上是一个森林啊--? dp还是太弱了设f[i][j][k]为到点i,合成j个i并且花费k金币能获得的最大力量值,a[i]为数量上限,b[i]为价格,p[i]为装备力量值其实这个状态设计出来 ...
（10）用css建立表单
1.用css建立表单本篇资料主要介绍使用css设置表单元素的方法. 表单是网页与用户交互所不可缺少的元素,表单是网页的访问者进行交互的接口,例如大家都常遇到的:网上注册.网上登录.网上交易.网上投票 ...
【API】反转输入字符（Java）
请求输入字符, 输出反转. import java.util.Scanner; public class T01 { public static void main(String[] args) { ...
【SQL】从待选项中随机选一个
由于SQL Server没有数组类型,所以在面对“从若干待选项中选一个”这种需求时,往往要采取变通办法,比如弄个‘a|b|c’这样的字符串然后对字符串进行处理:又或者把待选项塞进一个临时表,然后把问题 ...
Redis操作命令大全
一.key pattern 查询相应的key (1)redis允许模糊查询key 有3个通配符 *.?.[] (2)randomkey:返回随机key (3)type key:返回key存储的类型 ...
docker 端口被占用问题解决
启动容器A, A的端口映射是 80:8080 外部的25000端口映射到服务内部的8080端口:有时候将容器关闭,重新构建镜像及启动容器时会出现一些报错, 比如端口被占用的报错,但通过docker p ...
A - Add More Zero
Bryce1010模板 #include <bits/stdc++.h> using namespace std; #define LL long long int main() { in ...
Fools and Roads CodeForces - 191C
Fools and Roads CodeForces - 191C 题意:给出一棵n个节点的树,还有树上的k条简单路径(用路径的两个端点u和v表示),对于树上每一条边,求出其被多少条简单路径经过. 方 ...

seq2seq（1）- EncoderDecoder架构

零

一

二

seq2seq（1）- EncoderDecoder架构的更多相关文章

随机推荐

热门专题