seq2seq聊天模型（二）——Scheduled Sampling

使用典型seq2seq模型，得到的结果欠佳，怎么解决

结果欠佳原因在这里

在训练阶段的decoder，是将目标样本["吃","兰州","拉面"]作为输入下一个预测分词的输入。
而在预测阶段的decoder,是将上一个预测结果，作为下一个预测值的输入。（注意查看预测多的箭头）

这个差异导致了问题的产生，训练和预测的情景不同。

在预测的时候，如果上一个词语预测错误，还后面全部都会跟着错误，蝴蝶效应。

解决办法-Scheduled Sampling

修改训练时decoder的模型

基础模型只会使用真实lable数据作为输入，现在，train-decoder不再一直都是真实的lable数据作为下一个时刻的输入。

train-decoder时以一个概率P选择模型自身的输出作为下一个预测的输入,以1-p选择真实标记作为下一个预测的输入。

Secheduled sampling(计划采样)，即采样率P在训练的过程中是变化的。

一开始训练不充分，先让P小一些，尽量使用真实的label作为输入，随着训练的进行，将P增大，多采用自身的输出作为下一个预测的输入。

随着训练的进行，P越来越大大，train-decoder模型最终变来和inference-decoder预测模型一样，消除了train-decoder与inference-decoder之间的差异

总之：

通过这个scheduled-samping方案，抹平了训练decoder和预测decoder之间的差异！让预测结果和训练时的结果一样。

tensorflow

tensoflow已经完成了这个模型，直接调用，设定参数可以使用



training_helper = tf.contrib.seq2seq.ScheduledEmbeddingTrainingHelper(

                    inputs=dec_emb_inputs,

                    sequence_length=self.dec_sequence_length + 2,

                    embedding=self.dec_Wemb,

                    sampling_probability=self.sampling_probability,

                    time_major=False,

                    name='training_helper')

self.sampling_probability = tf.placeholder(

                tf.float32,

                shape=[],

                name='sampling_probability')     

# 下面这个时feed_dic

# 随着epoch的增大，sampling_probability_list逐渐变为1，即全部采用自身输出作为下个输入，

sampling_probability_list = np.linspace(

        start=0.0,

        stop=1.0,

        num=n_epoch,

        dtype=np.float32)

实际结果

效果很好

seq2seq聊天模型（二）——Scheduled Sampling的更多相关文章

seq2seq聊天模型(一)
原创文章,转载请注明出处最近完成了sqe2seq聊天模型,磕磕碰碰的遇到不少问题,最终总算是做出来了,并符合自己的预期结果. 本文目的利用流程图,从理论方面,回顾,总结seq2seq模型, seq ...
seq2seq聊天模型（三）—— attention 模型
注意力seq2seq模型大部分的seq2seq模型,对所有的输入,一视同仁,同等处理. 但实际上,输出是由输入的各个重点部分产生的. 比如: (举例使用,实际比重不是这样) 对于输出"晚上 ...
深度学习教程 | Seq2Seq序列模型和注意力机制
作者:韩信子@ShowMeAI 教程地址:http://www.showmeai.tech/tutorials/35 本文地址:http://www.showmeai.tech/article-det ...
django模型二
django模型二常用模型字段类型 IntegerField → int CharField → varchar TextField → longtext DateFiel ...
pytorch做seq2seq注意力模型的翻译
以下是对pytorch 1.0版本的seq2seq+注意力模型做法语--英语翻译的理解(这个代码在pytorch0.4上也可以正常跑): # -*- coding: utf-8 -*- " ...
socket实现聊天功能(二)
socket实现聊天功能(二) WebSocket协议是建立在HTTP协议之上,因此创建websocket服务时需要调用http模块的createServer方法.将生成的server作为参数传入so ...
[Beego模型] 二、CRUD 操作
[Beego模型] 一.ORM 使用方法 [Beego模型] 二.CRUD 操作 [Beego模型] 三.高级查询 [Beego模型] 四.使用SQL语句进行查询 [Beego模型] 五.构造查询 [ ...
{django模型层(二)多表操作}一创建模型二添加表记录三基于对象的跨表查询四基于双下划线的跨表查询五聚合查询、分组查询、F查询和Q查询
Django基础五之django模型层(二)多表操作本节目录一创建模型二添加表记录三基于对象的跨表查询四基于双下划线的跨表查询五聚合查询.分组查询.F查询和Q查询六 xxx 七 ...
{03--CSS布局设置} 盒模型二 padding bode margin 标准文档流块级元素和行内元素浮动 margin的用法文本属性和字体属性超链接导航栏 background 定位 z-index
03--CSS布局设置本节目录一盒模型二 padding(内边距) 三 boder(边框) 四简单认识一下margin(外边距) 五标准文档流六块级元素和行内元素七浮动八 mar ...

随机推荐

css border 三角形阴影(不规则图形阴影) & 多重边框的制作
前言:这是笔者学习之后自己的理解与整理.如果有错误或者疑问的地方,请大家指正,我会持续更新! border 的组合写法 border:border-width border-style border- ...
hdu 6182
A Math Problem Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Others)To ...
（八）Redis之持久化之AOF方式
一.概念 AOF方式:将以日志,记录每一个操作优势:安全性相对RDB方式高很多: 劣势:效率相对RDB方式低很多: 二.案例 appendonly no默认关闭aof方式我们修改成yes 就开启 ...
关于hashcode 和 equals 的内容总结
第一:equals() 的作用是表示其他对象是否“等于”这个对象. 在Object源码里面 equals的作用等价于 == 即用来比较俩个对象的内存地址是否相同 public boole ...
MQTTnet 3.0.5学习笔记
段时间在使用MQTTnet,都说这个东西比较好,可是翻了翻网上没有例子给参考一下. 今天算是找到了,给高手的帖子做个宣传吧. 原网址如下:https://blog.csdn.net/chenlu520 ...
.net core 依赖注入在特性中的应用
.net core 依赖注入在特性中的应用,不知道怎么用属性注入,那么在特性中的构造函数里,怎么用接口的方法呢? 来一个简单的例子: 主要思路是把ServiceProvider 静态全局化: publ ...
java 框架-消息队列ActiveMQ
https://www.jianshu.com/p/ecdc6eab554c ActiveMQ从入门到精通(一) 22017.03.11 21:40:42字数 2650阅读 57286 这是关于消息中 ...
使用vue国际化中出现内置的组件无法切换语言的问题(element-ui、ivew)
在main.js中引入对应组件的语言包 eg: import VueI18n from 'vue-i18n'; // 引入国际化 import elementEn from 'element-ui/l ...
SmartBinding实现DataSet与ListView的绑定及同步显示
kbmMW 5.10.10发布了,这个版本解决了我提出的问题,当对DataSet增删记录时,ListView能够同步显示.下面看看具体的实现代码. 为了解决上面的问题,作者为IkbmMWBinding ...
css border-raidus 百分比和数值设置效果不同
1.水平方向和竖直方向半径相等:设置数值和百分比的效果是一样的: 2.水平方向和竖直方向半径不相同:则效果不一致,具体参见:http://www.zhangxinxu.com/wordpress/20 ...