原文翻译

导读

  这篇文章的主要工作在于应用了对抗训练(adversarial training)的思路来解决开放式对话生成(open-domain dialogue generation)这样一个无监督的问题。

  其主体思想就是将整体任务划分到两个子系统上,一个是生成器(generative model),利用seq2seq式的模型以上文的句子作为输入,输出对应的对话语句;另一个则是一个判别器(discriminator),用以区分在前文条件下当前的问答是否是和人类行为接近,这里可以近似地看作是一个二分类分类器。两者结合的工作机理也很直观,生成器不断根据前文生成答句,判别器则不断用生成器的生成作为负例,原文的标准回答作为正例来强化分类。在两者训练的过程中,生成器需要不断改良答案来欺骗生成器,判别器则需要不断提高自身的判别能力从而区分机造和人造答案直至最后两者收敛达到某种均衡。

  以往的模型受限于训练目标以及训练方式,其生成的结果往往是迟钝笼统的甚至都很简短(如果可以的话,所有的对话我都可以回答“呵呵”,很明显这样的回答是不符合常识的)。所以这样一种博弈式的训练方式来取代以往相对简单固定的概率似然来优化这样一种无监督的开放任务显然是很有意义的想法。不过这样的方法遇到困难也很明显,GAN和NLP一直八字不合,很难很好的融合。和之前的工作SeqGAN类似,这篇工作也采取了增强学习来规避GAN在NLP中使用的难点,并作出了更多的尝试。

补充知识:

  •   生成器G就是一个seq2seq模型,输入是历史对话x,通过RNN来对语义进行向量表示再逐一生成回答的每个词,从而形成回答y
  •   判别器D是一个输入为历史对话x和回答y二元组的一个二分类器,使用了hierarchicalencoder,其中机造回答组合为负例Q−({x,y}),人造回答组合为正例Q+({x, y})。

主要解决了什么问题:

  以 GAN 为目标,生成自然语言

在本任务中增强学习的一个很大的问题在于我们的估价都是针对一整个回答的,判别器只会给出一个近似于对或者不对的反馈。这样的模式存在一个很大的问题是,即使是很多被判断为有问题的句子,其中有很大一部分语言成分是有效的,如文中的例子“what’s yourname”,人类回答“I am John”,机器回答“I don’t know”。判别器会给出“I don’t know”是有问题的,但无法给出I是对的而后面的don’t know是错的,事实上机器没有回答he/she/you/they而是I本质上是需要一个肯定的正反馈的。

判别器只告诉机器对或错,却不告知哪部分对和哪部分错,这对训练带来了很大隐患。

采用了什么方法:

  把序列评分拆开来算,这样就能算到前缀的评分,做到局部评价的反馈。为了防止训练过拟合,每次只是从正例和负例的子序列中随机选取一个来训练。Reward for EveryGeneration Step

Teacher Forcing模型 :

  在以往的工作中,D效果非常好而G的效果非常糟糕会带来训练效果的下降。试想一下一个G所有产生的答案都被D驳回了,在这段时间内G的所有反馈都是负反馈,G就会迷失从而不知道向什么方向优化会得到正反馈,所以理想的情况下G和D是交替训练上升的。

  在控制D和G训练节奏的同时,这篇工作中又采用了一种类似强制学习的方式来尝试解决这个问题。每次在正常的增加学习后会让生成器强行生成正确答案并从D得到正向的反馈,从而每次都能有一个正向优化方向的指示。这样的行为类似于学校老师强行灌输知识,也很类似于之前的professor-forcing算法。

Policy Gradient Training模型:

  文中模型采用了policy gradient的方法(增强学习的方式之一)来进行增强学习的训练。

  优化目标是:

  

  优化目标导数:

  

  Q是判别器D的结果,换句话说判别器的鉴定结果可以看作是增强学习中的reward,policy gradient整体的优化目标其实就是希望回报高的决策其概率越高。在本任务中state为x,即历史对话;决策为y,即下一步的对话。x生成y的概率等于逐词生成的概率

Reward for EveryGeneration Step模型

    

该问题可以被概括为如下几部分:

  给定一个对话输入序列x,该模型需要生成一个回应y。我们将sentence生成的过程视为一个动作序列(sequence of action),将encoder-decoder模型视为一个策略(policy)。

参考文章

论文泛读·Adversarial Learning for Neural Dialogue Generation的更多相关文章

  1. [论文阅读笔记] Adversarial Learning on Heterogeneous Information Networks

    [论文阅读笔记] Adversarial Learning on Heterogeneous Information Networks 本文结构 解决问题 主要贡献 算法原理 参考文献 (1) 解决问 ...

  2. 论文泛读:Click Fraud Detection: Adversarial Pattern Recognition over 5 Years at Microsoft

    这篇论文非常适合工业界的人(比如我)去读,有很多的借鉴意义. 强烈建议自己去读. title:五年微软经验的点击欺诈检测 摘要:1.微软很厉害.2.本文描述了大规模数据挖掘所面临的独特挑战.解决这一问 ...

  3. 论文泛读 A Novel Ensemble Learning-based Approach for Click Fraud Detection in Mobile Advertising [1/10]

    title:新的基于集成学习的移动广告作弊检测 导语:基于buzzcity数据集,我们提出了对点击欺诈检测是基于一组来自现有属性的新功能的一种新方法.根据所得到的精度.召回率和AUC对所提出的模型进行 ...

  4. NLP论文泛读之《教材在线评论的情感倾向性分析》

    NLP论文泛读之<教材在线评论的情感倾向性分析> 本文借助细粒度情感分类技术, 对从网络上抓取大量计算机专业本科教材的评价文本进行情感极性 分析, 从而辅助商家和出版社改进教材的质量.制定 ...

  5. Deep Reinforcement Learning for Dialogue Generation 论文阅读

    本文来自李纪为博士的论文 Deep Reinforcement Learning for Dialogue Generation. 1,概述 当前在闲聊机器人中的主要技术框架都是seq2seq模型.但 ...

  6. [论文阅读笔记] Adversarial Mutual Information Learning for Network Embedding

    [论文阅读笔记] Adversarial Mutual Information Learning for Network Embedding 本文结构 解决问题 主要贡献 算法原理 实验结果 参考文献 ...

  7. [论文][半监督语义分割]Adversarial Learning for Semi-Supervised Semantic Segmentation

    Adversarial Learning for Semi-Supervised Semantic Segmentation 论文原文 摘要 创新点:我们提出了一种使用对抗网络进行半监督语义分割的方法 ...

  8. 【论文笔记】Learning Convolutional Neural Networks for Graphs

    Learning Convolutional Neural Networks for Graphs 2018-01-17  21:41:57 [Introduction] 这篇 paper 是发表在 ...

  9. 【论文阅读】MEAL: Multi-Model Ensemble via Adversarial Learning

    转载请注明出处:https://www.cnblogs.com/White-xzx/ 原文地址:https://arxiv.org/abs/1812.02425 Github: https://git ...

随机推荐

  1. 数据定义: CREATE、DROP、ALTER

    CREATE DATABASE 句法 CREATE DATABASE [IF NOT EXISTS] db_name 数据库.表.索引.列和别名 中被给出. 如果数据库已经存在,并且你没有指定 IF ...

  2. linux PMBus总线及设备驱动分析

    PMBus协议规范介绍 PMBus是一套对电源进行配置.控制和监控的通讯协议标准.其最新版本为1.3,该规范还在不断演进中,比如新标准中新增的zone PMBus.AVSBus等特性.在其官网上有详细 ...

  3. Centos7数据实时同步

    Rsync+inotify 功能要求 通过rsync+inotify将数据库指定目录实时同步到备份服务器. 环境说明 M:192.168.10.11 数据库服务器 S:192.168.10.13 备份 ...

  4. ConcurrentHashMap源码解析(JDK1.8)

    package java.util.concurrent; import java.io.ObjectStreamField; import java.io.Serializable; import ...

  5. C语言第七次博客作业--一二维数组

    一.PTA实验作业 题目1:找鞍点 1. 本题PTA提交列表 2. 设计思路 定义n,i,j,ii,jj,a[7][7],flag,max 输入n for i=0 to i=n for j=0 to ...

  6. 1-6 hibernate映射集合属性

    1.集合类框架 以Tree开头都是按顺序,默认情况下是升序排列. 以Linked 开头的都是按插入顺序排列的. 2.在hibernate中要持久化集合属性时必须将其声明为接口,如 private Se ...

  7. [HAOI2016] 放棋子及错排问题

    题目 Description 给你一个N*N的矩阵,每行有一个障碍,数据保证任意两个障碍不在同一行,任意两个障碍不在同一列,要求你在这个矩阵上放N枚棋子(障碍的位置不能放棋子),要求你放N个棋子也满足 ...

  8. mongodb的安装和配置

    1.下载安装 wget https://fastdl.mongodb.org/linux/mongodb-linux-x86_64-3.0.6.tgz tar zxf mongodb-linux-x8 ...

  9. 在用jQuery时遇到的小问题

    1. class类名问题? 在我在class ='看看(2)' ,凡是这样的居然给自身加其他style样式,居然添加不上,后来改成其他类名不带括号里的,居然好了. 2. line-height 引入的 ...

  10. linux --> 获取进程执行时间

    获取进程执行时间 一.时间概念 在linux下进行编程时,可能会涉及度量进程的执行时间.linux下进程的时间值分三种: 时钟时间(real time):指进程从开始执行到结束,实际执行的时间. 用户 ...