GAN在seq2seq中的应用 Application to Sequence Generation

Improving Supervised Seq-to-seq Model

有监督的 seq2seq ，比如机器翻译、聊天机器人、语音辨识之类的。

而 generator 其实就是典型的 seq2seq model ，可以把 GAN 应用到这个任务中。

RL(human feedback)

训练目标是，最大化 expected reward。很大的不同是，并没有事先给定的 label，而是人类来判断，生成的 x 好还是不好。

简单介绍一下 policy gradient。更新 encoder 和 generator 的参数来最大化 human 函数的输出。最外层对所有可能的输入 h 求和（weighted sum，因为不同的 h 有不同的采样概率）；对一个给定的 h，对所有的可能的 x 求和（因为同样的 seq 输入可能会产生不一样的 seq 输出）；求和项为 R(h, x)*P_θ (x | h) ，表示给定一个 h 产生 x 的概率以及对应得到的 reward（整项合起来看，就是 reward 的期望）

用 sampling 后求平均来近似求期望：

如果是 positive 的 reward（R(hi, xi) > 0）, 更新 θ 后 P_θ (xi | hi) 会增加；反之会减小（所以最好人类给的 reward 是有正有负的）

整个 implement 的过程就如下图所示，注意每次更新 θ 后，都要重新 sampling

RL 的方法和之前所说的 seq2seq model （based on maximum likelihood）的区别

GAN(discriminator feedback)

不再是人给 feedback，而是 discriminator 给 feedback。

训练流程。训练 D 来分辨 <c, x> pair 到底是来自于 chatbot 还是人类的对话；训练 G 来使得固定的 D 给来自 chatbot 的 (c', x^~) 高分。

仔细想一下，训练 G 的过程中是存在问题的，因为决定 LSTM 在每一个 time step 的 token 的时候实际上做了 sampling (或者取argmax)，所以最后的 discriminator 的输出的梯度传不到 generator（不可微）。

怎么解决？

　　1. Gumbel-softmax https://casmls.github.io/general/2017/02/01/GumbelSoftmax.html

　　首先需要可以采样，使得离散的概率分布有意义而不是只能取 argmax。对于 n 维概率向量 π，其对应的离散随机变量 x_π添加 Gumbel 噪声再采样。

　　x_π = argmax(log(π_i) + G_i)

　　其中，G_i是独立同分布的标准 Gumbel 分布的随机变量，cdf 为 F(x) = exp(-exp(-x))。为了要可微，用 softmax 代替 argmax（因为 argmax 不可微，所以光滑地逼近），G_i可以通过 Gumbel 分布求逆，从均匀分布中生成 G_i = -log(-log(U_i))，U_i ~ U(0, 1)

　　2. Continuous Input for Discriminator

　　避免 sampling 过程，直接把每一个 time step 的 word distribution 当作 discriminator 的输入。

　　这样做有问题吗？明显有，real sentence 的 word distribution 就是每个词 one-hot 的，而 generated sentence 的 word distribution 本质上就不会是 1-of-N，这样 discriminator 很容易就能分辨了，而且判断准则没有在考虑语义了（直接看是不是 one-hot 就行了）。

　　3. Reinforcement Learning

　　把 discriminator 的 output 看作是 reward：

　　　　• Update generator to increase discriminator = to get maximum reward　　　　

　　　　• Using the formulation of policy gradient, replace reward R(c, x) with discriminator output D(c, x)

　　和典型的 RL 不同的是，discriminator 参数是要 update 的，还是要输入给 discriminator 现在 chatbot 产生的对话和人类的对话，训练 discriminator 来分辨。

Unsupervised Seq-to-seq Model

Text Style Transfer

用 cycle GAN 来实现，训练两个 GAN，实现两个 domain 的互相转。仍旧要面对 generator 的输出要 sampling 的情况，选择上述第二种解决方案，就是连续化。直接用 word embedding 的向量。

也可以用映射到 common space 的方法，sampling 后离散化的问题，可以用一个新的技巧解决：把 decoder LSTM 的 hidden layer 当作 discriminator 的输入，就是连续的了。

Unsupervised Abstractive Summarization

Unsupervised Translation

GAN在seq2seq中的应用 Application to Sequence Generation的更多相关文章

spark-sql启动后在监控页面中显示的Application Name为SparkSQL::xxxx的疑问
启动spark-sql执行sql时,在监控页面中看到该Application的Name是SparkSQL:hadoop000(其中hadoop000是测试机器的hostname),就有个想法,修改下该 ...
在 asp.net core 中使用类似 Application 的服务
在 asp.net core 中使用类似 Application 的服务 Intro 在 asp.net 中,我们可以借助 Application 来保存一些服务器端全局变量,比如说服务器端同时在线的 ...
Xcode11 Developer Tool中没了Application Loader
升级Xcode11之后不少人发现在Open Developer Tool中没了Application Loader. 那么如果我们还想用该怎么办呢? 先这样找个老版的Xcode–>Conten ...
在IIS7中使用ARR(Application Request Routing)反向代理虚拟目录到Nodejs站点
目标: 1.访问www.arrdemo.com/proxy 跳转到 localhost:8898的Nodejs站点 2.Nodejs站点的页面可以返回到浏览器,包括js,css,图片 3.Nodejs ...
JavaScript中的Partial Application和Currying
这篇文章是一篇学习笔记,记录我在JS学习中的一个知识点及我对它的理解,知识点和技巧本身并不是我原创的.(引用或参考到的文章来源在文末) 先不解释Partial Application(偏函数应用)和C ...
GAN︱GAN 在 NLP 中的尝试、困境、经验
GAN 自从被提出以来,就广受大家的关注,尤其是在计算机视觉领域引起了很大的反响,但是这么好的理论是否可以成功地被应用到自然语言处理(NLP)任务呢? Ian Goodfellow 博士一年前,网友 ...
『TensorFlow』通过代码理解gan网络_中
『cs231n』通过代码理解gan网络&tensorflow共享变量机制_上上篇是一个尝试生成minist手写体数据的简单GAN网络,之前有介绍过,图片维度是28*28*1,生成器的上采样使 ...
java中session和application的用法
Session的用法首先创建2个jsp文件t1.jsp t2.jsp 在t1.jsp <% //设置session的键与值 session.setAttribute("abc&qu ...
Java中session与application的异同
客户端的session 其实是标记了你的请求来自哪个浏览器问题1:永远都一样吗? 答:重启了浏览器,你的session id就改变了, 结果会导致,再无法取回原来在服务端保存的数据. 问题2:假设客 ...

随机推荐

拿捏了！ConcurrentHashMap！
概述本文将对JDK8中 ConcurrentHashMap 源码进行一定程度的解读.解读主要分为六个部分:主要属性与相关内部类介绍.构造函数.put过程.扩容过程.size过程.get过程.与JDK ...
557反转字符串中的单词III
class Solution: # 定义一个反转字符串的函数. def str_rever(self,s): length = len(s) s1 = '' for index in range(le ...
学完Python，我决定熬夜整理这篇总结
目录了解Python Python基础语法 Python数据结构数值字符串列表元组字典集合 Python控制流 if 判断语句 for 循环语句 while 循环语句 break 和 c ...
分布式事务和分布式hash
分布式事务是什么? 分布式事务就是保证各个微服务之间数据一致,本质上就是保证不同数据库的数据一致性.一致性状态包含强一致性,任何时刻,所有节点中数据都是一样的弱一致性,数据更新后,只能访问到部分节 ...
Azure Blob （三）参数设置说明
一,引言上一篇将 Azure Blob 存储的时候,有使用到一个 .NET Core Web 项目,通过代码的方式进行操作 Azure Blob 的数据,接着上一篇的内容,今天继续看一下代码,具体 ...
15_Python的模块module
1.模块的概述 1.模块是Python程序架构的一个核心概念,每一个以.py结尾的Python源代码文件都是一个模块 2.模块名和标识符的命名规则一样,由数字字母下划线组成且不能以数字开头,也不要和系 ...
String字符串的最大长度是多少？
在学习和开发过程中,我们经常会讨论 short ,int 和 long 这些基本数据类型的取值范围,但是对于 String 类型我们好像很少注意它的"取值范围".那么对于 Stri ...
编写高效优雅Java程序
面向对象 01.构造器参数太多怎么办? 如果参数很多,会导致构造方法非常多,拓展性差,代码难编写,且难以看懂. 用JavaBeans模式, get和set 一行构造编程多行代码实现,需要使用额外机制确 ...
C#编辑GridView的Thead
背景有这样一个需求,需要更改GridView的Thead,即表头.不只是多行表头,而是任意的内容,可能是一段文字,也可能是一个图片,综合网上的一些资料,大致整理出一些做法. 内容大致有两种方法第 ...
oracle之数据限定与排序
数据限定与排序 6.1 简单查询语句执行顺序 from, where, group by, having, order by, select where限定from后面的表或视图,限定的选项只能是表的 ...

GAN在seq2seq中的应用 Application to Sequence Generation

GAN在seq2seq中的应用 Application to Sequence Generation的更多相关文章

随机推荐

热门专题