论文选读一: Towards end-to-end reinforcement learning of dialogue agents for information access

Vpegasus 2024-08-29 18:28:47 原文

Towards end-to-end reinforcement learning of dialogue agents for information access

KB-InfoBot

与知识库交互的多轮对话模型，放弃符号式的查询语句，转而在知识库上使用soft后验分布来寻找概率最大的信息。

知识库

知识库的数据是常见的（实体关系 head, relation,tail）三元组，本文将其做了一步转化，将三元组数据库转化成表格形式：行为实体(head)的属性(tail)，列为关系(relation)（这里假定各个关系之间相互独立）。并且假定，其中有些数值遗失。(如下图，为电影数据的转化，其中X表示缺失数据) （另外，在测试阶段，不会测试新的实体）

soft-KB 查找

所谓每个实体的概率，即为基于在t时刻之前的所有用户输入，每个实体被提到的条件概率。相较于符号式的查询（hard-KB lookup)，它可以学习到更好的策略，也可以end2end训练。

总览

Belief Trackers

infoBot 有 M个 belief trackers （每个slot（每类关系）对应一个belief tracker)，belief tracker 将user 输入作为input, 输出（belief state)：一个分布（所有可能的slot值），一个概率（用户是否知道此slot的值）. 因为输出的size过大，为提高效率，这里做了一个summary（应用entropy)。

Dialogue policy

本文使用两种策略，一种是规则式的，另一种则应用神经网络。

Training

训练时，因为强化学习收敛较慢，特别是在随机初始化时，所以最初，本文先用模仿学习（imitation learning),即，开始时，belief tracker与policy network模仿规则agent。

论文选读一: Towards end-to-end reinforcement learning of dialogue agents for information access的更多相关文章

Deep Reinforcement Learning for Dialogue Generation 论文阅读
本文来自李纪为博士的论文 Deep Reinforcement Learning for Dialogue Generation. 1,概述当前在闲聊机器人中的主要技术框架都是seq2seq模型.但 ...
论文笔记系列-Neural Architecture Search With Reinforcement Learning
摘要神经网络在多个领域都取得了不错的成绩,但是神经网络的合理设计却是比较困难的.在本篇论文中,作者使用递归网络去省城神经网络的模型描述,并且使用增强学习训练RNN,以使得生成得到的模型在验证集上 ...
[转]Introduction to Learning to Trade with Reinforcement Learning
Introduction to Learning to Trade with Reinforcement Learning http://www.wildml.com/2018/02/introduc ...
Introduction to Learning to Trade with Reinforcement Learning
http://www.wildml.com/2015/12/implementing-a-cnn-for-text-classification-in-tensorflow/ The academic ...
论文选读二：Multi-Passage Machine Reading Comprehension with Cross-Passage Answer Veriﬁcation
论文选读二:Multi-Passage Machine Reading Comprehension with Cross-Passage Answer Veriﬁcation 目前,阅读理解通常会给出 ...
temporal credit assignment in reinforcement learning 【强化学习经典论文】
Sutton 出版论文的主页: http://incompleteideas.net/publications.html Phd 论文: temporal credit assignment i ...
论文笔记之：Action-Decision Networks for Visual Tracking with Deep Reinforcement Learning
论文笔记之:Action-Decision Networks for Visual Tracking with Deep Reinforcement Learning 2017-06-06 21: ...
Deep Reinforcement Learning for Visual Object Tracking in Videos 论文笔记
Deep Reinforcement Learning for Visual Object Tracking in Videos 论文笔记 arXiv 摘要:本文提出了一种 DRL 算法进行单目标跟踪 ...
论文翻译--StarCraft Micromanagement with Reinforcement Learning and Curriculum Transfer Learning
(缺少一些公式的图或者效果图,评论区有惊喜) (个人学习这篇论文时进行的翻译[谷歌翻译,你懂的],如有侵权等,请告知) StarCraft Micromanagement with Reinforce ...

随机推荐

Log4j2 HelloWorld
Log4j2 使用教程 Log4j2 的好处就不在这里一一列举了,如果你搜了2,说明你对它一定有兴趣,并且想了解它,使用它. 一.下载log4j2 ,基本上你只需要导入下面两个jar包即可: log4 ...
python 类的属性__slots__ （了解一点点）
当一个类需要创建大量实例时,可以通过__slots__声明实例所需要的属性, 优点: 1)更快的属性访问速度 2)减少内存消耗 3)限定一个类创建的实例只能有固定的实例属性(实例变量),不允许对象添加 ...
shell脚本的一些常用操作
字符串长度: ${#string}可获取string字符串的长度,如下: jenkins@soft1pc:~$ str="who are you"jenkins@soft1pc:~ ...
vue实现验证码倒计时60秒的具体代码
vue实现验证码倒计时60秒的具体代码 <span v-show="show" @click="getCode">获取验证码</span> ...
IP通信基础学习第九周
H3C单臂路由: 交换机的所有接口是在同一个广播域用vlan进行隔离广播域创建vlan,display可查看是否创建成功进入接口是Interface,配置接口Port 先测试相同的vlan ,可 ...
qemu中的内存管理
qemu负责模拟虚机的外设,因此虚机的线性地址空间主要由qemu进行管理,也就是确定线性地址空间中哪段地址属于哪个设备或者DRAM或者其他的什么. 1.数据结构 1.RAMBLOCK (最直接接触ho ...
CCF CSP 201812-1 小明上学
题目链接:http://118.190.20.162/view.page?gpid=T80 问题描述试题编号: 201812-1 试题名称: 小明上学时间限制: 1.0s 内存限制: 512.0M ...
python源码为何都是pass
最近看Python代码按照一个函数递进的看下去,最后发现,遇到很多源码什么逻辑都没写,仅仅以一个pass 结尾但却能得到应该得到的结果,这点真的很奇怪,上网查找后觉得下面的 ...
JS动态添加行列
<%@ Page Language="C#" AutoEventWireup="true" CodeFile="Add-Delete Row.a ...
用JavaScript写一个简单的计算器
本文使用js实现了一个简单的加.减.乘.除计算器. 以下是css部分代码: *{ padding:0; margin:0; color: #424242; } .outer{ width:300px; ...