A Network-based End-to-End Trainable Task-oriented Dialogue System

abstract

让机器去和人类自然的交谈是具有挑战性的。最近的任务型对话系统需要创造几个部分并且通常这需要大量的人工干预，或者需要标注数据去解决各部分训练的问题。在这里我们提出了一种端到端的任务型对话系统，它采取了一种基于管道框架的新颖的收集对话数据的方法。这个方法允许我们轻松实现对话系统而不用过多的人工干预。结果展示模型能够在和人自然交流的同时帮助他们完成餐馆搜索领域的任务。

introduction

构建一个任务型对话系统例如酒店预订或者某种技术支持服务是困难的，因为它属于特定领域应用且对于训练数据的获取也有限制。为了去解决这个问题，近来的针对对话系统设计的机器学习方法将问题转换为一个部分可观马尔科夫决策过程（POMDP），它的目的是通过和真实的使用者进行交互，使用强化学习去训练对话在线决策。然而，语言理解和语言生成模型仍然依赖监督学习并且因此需要语料在其上进行训练。进一步，为了使强化学习（RL）可控，状态和行为空间必须被小心的设计，而这些都会限制模型的表达力和学习能力。而且reward功能也需要被训练，这样的模型很难被设计且很难去测量运行时间。
另一方面来讲，sequence2sequence也促进了可训练、非任务型端到端对话系统构建的研究，这类方案把对话当作从源到目标句子的转换问题，encoder and decoder。他们能够创造高效的聊天机器人但是缺乏支持特殊领域对话的能力，例如和数据库交互和收集有用的信息到他们的对话中。
模型可以端到端的进行训练，但是仍然模块化连接；它没有直接为用户目标建模，但是它仍会通过每一轮的相关的恰当的回复去学习完成被要求的任务；他有用来去达到一个高任务准确率的数据属性的精准表达，但是有一个用户意图的分布式表达去允许模糊的输入；使用delexicalisation和一个权重减少策略去减少训练模型所需的数据，但是仍然会维持一个高自由度使得大量数据成为可获得的。

model

seqence mapping(seqence2seqence) + dialogue history(belief trackers)
在每一轮对话中，

系统接受分词后的用户的话然后把他转换成两种表示，一是由一个意图识别网络生成的分布式表示intent representation，二是一种由belief trackers生成的belief state（槽值对）的概率分布。
之后数据库节点会在belief state中选择最可能的值去形成一个query给DB
数据库搜索结果，意图表示intent representation和belief state被一个policy网络transformer和combine去形成一个简单的向量表示系统的下一步行动action。
system action 之后被用做condition一个回复生成网络，这个网络是生成系统回复骨架
然后，通过将数据库条目的实际值替换到骨架句结构中，形成最终的系统响应。

intent network

encoder：lstm最后的隐藏层输出 + CNN

belief trackers

dialogue state tracking提供任务型对话系统（spoken dialogue system SDS）的核心。最新的dst使用例如RNN的判别系统去直接将Automatic Speech Recognition (ASR)映射到belief state。尽管我们聚焦在文本对话系统，但是我们仍然在我们的系统核心维持状态追踪因为：
它能把一句自然表达转变成固定槽值对表示，进而给DB传query，这可以等同于一个语义分析器
通过状态追踪，避免了从原始输入中学习不必要的复杂的长期依赖
通过使用权重

学姐刚才和我说这是个seq2seq....我觉得我可能误会这个model了....
https://www.eefocus.com/industrial-electronics/367104/p7
https://blog.csdn.net/u014300008/article/details/53212915