【论文随笔】会话推荐系统综述(A Survey on Conversational Recommender Systems)

前言

今天读的论文为一篇于2021年5月发表在《ACM计算机调查》(ACM Computing Surveys)的论文，文章提供了对话式推荐系统（CRS）的全面综述，探讨了CRS的定义、概念架构、交互方式、知识元素、计算任务以及评估方法。文章还讨论了CRS在不同应用环境中的实现，如智能家居助手和聊天机器人，并指出了未来研究的方向，包括交互模式的优化、非标准环境下的应用挑战、对话理论的应用以及端到端学习方法的有效性。

《ACM Computing Surveys》（ACM计算机调查），这是一个由美国计算机协会（Association for Computing Machinery, ACM）出版的学术期刊。《ACM Computing Surveys》专注于计算机科学和相关领域的综述文章，旨在为读者提供对特定主题的全面和深入的理解。这个期刊涵盖了计算机科学的各个分支，包括但不限于算法、软件工程、人工智能、网络、数据库、操作系统、理论计算机科学等。

《ACM Computing Surveys》通常发表长篇综述文章，这些文章由领域内的专家撰写，旨在总结和分析某一领域的最新研究成果、技术进展、挑战和未来方向。这些综述对于研究人员、学者和专业人士来说是宝贵的资源，因为它们提供了对复杂主题的清晰概述，有助于指导未来的研究工作。

该期刊以其高质量的内容和对学术界的贡献而受到尊重，是计算机科学领域内公认的权威出版物之一。在学术界，发表在《ACM Computing Surveys》上的文章通常被视为对该领域有重要影响的工作。

要引用这篇论文，请使用以下格式：

[1]Jannach, Dietmar, et al. "A survey on conversational recommender systems." ACM Computing Surveys (CSUR) 54.5 (2021): 1-36.

摘要

本文提供了对话式推荐系统（CRS）的详细调查。CRS是一种软件应用，旨在通过多轮对话帮助用户在信息过载的情况下找到感兴趣的项目。与基于过去观察到的行为来估计用户偏好的一次性交互范式不同，CRS支持更丰富的交互集，例如改善偏好获取过程或允许用户询问关于推荐的问题并提供反馈。近年来，由于自然语言处理领域的显著进展、新型语音控制家庭助手的出现以及聊天机器人技术的增加使用，对CRS的兴趣显著增加。本文详细分类了现有的对话式推荐方法，并讨论了技术方法、CRS的评估方式，并最终确定了未来研究值得关注的一些空白领域。

引言

推荐系统是人工智能在实践中最显著的成功案例之一。这些系统的主要任务通常是引导用户找到潜在感兴趣的项目，例如在电子商务网站的背景下。通过这种方式，它们不仅帮助用户应对信息过载的情况，而且可以显著促进服务提供商的商业成功。在许多这些实际应用中，推荐是一个一次性的交互过程。通常，底层系统会随着时间的推移监控用户的行为，然后在预定义的导航情境下（例如，当用户登录服务时）呈现一组定制的推荐。尽管这种方法在各个领域都很常见且有用，但它可能存在一些潜在的局限性。例如，在一些应用场景中，用户的偏好无法可靠地从他们过去的互动中估计出来。这在高参与度产品（例如，推荐智能手机）的情况下尤其常见，我们甚至可能完全没有过去的观察数据。此外，推荐集合中包含的内容高度依赖于上下文，可能很难自动确定用户当前的情况或需求。最后，另一个假设通常是用户在到达网站时已经知道自己的偏好。然而，这并不一定是真的。用户可能在决策过程中（例如，当他们意识到选项空间时）构建他们的偏好。在某些情况下，他们可能在与推荐系统的互动过程中才了解领域和可用选项。尽管存在这些潜在的局限性，但对话式推荐系统（CRS）的承诺是它们可以帮助解决许多这些挑战。这些系统的一般想法是，它们支持与用户的任务导向、多轮对话。在这样的对话中，系统可以引出用户的详细和当前偏好，为项目建议提供解释，或处理用户对所做建议的反馈。鉴于这些系统的显著潜力，CRS的研究已经有了一些传统。早在20世纪70年代末，Rich就设想了一个计算机化的图书管理员，通过用自然语言向用户提出关于他们个性和偏好的问题，为用户提供阅读建议。除了基于自然语言处理（NLP）的界面，多年来还提出了各种形式的用户界面。基于这些界面的CRS早期交互方法之一是批评法，这种方法早在1982年就被提出作为数据库领域查询重构的手段。在批评法中，用户在对话中很快就会得到一个推荐，然后可以对推荐应用预定义的批评，例如“less$$”。基于形式的界面通常具有吸引力，因为用户可用的操作是预先定义和明确的。然而，这样的对话也可能显得不自然，用户可能会感到在表达偏好的方式上受到限制。另一方面，基于NLP的方法长期以来一直受到现有限制的困扰，例如在处理语音命令的背景下。然而，近年来，语言技术取得了重大进展。因此，我们现在习惯于向我们的智能手机和数字家庭助手发出语音命令，这些设备已经达到了令人印象深刻的识别准确度。与此同时，我们观察到近年来聊天机器人技术得到了快速采纳。无论是简单的还是更复杂的聊天机器人，通常都能够处理自然语言，并现在广泛用于各种应用领域，例如处理客户服务请求。这些技术进步导致了近年来对CRS的兴趣增加。然而，与许多早期方法不同，我们观察到今天的技术提案更常基于机器学习技术，而不是遵循预定义的对话路径。然而，今天的语音助手和聊天机器人的能力与支持真正对话式推荐场景所需的能力之间仍然存在差距，特别是当系统是语音控制的时候。在本文中，我们将从CRS的典型概念架构的共同构建块的角度回顾CRS的文献。具体来说，在第2节中提供了CRS的定义和概念架构后，我们将讨论（i）CRS的交互方式（第3节），（ii）它们所依赖的知识和数据（第4节），以及（iii）典型CRS中必须完成的计算任务（第5节）。之后，我们将讨论CRS的评估方法（第6节），并最终展望未来的发展方向。

引言部分强调了推荐系统在实际应用中的成功，特别是在信息过载时为用户提供帮助。它指出了传统推荐系统的局限性，并介绍了对话式推荐系统（CRS）作为一种新的解决方案，它通过多轮对话来更好地理解用户偏好并提供个性化推荐。此外，引言提到了自然语言处理技术的进步和语音助手的普及，这些技术的发展为CRS的研究和应用提供了新的机会。最后，引言部分预告了文章将对CRS的定义、架构、交互方式、知识元素、计算任务和评估方法进行全面的综述。

引言部分的要点提取：

推荐系统的作用：

推荐系统的主要任务是向用户推荐可能感兴趣的项目，这在用户面对大量信息时尤其有用，如在电子商务网站上帮助用户找到他们可能想要购买的商品。
传统推荐系统的局限性：

传统的推荐系统通常依赖于用户的历史行为数据来预测其偏好。然而，这种方法在处理高参与度产品（如智能手机推荐）时可能不准确，因为对于这类产品，用户可能没有足够的历史购买数据供系统分析。
用户偏好的动态性：

用户的偏好可能不是静态的，而是在决策过程中不断发展和变化的。在与推荐系统的互动中，用户可能会意识到新的选项，从而调整或形成他们的偏好。
对话式推荐系统（CRS）：

CRS通过与用户进行多轮对话来更好地理解用户的需求和偏好。这种交互方式允许系统在对话过程中收集更详细的用户反馈，从而提供更个性化的推荐。
自然语言处理（NLP）的进步：

NLP技术的进步，特别是在语音识别和理解方面，使得用户能够通过自然语言与推荐系统进行交互。这种技术的发展为CRS提供了更自然、更直观的用户界面。
语音助手和聊天机器人的普及：

随着智能手机和智能家居设备中语音助手的普及，用户越来越习惯于使用语音命令与设备交互。这种趋势为CRS的发展提供了新的用户交互模式，使得CRS能够更好地融入用户的日常生活。
CRS的研究传统：

文章提到了早期关于计算机化图书管理员的研究，这种系统通过自然语言与用户交流，提供阅读建议。这表明CRS的概念早在几十年前就已经存在，并随着技术的发展而逐渐成熟。
CRS的评估和未来研究方向：

文章将详细讨论CRS的评估方法，包括如何衡量CRS在支持用户决策过程中的有效性和效率。同时，文章也将探讨未来研究的方向，特别是在如何改进用户与CRS的对话体验方面。

定义和研究方法论

在本节中，我们讨论了与我们工作相关的预备知识。首先，我们提供了CRS的一般特征和概念模型。其次，我们讨论了我们的研究方法论。

对话式推荐系统的特征

文献中并没有一个广泛接受的CRS定义。在这项工作中，我们使用以下定义：

定义2.1（对话式推荐系统 - CRS）。CRS是一个软件系统，通过多轮对话支持其用户实现与推荐相关的目标。

CRS的一个基本特征是它们的任务导向性，即它们支持与推荐相关的特定任务和目标。系统的主要任务是为用户提供推荐，目标是支持用户的决策过程或帮助他们找到相关信息。CRS的其他任务包括获取用户偏好或提供解释。这种特定的任务导向性使CRS与其他基于对话的系统（如早期的ELIZA系统或类似的聊天机器人系统）有所区别。根据我们的定义，CRS的另一个主要特征是存在多轮对话交互。这与仅支持问答（Q&A）工具的系统形成对比。提供一次性Q&A风格的推荐是像苹果的Siri这样的个人数字助手的常见功能。尽管这些系统今天可以可靠地响应推荐请求，例如推荐餐厅，但它们通常在维持多轮对话方面遇到困难。因此，CRS明确或隐式地实现了某种形式的对话状态管理，以跟踪对话历史和当前状态。请注意，我们的定义没有对输入和输出的模态做出任何假设。CRS可以是语音控制的，接受打字文本，或通过表单字段、按钮甚至手势获取输入。同样，输出也不受限，可以是语音、语音、文本或多媒体内容。通常，对话的驱动者也没有假设。一般来说，对话式推荐与对话式搜索有许多相似之处。在底层任务方面，搜索和推荐有一个共同点，即主要任务是根据它们的假设相关性对对象进行排名，无论是对于给定的查询（搜索）还是用户的偏好（推荐）。此外，在对话部分，这两种类型的系统都必须解释用户的言语并消除用户意图的歧义，如果支持自然语言交互的话。然而，在对话式搜索系统中，通常假设交互是基于“书面或口头形式”的，而在我们对CRS的定义中，各种类型的输入模态都是可能的。总的来说，个性化对话式搜索和推荐系统之间的界限往往显得模糊，特别是因为通常应用类似的技术方法。在这项调查中，我们仅限于那些明确提到推荐作为其目标问题的工作。

CRS的概念架构

在过去二十年中，提出了许多构建CRS的技术方法。这些解决方案的技术架构的具体细节取决于系统的功能，即是否支持语音输入。尽管如此，可以识别出这些架构的典型互操作概念组件，如图1所示。

计算元素。这样一个架构的中心部分通常是对话管理系统（在某些系统中也称为“状态跟踪器”或类似名称）。这个组件驱动流程。它接收处理过的输入，例如识别的意图、实体和偏好，并相应地更新对话状态和用户模型。之后，使用推荐和推理引擎以及背景知识，它确定下一个动作，并返回适当的内容，如推荐列表、解释或问题，到输出生成组件。用户建模系统可以是它自己的一个组件，特别是当需要考虑长期用户偏好时，或者不是。在某些情况下，当前的偏好配置文件隐含地是对话系统的一部分。推荐和推理引擎负责在给定当前对话状态和偏好模型的情况下检索一组推荐。这个组件也可能实现其他复杂的推理功能，例如生成解释或计算查询放松（见后文）。除了这些中心组件外，典型的CRS架构还包括用于输入和输出处理的模块。例如，这可能包括语音转文本转换和语音生成。在输入方面——特别是在自然语言输入的情况下——通常还支持其他任务，包括意图检测和命名实体识别，以识别用户在他们的言语中的意图和实体（例如，项目的属性）。

知识元素。CRS使用各种类型的知识。项目数据库几乎是所有解决方案中都存在的，代表可推荐项目的集合，有时包括有关其属性的详细信息。此外，CRS通常利用不同类型的领域和背景知识。许多方法明确地以不同方式编码对话知识，例如，以预定义的对话状态、支持的用户意图和状态之间可能的转换的形式。这些知识可以是通用的，也可以特定于某个领域。此外，这些知识可以由系统设计者编码，也可以从其他来源或先前的交互中自动学习。学习方法的一个典型例子是使用机器学习从记录的对话语料库中构建统计模型。一般来说，领域和背景知识可以被所有计算元素使用。输入处理可能需要有关实体的信息，以便识别或有关预定义意图的知识。用户建模组件可能基于对某些项目特征的估计兴趣权重构建，推理引擎可能使用明确的推理知识来推导出合适的推荐集。

研究方法：确定相关工作

我们遵循半系统化的方法来确定相关工作。首先，我们使用预定义的搜索字符串（如“对话式推荐系统”、“交互式推荐”、“咨询系统”或“聊天机器人推荐器”）查询了几个数字图书馆。然后，根据标题和摘要手动检查返回的论文的相关性。被认为相关的论文被详细阅读，如果认为在本文范围内，就用作滚雪球程序的起点。总的来说，论文选择过程发现了121篇关于CRS的论文，我们在这项工作中考虑了这些论文。

以下是这一部分的要点：

CRS定义为支持多轮对话以实现推荐相关目标的软件系统。
CRS具有任务导向性，旨在支持特定任务和目标，如提供推荐和获取用户偏好。
CRS的架构包括对话管理系统、用户建模系统、推荐和推理引擎等核心组件。
CRS使用各种知识元素，包括项目数据库、领域和背景知识，这些知识可以是预先定义的或通过机器学习自动学习的。
研究方法包括使用半系统化方法确定相关文献，并排除不符合CRS定义的论文。

总结

这篇文章是关于对话式推荐系统（Conversational Recommender Systems, CRS）的综述，由Dietmar Jannach、Ahtsham Manzoor、Wanling Cai和Li Chen共同撰写。文章首先介绍了推荐系统在信息过载情况下帮助用户找到感兴趣物品的重要性，并指出当前研究通常假设用户偏好是基于过去观察到的行为来估计的，而对话式推荐系统（CRS）采取了不同的方法，支持更丰富的交互方式，如通过多轮对话来改善用户偏好的获取过程，允许用户对推荐进行提问和反馈。文章接着详细分类和讨论了现有的CRS方法，包括用户意图、背景知识等不同维度，并探讨了技术方法、CRS的评估方式，最后指出了未来研究的几个潜在方向。文章还讨论了CRS的定义、概念架构、交互模式、知识元素、计算任务以及评估方法，并对CRS的未来发展方向进行了展望。

写在结尾

好了，今天的论文就读到这了，明天见！

2024-02-24 10:53:42 星期六