智能客服、智能家居、智能助手、智能车机、智能政务……赋予产品智能对话能力是提升产品智能化体验、高效服务的重要手段,已经开始被越来越多的企业关注并布局。然而,智能对话系统搭建涉及NLP、知识图谱、语音等一系列技术以及业务知识数据,具有较高的门槛。

百度与IDC联合调研报告显示,“企业知识库累积不够”“项目投入成本过高””专业人才缺少”等,位列企业在推进对话系统中的首要障碍。百度大脑智能对话系统定制平台UNIT3.0,发布从搭建技能、构建知识、整合语音与知识的全链路对话系统搭建技术能力,大幅降低了对话系统的定制成本。

对话式文档问答,上传文档一键获取对话能力

针对处理常见业务问题咨询的问答技能,UNIT3.0推出了文档问答能力,开发者无需梳理意图、词槽,无需进行问题和答案的整理,只需准备文本格式的业务文档,通过平台上传,即可一键获取基于文档的对话技能。

【对话式文档问答技术】

对话式文档问答技能,可以对传统需要人工抽取FAQ或意图的业务文档进行自动学习,通过搜索与语义理解技术,构建了用户输入的问题与业务文档之间的桥梁,使得用户的问题可以由技能自动找到文档中的对应答案片段,使用端到端的多文档阅读理解模型V-NET和自然语言生成技术,技能得以返回更为精准的答案。整个问答技能的构建对开发者来说没有任何技术门槛,且对话式文档问答技能具有自主学习能力,可持续优化,大大提高问答系统的开发人效。

【如何体验对话式文档问答】

开发者登录UNIT平台,进入“创新技术”区,点击“对话式文档问答“即可申请体验。

语音语义一体化方案,更强理解与容错、低集成成本、短响应时延

在电话客服场景里,时常会出现用户沉默、打断和噪声混入等情况,机器人在应对这些异常情况的时候,需要语音和语义理解技术进行处理,才能实现用户和机器人的流畅交谈。为此,UNIT带来了全新的语音语义一体化解决方案,帮助企业解决语音交互过程中的难题。整个方案包含以下内容:

(1)降低集成开发成本

提供语音识别、语义理解、对话流程控制、知识库、语音合成的打通方案,全双工对话能力,一体化的部署方案,省去开发者对各环节自行调用、拼装的学习成本以及二次开发成本。

(2)标准协议快速接入

提供基于unimrcp框架开发的mrcpserver服务接入包,通过标准协议适配不同呼叫中心设备(主流的freeswitch、avaya、及基于mrcp标准协议自主研发的呼叫中心设备)。

(3)场景定制服务提升效果

方案中自带基于百度大脑呼叫中心下的通用ASR、语义纠错,打断策略,TTS模型,也可以基于开发者的业务场景,提供模型定制训练服务,定向提升业务准确率。

(4)极少量开发,轻松实现对话流程

提供Taskflow配置管理能力,开发者可在梳理业务流程后,通过少量代码快速配置对应的对话流程,后续可直接零代码在UNIT平台上进行拖拽式配置。

【如何获取语音语义一体化能力】

开发者可以进入UNIT官网——解决方案——语音语义一体化方案页面,了解技术详情并体验真实对话样例。https://ai.baidu.com/unit/v2/static/voice

体验真实对话样例

数据生产工具DataKit,大幅提升样本生产和标注效率

在智能对话项目搭建的过程中,高效筛选、处理对话日志并将其转化为新的训练数据,是对话系统效果持续提升的重要环节,也是当前开发者面临的难题之一。为此UNIT推出学习反馈闭环机制,提供数据获取、辅助标注工具DataKit,帮助企业提升数据处理效率。

DataKit是面向开发者提供的数据生产工具集,利用交互式学习、规则样本生成和多模型一致性检验等技术方法自动获取大量数据,并从中筛选出带标注、半标注和无标注3类样本,这些样本经过高效的预处理后形成新的训练数据,可进一步提升语义解析效果,有效提升对话系统的优化人效。

DataKit背后的技术】

1. 交互式学习技术

交互学习是以用户交互行为数据为基础,积累交互样本,解决系统效果瓶颈的迭代优化辅助方案。交互学习主要包含话术干预技术和异常样本发现技术。

2. 规则样本生成技术

在UNIT平台上开发者可以方便地配置模板得到语义解析结果,实现语义解析的快速冷启动。在模板配置达到比较好的语义解析效果时,利用规则样本生成技术,产生带标注的样本集合进行深度训练,更进一步提升语义解析效果,有效降低人力投入。

3. 多模型一致性检验技术

多模型一致性检验是日志挖掘的一种有效方法,检验UNIT上多个解析模型的结果,假设多个模型的解析结果越一致,其解析正确率越高。其中,具有高正确率的样本可以直接作为训练正例,解析为负例的样本可以直接作为负例,当前没有解析结果的样本可以进一步进行人工校验,不断优化解析效果。

【如何使用DataKit】

周期性的在UNIT平台下载生产环境的日志,利用Python脚本挖掘日志,对挖掘出来对话样本文件进行处理。对于正例样本,可以直接导入对话技能的样本集里作为训练数据;负例样本,可简单审阅后在对话技能的训练数据中创建一个单独的负例样本集,导入该文件,作为负例训练数据,在下次训练时选择使用;而对于无结果样本,应该识别却没有识别的,筛选出来导入样本集进行人工标注。那些不应该识别的样本,则导入负例样本集。

知识图谱与对话,助力梳理复杂图谱知识

越来越多的企业想要在电商客服、法律顾问等领域做一套包含行业知识的智能对话系统,而行业或领域知识的积累、构建、抽取等工作对于企业来说是个不小的难题,百度大脑UNIT3.0推出「我的知识」版块专门为开发者提供知识建设帮助。在行业智能化的实现进程中,通过知识图谱对数据进行提炼、萃取、关联、整合,形成行业知识或领域知识,让机器形成对于行业工作的认知能力,并把这些认知能力与技能理解模型进行整合,从而实现这个行业的知识型对话系统。

人机对话流程中涉及的语言理解、对话决策、信息查询、语言组织等重要环节,都需要语言知识、世界知识以及必要的领域知识的指导。其中,知识图谱(Knowledge Graph,KG)是应用最为广泛的知识表示形式之一。知识图谱以图谱的形式描述真实世界的实体及其内在关系,用模式定义可能的类和实体关系,允许任意实体彼此潜在相互关联,并涵盖各种主题领域。

在UNIT平台中,知识图谱的具体应用可划分为三种模式:

1) 第一种模式对应问答型对话系统,该类对话系统将知识图谱视为答案信息来源,通过对话理解将用户问题转化为对知识图谱的查询,直接得到用户问题的答案。

2) 第二种模式将知识图谱视为用于对话理解的知识源,借助知识图谱中元素的属性及关系,为用户话语和对话上下文的语义理解提供辅助。

3) 第三种模式对应主动对话场景,借助知识图谱中概念、属性 和关系之间的关联,通过话题推荐等策略实现对话过程的主动引导。

【知识图谱技术】

UNIT-我的知识整体组成如下:

平台:UNIT为托管知识图谱提供了的整套平台化支持。

算法:提供了图谱生产和应用环节的一套丰富的高质量算法。

架构:包含图谱生产架构,图谱存储架构,图谱算法架构,图谱应用架构。

知识图谱的核心技术包括知识表示、知识抽取、知识消岐与融合、知识存储。UNIT平台上“我的知识-图谱/问答知识库”部分为开发者提供了知识挖掘与管理工具。这些积累的知识可用于提高模型理解能力、完善对话管理能力、实现对话系统的知识建设闭环。

对话流管理工具Taskflow,灵活定制复杂任务的对话流程

Taskflow是UNIT推出的新一代对话管理技术,开发者可通过简洁直观的图形化配置(后续版本升级提供,目前是通过配置文件完成配置),高效定制属于自己的对话管理能力。开发者可以使用Taskflow实现一个对话场景下复杂的流程性对话的任务设计,比如咖啡店的订咖啡、航空公司的订票退票、保险公司的车险报案等,在这些对话流程中可以实现不同对话意图中关键信息的灵活收集,也可以实现多个意图之间的跳转,以及对话过程中一个意图被打断后的对话恢复等。

Taskflow技术】

在Taskflow中,UNIT提供执行条件判断、对话状态跟踪、应答动作及话术生成等一系列基础能力单元,开发者只需根据自身需求进行灵活组装,即可实现对话管理能力。对于复杂对话逻辑需求也可以借助Taskflow的云端编程能力在较低成本下实现。同时Taskflow中还提供资源调用能力,一键接入领域资源,让对话链路更加完整。UNIT平台当前开放配置接口,开发者直接使用流程图来描述对话逻辑,并将流程图配置输入Taskflow执行,大大提高对话逻辑的实现效率。

嵌入式对话理解技术,提供定制化离在线融合框架

在AIoT领域中,大多场景都要求终端具备本地自主决断及响应能力,每个设备端都需要具备不依赖云端的独立计算能力,完成智能对话的本地解析,实现端计算,让设备无论在什么网络环境下都能够响应用户对话。针对这种场景的痛点,UNIT 3.0推出嵌入式对话理解技术,结合语音的本地识别能力,可以实现本地化不联网的语义识别,再结合云端的AI,让本地和云端有效配合,以满足用户随时随地的对话需求。

在线服务具备更好的对话理解与满足,离线能力保证设备在各种环境下的核心智能交互稳定性;UNIT3.0提供了离在线融合的对话理解框架,开发者可以根据自身的业务情况,灵活选择离线与在线能力。

除此之外,UNIT3.0也从技能管理、对话管理、知识接入三个纬度进一步升级了技能与知识管理能力,帮助开发者整合对话、问答技能,接入知识,通过单一接口一站式满足复杂的对话系统研发。技能管理实现多技能顺序可调,并共享全局记忆;对话管理方面具有在线与离线可编程对话管理框架,可适应多样化的业务场景;知识接入方面具备图谱知识库、关系数据库,基于HTTP服务知识信息的全面支持接入。

百度大脑智能对话引擎一直致力于为企业和个人开发者提供专业、灵活、低成本的对话定制能力,打造能力最全、规模最大的对话系统定制平台,与用户的累计交互次数超过1380亿次。未来,百度也将持续发力智能对话,拥抱开放,让开发者平等、便捷地获取更低成本、更好效果的智能对话技术。

相关文章阅读:

百度大脑UNIT3.0解读之对话式文档问答——上传文档获取对话能力

百度大脑UNIT3.0详解之语音语义一体化方案

百度大脑UNIT3.0详解之数据生产工具DataKit

百度大脑UNIT3.0详解之知识图谱与对话

百度大脑UNIT3.0详解之嵌入式对话理解技术

百度大脑UNIT3.0智能对话技术全面解析的更多相关文章

  1. 百度大脑UNIT3.0详解之嵌入式对话理解技术

    相信很多人都体验过手机没有网时的焦虑,没有网什么也做不了.而机器人也会遇到这样的时刻,没有网或者网络环境不好的情况下,无法识别用户在说什么,也无法回复用户.在AIoT(AI+物联网)飞速普及的现在,智 ...

  2. 百度大脑UNIT3.0详解之知识图谱与对话

    如今,越来越多的企业想要在电商客服.法律顾问等领域做一套包含行业知识的智能对话系统,而行业或领域知识的积累.构建.抽取等工作对于企业来说是个不小的难题,百度大脑UNIT3.0推出「我的知识」版块专门为 ...

  3. 百度大脑UNIT3.0解读之对话式文档问答——上传文档获取对话能力

    在日常生活中,用户会经常碰到很多复杂的规章制度.规则条款.比如:乘坐飞机时,能不能带宠物上飞机,3岁小朋友是否需要买票等.在工作中,也会面对公司多样的规定制度和报销政策.比如:商业保险理赔需要什么材料 ...

  4. 百度大脑UNIT3.0详解之数据生产工具DataKit

    在智能对话项目搭建的过程中,高效筛选.处理对话日志并将其转化为新的训练数据,是对话系统效果持续提升的重要环节,也是当前开发者面临的难题之一.为此百度大脑UNIT推出学习反馈闭环机制,提供数据获取.辅助 ...

  5. 百度大脑UNIT3.0详解之语音语义一体化方案

    在电话客服场景里,用户和机器人交流的过程中,经常会出现沉默.打断机器人.噪声等情况,机器人在应对这些异常情况的时候,需要语音和语义理解技术进行处理,才能实现用户和机器人的流畅交谈.而这些能力的获取与应 ...

  6. 发布AI芯片昆仑和百度大脑3.0、L4自动驾驶巴士量产下线,这是百度All in AI一年后的最新答卷...

    机器之心报道,作者:李泽南. 去年的 7 月 5 日,百度在北京国际会议中心开办了首届「AI 开发者大会」.在会上,百度首次喊出了「All in AI」的口号.一年的时间过去了,今天在同样地点举行的第 ...

  7. 百度大脑IOCR财会票据识别技术接入小程序,快速实现财会票据识别

    本文主要介绍iOCR财会票据识别的小程序功能实现. 想了解微信小程序的开发过程,请参看我之前的帖子:<UNIT接入小程序>https://ai.baidu.com/forum/topic/ ...

  8. AI+教育落地,百度大脑如何让校园更智能?

    人工智能作为影响社会底层技术革命逐渐向传统行业渗透,“AI+”已经替代“互联网+”成为创业创新的新引擎,出人意料的是,在AI在教育业的率先落地并且相当火爆. 现在,人工智能教育已成为从业者心目中的“教 ...

  9. 全面解析百度大脑发布“AI开发者‘战疫’守护计划”

    即日起,百度大脑发布“AI开发者战疫守护计划” 大疫当前,人人有责,携手开发者共同出击抗击疫情 基于百度大脑AI开放平台和飞桨深度学习平台,积极运用算法.算力.软件等“武器”助力抗疫!   谁能参与计 ...

随机推荐

  1. win到linux的编码问题

    从windows到linux的文件可能存在编码问题时,这是因为,Linux和Windows文本文件的行结束标志不同.在Linux中,文本文件用"\n"表示回车换行,而Windows ...

  2. SpringMVC配置了拦截器(interceptors)却显示不出css、js样式的解决办法

    首先因为在web.xml里面配置了 <filter-mapping> <filter-name>characterEncodingFilter</filter-name& ...

  3. 数据降维-PCA主成分分析

    1.什么是PCA? PCA(Principal Component Analysis),即主成分分析方法,是一种使用最广泛的数据降维算法.PCA的主要思想是将n维特征映射到k维上,这k维是全新的正交特 ...

  4. 聚类-DBSCAN基于密度的空间聚类

    1.DBSCAN介绍 DBSCAN(Density-Based Spatial Clustering of Applications with Noise,具有噪声的基于密度的聚类方法)是一种基于密度 ...

  5. 【Android - IPC】之Messenger简介

    参考资料: 1.<Android开发艺术探索>第二章2.4.3 2.[Messenger完全解析] 1.Messenger概述 Messenger,译为“信使”,是Android中一种基于 ...

  6. polygon()函数

    polygon():draw the polygons where vertices are given in x and y. polygon(x,y=NULL,density=NULL,angle ...

  7. C语言I作业11

    C语言 博客作业11 问题 回答 C语言程序设计II 博客作业11 这个作业要求在哪里 作业要求 我在这个课程的目标是 理解和弄懂局部变量和全局变量,静态变量和动态变量 这个作业在哪个具体方面帮助我实 ...

  8. 八大机器学习框架对比及Tensorflow的优势

    八大机器学习框架的对比: (1)  TensorFlow:深度学习最流行的库之一,是谷歌在深刻总结了其 前身 DistBelief 的经验教训上形成的:它不仅便携.高效.可扩 展,还能再不同计算机上运 ...

  9. Block循环引用问题

    根控制器没办法销毁,除非程序退出 从一个控制器跳到另外一个控制器,调用该控制器的pop方法才会销毁该控制器 self是一个强指针 在block中使用self时要注意循环引用的问题 最好将当前block ...

  10. for循环使用element的折叠面板遇到的问题-3

    需求:for循环渲染上去的表单怎么使用element的表单校验 之前做这个的时候,死活绑不上去,不知道哪里出了问题,后来解决办法是prop要注意用拼接,使它和索引的变量一致 <el-form-i ...