在日常生活中,用户会经常碰到很多复杂的规章制度、规则条款。比如:乘坐飞机时,能不能带宠物上飞机,3岁小朋友是否需要买票等。在工作中,也会面对公司多样的规定制度和报销政策。比如:商业保险理赔需要什么材料,工作几年可以排队办理?这些情况下,经常需要各种查询确定或者检索规章制度文件或说明,才能回复并解决用户的疑问。基于这类常见的业务场景,百度大脑UNIT3.0正式推出了对话式文档问答能力,更快速、低成本的搭建智能对话系统。

对话式文档问答是UNIT提供的一项创新技术,利用这项创新技术,开发者无需梳理意图、词槽,无需进行问题和答案的整理,只需准备文本格式的业务文档,通过平台上传,即可一键获取基于文档的对话技能。无需智能对话技术基础也可以利用该技术,秒变AI达人。

【对话式文档问答技术解读】

对话式文档问答技能,可以对传统需要人工抽取FAQ或梳理意图的业务文档进行自动学习,通过搜索与语义理解技术,构建了用户输入的问题与业务文档之间的桥梁,使得用户的问题可以由技能自动找到文档中的对应答案片段,使用端到端的多文档阅读理解模型V-NET和自然语言生成技术,技能得以返回更为精准的答案。整个问答技能的构建对开发者来说没有任何技术门槛,且对话式文档问答技能具有自主学习能力,可持续优化,大大提高问答系统的开发人效。

【多粒度语料分析技术】

开发者在上传文档后,可以在平台上进行模型训练,整个训练的过程需要经过以下几部分处理:

1.基础处理:比如编码处理,冗余字符处理,切分完整语义片段,进行词法分析等,让机器人对用户上传的文档有基础了解;

2.获取文档关键信息并完成倒排索引:此过程采用了TF-IDF及TextRank等多种算法综合片段的重要性,并进行打分;

3.构建基于词向量的KNN分类器:基于大规模语料,使用skip-gram模型,训练并得到词向量,并完成构建KNN分类器。

【基于篇章理解的答案定位技术】

训练结束后,开发者就可以直接测试使用了,这个过程如上图所示:

1.首先是对用户的query进行分析及提取关键信息;

2.此后对关键信息进行拓展,构建query中关键信息与文档中关键信息之间的桥梁;

3.在对query有了比较深入的分析后,实时在系统中寻找与问题最相关的候选文档及候选答案,要进行基于各种技术的排序处理;

4.排序后,会生成精准的答复,这里面要拆分单答案及多答案等处理算法及逻辑。

【如何体验对话式文档问答】

开发者需要登录UNIT平台,点击“创新技术”区,进入如下界面,点击“对话式文档问答“即可申请体验。

创新技术区是UNIT将创新技术在业务场景下落地探索的窗口,目前包含对话式文档问答和语义解析离线使用两种创新技术,开发者可以通过在线申请并体验这些新技术,同时更多创新技术敬请期待。

【三步快速创建对话式文档问答对话技能】

点击“对话式文档问答”,进入对话式文档问答的主界面,新用户点击“新建技能”,填写技能信息,即可完成技能的创建。技能创建完成后会出现在“对话式文档问答技能”列表和“我的技能”列表中。创建技能后,只需三步便可获得基于业务文档的对话能力:

第一步:上传业务文档

当前版本的对话式文档问答仅支持两类纯文本文档的上传上传,一类是普通文本文档,一类是梳理过的FAQ文档,如下图所示。

Tips:

1.每种文档类型都可以通过下载示例文档进行内容的替换后再上传;

2.请选择恰当的文档类型后再上传对应的文档,否则会影响模型的效果;

3.每次只能上传一个文档,多个业务文档请分批次上传;

4.FAQ类型的文档请务必按照示例文档的格式整理后再上传;

5.当前版本下每个技能可支持的文档大小的上限是10M,文档数量的上限是99个。

第二步:训练模型

文档上传完成后开始模型训练。训练完成后“训练”按钮会变为“重新训练”,点击“测试”进入测试界面。

Tips:

1.训练过程中不可对文档进行任何编辑,包括删除、上传、下载等;

2.目前的技能是全文档训练,即该技能下的所有文档都会参与模型的训练。

第三步:测试技能

进入“测试”界面可以体验对话。对话有两种形态:一种是直接对话,一种是回复中提供选项,用户可以进行选择,或者直接输入更多信息进行交互,如下图。

【调优模式如何使用】

1.调优模式下会看到一个query的多个候选项答案,并且可以展开每个候选项查看完整的选项内容

2.查看并确定正确选项后,点击单选按钮进行选择,并点击确认后就会保存答案,再次询问该query时,会呈现针对这个问题的答案,如下图:

3.如果对之前选择的答案不满意,可以点击“删除并重新选择”按钮,进行重新选择;点击“删除并重新选择”按钮后,会呈现选择前的选项状态。

4.调优完成后,点击“生效”按钮,调优结果会在模型中生效;之后即可在“测试模式”下体验调优后的对话效果了;如果调优后没有点击“生效”就要离开调优界面,会弹出二次确认,点击“生效”后,调优结果就会生效到模型中。

如有任何关于对话式文档问答的问题,可以请发邮件至unit-innovation@baidu.com与我们沟通交流。

百度大脑UNIT3.0解读之对话式文档问答——上传文档获取对话能力的更多相关文章

  1. 百度大脑UNIT3.0智能对话技术全面解析

    智能客服.智能家居.智能助手.智能车机.智能政务……赋予产品智能对话能力是提升产品智能化体验.高效服务的重要手段,已经开始被越来越多的企业关注并布局.然而,智能对话系统搭建涉及NLP.知识图谱.语音等 ...

  2. 百度大脑UNIT3.0详解之嵌入式对话理解技术

    相信很多人都体验过手机没有网时的焦虑,没有网什么也做不了.而机器人也会遇到这样的时刻,没有网或者网络环境不好的情况下,无法识别用户在说什么,也无法回复用户.在AIoT(AI+物联网)飞速普及的现在,智 ...

  3. 百度大脑UNIT3.0详解之知识图谱与对话

    如今,越来越多的企业想要在电商客服.法律顾问等领域做一套包含行业知识的智能对话系统,而行业或领域知识的积累.构建.抽取等工作对于企业来说是个不小的难题,百度大脑UNIT3.0推出「我的知识」版块专门为 ...

  4. 百度大脑UNIT3.0详解之数据生产工具DataKit

    在智能对话项目搭建的过程中,高效筛选.处理对话日志并将其转化为新的训练数据,是对话系统效果持续提升的重要环节,也是当前开发者面临的难题之一.为此百度大脑UNIT推出学习反馈闭环机制,提供数据获取.辅助 ...

  5. 百度大脑UNIT3.0详解之语音语义一体化方案

    在电话客服场景里,用户和机器人交流的过程中,经常会出现沉默.打断机器人.噪声等情况,机器人在应对这些异常情况的时候,需要语音和语义理解技术进行处理,才能实现用户和机器人的流畅交谈.而这些能力的获取与应 ...

  6. 发布AI芯片昆仑和百度大脑3.0、L4自动驾驶巴士量产下线,这是百度All in AI一年后的最新答卷...

    机器之心报道,作者:李泽南. 去年的 7 月 5 日,百度在北京国际会议中心开办了首届「AI 开发者大会」.在会上,百度首次喊出了「All in AI」的口号.一年的时间过去了,今天在同样地点举行的第 ...

  7. 使用servlet3.0提供的API来进行文件的上传操作

    servlet 3.0针对文件上传做了一些优化,提供了一些更加人性化的API可以直接在request中的到文件的名称.文件size,MIME类型,以及用InputStream表示的文件流的信息 @Re ...

  8. FastDFS的配置、部署与API使用解读(2)以字节方式上传文件的客户端代码(转)

    本文来自 诗商·柳惊鸿 Poechant CSDN博客,转载请注明源地址:FastDFS的配置.部署与API使用解读(2)上传文件到FastDFS分布式文件系统的客户端代码 在阅读本文之前,请您先通过 ...

  9. SpringMVC案例3----spring3.0项目拦截器、ajax、文件上传应用

    依然是项目结构图和所需jar包图: watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvYmVuamFtaW5fd2h4/font/5a6L5L2T/fontsi ...

随机推荐

  1. [从今天开始修炼数据结构]串、KMP模式匹配算法

    [从今天开始修炼数据结构]基本概念 [从今天开始修炼数据结构]线性表及其实现以及实现有Itertor的ArrayList和LinkedList [从今天开始修炼数据结构]栈.斐波那契数列.逆波兰四则运 ...

  2. 【Android - 自定义View】之MeasureSpec简介

    MeasureSpec是View测量过程中的一个重要的类,它被用来将View的尺寸规格(SpecSize)和尺寸模式(SpecMode)封装在一起,并提供打包和解包的方法. MeasureSpec虽然 ...

  3. Android Binder机制介绍

    做过Android开发的同学可能有些体会,入门初期,工作内容主要是实现各式各样的UI界面,以及实现应用的业务逻辑.在这个阶段,我们会逐渐熟悉View系统,逐渐学会实现各种各样的界面以及动画效果.再往后 ...

  4. 08-kubernetes 存储卷

    目录 存储卷 emptyDir 测试及使用 Pod测试挂在共享NFS 写测试清单 测试 pv, pvc 创建几个PV 创建测试的Pod 和 PVC 存储卷 分为四种: 有状态,需要存储 有状态,无需存 ...

  5. php踩过的那些坑(5)浮点数计算

    一.前方有坑 php在使用加减乘除等运算符计算浮点数的时候,经常会出现意想不到的结果,特别是关于财务数据方面的计算,给不少工程师惹了很多的麻烦.比如今天工作终于到的一个案例: $a = 2586; $ ...

  6. vue中,使用element ui的弹窗与echarts之间的问题

    今天项目中有个需求,就是在页面中点击一个图标,弹出一个抽屉式的弹窗(弹窗是element UI的抽屉),弹窗里边是echarts呈现的数据,当我直接用echarts的时候,报错dom没有获取到: 这就 ...

  7. Linux内核设计与实现笔记_1_基本概念

    Linux内核设计与实现笔记_1_基本概念 操作系统 系统这个词包含了操作系统和所有运行在它上面的应用程序.操作系统是指在整个系统中负责完成分最基本功能和系统管理的那些部分,这些部分应该包括: 内核, ...

  8. adb adb monkey命令及介绍

    1.adb的组成部分 守护进程,客户端,服务器端`      2.Monkey程序是Google公司提供的一个压力和稳定性测试的工具 3.命令 命令 参数 功能 adb version   查看当前a ...

  9. luogu P1972 [SDOI2009]HH的项链 |树状数组 或 莫队

    题目描述 HH 有一串由各种漂亮的贝壳组成的项链.HH 相信不同的贝壳会带来好运,所以每次散步完后,他都会随意取出一段贝壳,思考它们所表达的含义.HH 不断地收集新的贝壳,因此,他的项链变得越来越长. ...

  10. 小白学 Python 爬虫(17):Requests 基础使用

    人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇 小白学 Python 爬虫(2):前置准备(一)基本类库的安装 小白学 Python 爬虫(3):前置准备(二)Li ...