如今,越来越多的企业想要在电商客服、法律顾问等领域做一套包含行业知识的智能对话系统,而行业或领域知识的积累、构建、抽取等工作对于企业来说是个不小的难题,百度大脑UNIT3.0推出「我的知识」版块专门为开发者提供知识建设帮助。在行业智能化的实现进程中,通过知识图谱对数据进行提炼、萃取、关联、整合,形成行业知识或领域知识,让机器形成对于行业工作的认知能力,并把这些认知能力与技能理解模型进行整合,从而实现这个行业的知识型对话系统。

【认知与对话智能】

首先举个简单的例子,让大家直观感受一下认知与对话智能:

小明:[演员]是做什么的?

小吴:是指专职演出,或在表演艺术中扮演某个角色的人物

小明:[周杰伦]是做什么的?

小吴:歌手

以上,直观展示了即使是句式一致的两句话,人类能区分出前者是“名词解释” 意图,后者是“询问工作” 意图。小吴能做到如此,是因为他积累了很多知识,而这些知识帮助他在日常交流中更好的理解、决策、答复。

对应的,人机对话流程中涉及的语言理解、对话决策、信息查询、语言组织等重要环节,都需要语言知识、世界知识以及必要的领域知识的指导。其中,知识图谱(Knowledge Graph,KG)是应用最为广泛的知识表示形式之一。知识图谱以图谱的形式描述真实世界的实体及其内在关系,用模式定义可能的类和实体关系,允许任意实体彼此潜在相互关联,并涵盖各种主题领域。

在UNIT平台中,知识图谱的具体应用可划分为三种模式:

1) 第一种模式对应问答型对话系统,该类对话系统将知识图谱视为答案信息来源,通过对话理解将用户问题转化为对知识图谱的查询,直接得到用户问题的答案。

2) 第二种模式将知识图谱视为用于对话理解的知识源,借助知识图谱中元素的属性及关系,为用户话语和对话上下文的语义理解提供辅助。

3) 第三种模式对应主动对话场景,借助知识图谱中概念、属性 和关系之间的关联,通过话题推荐等策略实现对话过程的主动引导。

【知识图谱技术解读】

UNIT-我的知识总体组成如下:

平台:UNIT为托管知识图谱提供了的整套平台化支持。

算法:提供了图谱生产和应用环节的一套丰富的高质量算法。

架构:包含图谱生产架构,图谱存储架构,图谱算法架构,图谱应用架构。

UNIT知识图谱的核心技术包括知识表示、知识抽取、知识消岐与融合、知识存储。

1. 知识表示:

知识表示要解决的核心问题是知识建模,也就是建立行业知识图谱的数据模式,以及对整个知识图谱的结构进行定义。可采用三种方式对行业知识体系进行定义:

1) 自顶向下,即完全由专家在平台上进行专业化编辑生产。

2) 自底向上,基于行业现有的标准进行转换或者从现有的高质量行业数据源(如业务系统数据库表)中进行映射。

3) 通用引入,基于百度积累多年的KG Schema,由行业图谱生产者在平台fork引用,形成行业schema的基础骨架。

百度知识图谱数据描述规范使用W3C RDF协议定义作为基础协议,采用JSON-LD标准组织描述语言,包含如下要素:

1) Class类:实体的种类,定义一种类型的实体。

2) Property属性:表示不同数据源中针对实体的描述,形成对实体的全方位描述。

3) Relation关系:利用关系来描述各类抽象建模成实体的数据之间的关联关系,从而支持关联分析。

4) Constraint约束:一个属性在特定类下面的约束,为属性增加多态和重载的特性。

5) Datatype数据类型:描述一个属性的数据类型。

6) Subclass概念上下位:描述Class的从属上下位概念关系。

KGSchema支持复合类型的属性值,用以增强三元组表示方式的语义表达能力,例如可以表达时序,空间等复杂知识。

2. 知识抽取:

百度知识图谱的知识抽取能力,从百度对万亿级的互联网资源图谱化而建立的抽取能力而来。能力栈上分为三个层次:结构化抽取,半结构化抽取,以及非结构化抽取。

1) 结构化数据指规范化良好的关系数据库,知识图谱已实现基于成熟D2R技术的可视化工具用于这类数据的转化。

2) 半结构化数据主要指表格、半结构的kv等有一定结构的数据,目前知识图谱已实现基于schema的表格(主要技术是根据schema自动识别表格结构)和半结构化文本自动抽取模块。该项技术已经在多个行业场景中实际落地。

3) 无结构化自由文本知识抽取,采用通用数据预训练+具体场景迁移的技术思路解决行业样本稀疏的问题。预训练阶段主要是基于百度在通用知识图谱构件上积累的大量标注样本,训练文本分类模型与序列标注模型,用于标注出现在文档段落中的SPO。

3. 实体消岐与融合:

行业数据往往存在多来源,多渠道的特型,不同来源渠道对同一实体的表述往往不尽相同,由于不可能为每个名称分配唯一的标识符,所以在许多情况下,如果人们使用名称来识别指定的命名实体,则可能会导致混淆,为了提升知识图谱的质量以及语义密度,提供了一套知识融合消歧算法以及配套的策略迭代方法,来解决行业数据的融合消歧问题。

融合与消歧涉及两种知识操作:

1) 关联,给定实体(集)、知识库KB,完成实体的辨识、建立与KB中实体的等价链接、及NIL判断。其中,“等价”是指两实体指代现实世界中同一事物或概念、“NIL”表示实体在KB中不存在。

2) 归一,给定实体集合,完成相同实体的分组聚合。其中,“相同”定义为待归一的实体指代了现实世界中同一事物或概念。

【如何在UNIT平台构建自己的知识图谱】

UNIT对话系统的核心能力包含语言理解、对话流程管理和知识建设。“我的知识-图谱/问答知识库”是知识建设能力的重要组成部分,为开发者提供了知识挖掘与管理工具。这些积累的知识可用于提高模型理解能力、完善对话管理能力、实现对话系统的知识建设闭环。

现在,只需3步就能在“我的知识——图谱知识库”定义和构建您的知识图谱:

第一步,在“知识定义”页面导入我们为您准备好的类目文件模板:https://unitweb.cdn.bcebos.com/图谱知识库快速上手类目文件模板.zip

第二步,在“我的数据”页面上传我们为您准备好的数据源文件:https://unitweb.cdn.bcebos.com/图谱知识库快速上手数据源文件.zip

第三步,在“图谱构建”页面点击“开始构建图谱”,等待构建完成。

接下来,您就可以预览查看相关数据,完成快速体验。

整合技能与知识

在UNIT中,知识与技能整合的方式如下:

1) 提炼萃取行业知识:定义自己的图谱知识结构,上传知识源文档,挖掘实体、属性、属性值;

2) 让技能更好地理解:导出图谱知识库里的各种属性值作为对话技能的词槽词典值;

3) 让技能更聪明地对话:在对话技能中使用Taskflow配置(云端对话流程管理模块,可实现复杂对话流程的管理 )查询实体、属性值,进行流程控制或作为答复内容。

后续UNIT平台会提供更多“技能+知识”的整合方案,也将帮助各位开发者持续探索并打造对话技术进入工业级落地的各项基础条件。

相关文章阅读:

百度大脑UNIT3.0解读之对话式文档问答——上传文档获取对话能力

百度大脑UNIT3.0详解之语音语义一体化方案

百度大脑UNIT3.0详解之数据生产工具DataKit

百度大脑UNIT3.0详解之知识图谱与对话的更多相关文章

  1. 百度大脑UNIT3.0详解之嵌入式对话理解技术

    相信很多人都体验过手机没有网时的焦虑,没有网什么也做不了.而机器人也会遇到这样的时刻,没有网或者网络环境不好的情况下,无法识别用户在说什么,也无法回复用户.在AIoT(AI+物联网)飞速普及的现在,智 ...

  2. 百度大脑UNIT3.0详解之数据生产工具DataKit

    在智能对话项目搭建的过程中,高效筛选.处理对话日志并将其转化为新的训练数据,是对话系统效果持续提升的重要环节,也是当前开发者面临的难题之一.为此百度大脑UNIT推出学习反馈闭环机制,提供数据获取.辅助 ...

  3. 百度大脑UNIT3.0详解之语音语义一体化方案

    在电话客服场景里,用户和机器人交流的过程中,经常会出现沉默.打断机器人.噪声等情况,机器人在应对这些异常情况的时候,需要语音和语义理解技术进行处理,才能实现用户和机器人的流畅交谈.而这些能力的获取与应 ...

  4. 百度大脑UNIT3.0智能对话技术全面解析

    智能客服.智能家居.智能助手.智能车机.智能政务……赋予产品智能对话能力是提升产品智能化体验.高效服务的重要手段,已经开始被越来越多的企业关注并布局.然而,智能对话系统搭建涉及NLP.知识图谱.语音等 ...

  5. 百度大脑UNIT3.0解读之对话式文档问答——上传文档获取对话能力

    在日常生活中,用户会经常碰到很多复杂的规章制度.规则条款.比如:乘坐飞机时,能不能带宠物上飞机,3岁小朋友是否需要买票等.在工作中,也会面对公司多样的规定制度和报销政策.比如:商业保险理赔需要什么材料 ...

  6. iOS百度地图简单使用详解

    iOS百度地图简单使用详解 百度地图 iOS SDK是一套基于iOS 5.0及以上版本设备的应用程序接口,不仅提供展示地图的基本接口,还提供POI检索.路径规划.地图标注.离线地图.定位.周边雷达等丰 ...

  7. 发布AI芯片昆仑和百度大脑3.0、L4自动驾驶巴士量产下线,这是百度All in AI一年后的最新答卷...

    机器之心报道,作者:李泽南. 去年的 7 月 5 日,百度在北京国际会议中心开办了首届「AI 开发者大会」.在会上,百度首次喊出了「All in AI」的口号.一年的时间过去了,今天在同样地点举行的第 ...

  8. Mongostat 3.0详解

    可以参考之前写的这篇博客: Mongostat 2.6详解 mapped Changed in version 3.0.0. Only for MMAPv1 Storage Engine. The t ...

  9. Android端百度地图API使用详解

    百度地图API简介 百度地图移动版API(Android)是一套基于Android设备的应用程序接口,通过该接口,可以轻松的访问百度服务和数据,构建功能丰富.交互性强的地图应用程序. 百度地图移动版A ...

随机推荐

  1. android 活动监听是否点击某个view

    前述(写给做过web前端的人) 在web H5,如果如果判断当前是否点击某个元素,一般会这样写. window.addEventListener("touchstart",func ...

  2. tcp协议传输方法&粘包问题

    socket实现客户端和服务端 tcp协议可以用socket模块实现服务端可客户端的交互 # 服务端 import socket #生成一个socket对象 soc = socket.socket(s ...

  3. Server MyEclipse Tomcat v7.0 was unable to start within 45 seconds. If the server requires more time

    启动Tomcat服务器时经常遇到这个错误, Server MyEclipse Tomcat v7.0 was unable to start within 45 seconds. If the ser ...

  4. Spring 读取资源

    Spring 读取资源 主要介绍3种方式(当然不止三种,但是这三种基本能应付大多需求)FileSystemResource:以文件的绝对路径方式进行访问ClassPathResourcee:以类路径的 ...

  5. JS获取当前完整的url地址以及参数的方法

    javascript 获取当前 URL 参数的两种方法: //返回的是字符串形式的参数,例如:class_id=3&id=2& function getUrlArgStr(){ var ...

  6. Linux常用基本命令 (逐步添加)

    Linux jobs命令 fg , bg , jobs , & , ctrl + z都是跟系统任务有关 一.&命令 用在一个命令的最后,可以把这个命令放到后台执行 二.Ctrl + z ...

  7. 鲲鹏性能优化十板斧之前言 | 鲲鹏处理器NUMA简介与性能调优五步法

    鲲鹏处理器NUMA简介 随着现代社会信息化.智能化的飞速发展,越来越多的设备接入互联网.物联网.车联网,从而催生了庞大的计算需求.但是功耗墙问题以功耗和冷却两大限制极大的影响了单核算力的发展.为了满足 ...

  8. luogu P2812 校园网络【[USACO]Network of Schools加强版】|Tarjan

    题目背景 浙江省的几所OI强校的神犇发明了一种人工智能,可以AC任何题目,所以他们决定建立一个网络来共享这个软件.但是由于他们脑力劳动过多导致全身无力身体被♂掏♂空,他们来找你帮助他们. 题目描述 共 ...

  9. iOS开发之压缩与解压文件

    ziparchive是基于开源代码”MiniZip”的zip压缩与解压的Objective-C 的Class,使用起来非常的简单 方法:从http://code.google.com/p/ziparc ...

  10. MYSQL“错误代码#1045 Access denied for user 'root'@'********8' (using password:YES)”

    用IP远程连接数据库时报这个错误,我查看了下数据库是否开启了远程连接,已经开了,服务也启动着,网上的方法都是重置密码修改权限之类的,我发现都没用,我看了一下数据库所在的电脑,IP地址变了,然后真相了.