百度大脑UNIT3.0详解之知识图谱与对话
如今,越来越多的企业想要在电商客服、法律顾问等领域做一套包含行业知识的智能对话系统,而行业或领域知识的积累、构建、抽取等工作对于企业来说是个不小的难题,百度大脑UNIT3.0推出「我的知识」版块专门为开发者提供知识建设帮助。在行业智能化的实现进程中,通过知识图谱对数据进行提炼、萃取、关联、整合,形成行业知识或领域知识,让机器形成对于行业工作的认知能力,并把这些认知能力与技能理解模型进行整合,从而实现这个行业的知识型对话系统。
【认知与对话智能】
首先举个简单的例子,让大家直观感受一下认知与对话智能:
小明:[演员]是做什么的?
小吴:是指专职演出,或在表演艺术中扮演某个角色的人物
小明:[周杰伦]是做什么的?
小吴:歌手
以上,直观展示了即使是句式一致的两句话,人类能区分出前者是“名词解释” 意图,后者是“询问工作” 意图。小吴能做到如此,是因为他积累了很多知识,而这些知识帮助他在日常交流中更好的理解、决策、答复。
对应的,人机对话流程中涉及的语言理解、对话决策、信息查询、语言组织等重要环节,都需要语言知识、世界知识以及必要的领域知识的指导。其中,知识图谱(Knowledge Graph,KG)是应用最为广泛的知识表示形式之一。知识图谱以图谱的形式描述真实世界的实体及其内在关系,用模式定义可能的类和实体关系,允许任意实体彼此潜在相互关联,并涵盖各种主题领域。
在UNIT平台中,知识图谱的具体应用可划分为三种模式:
1) 第一种模式对应问答型对话系统,该类对话系统将知识图谱视为答案信息来源,通过对话理解将用户问题转化为对知识图谱的查询,直接得到用户问题的答案。
2) 第二种模式将知识图谱视为用于对话理解的知识源,借助知识图谱中元素的属性及关系,为用户话语和对话上下文的语义理解提供辅助。
3) 第三种模式对应主动对话场景,借助知识图谱中概念、属性 和关系之间的关联,通过话题推荐等策略实现对话过程的主动引导。
【知识图谱技术解读】
UNIT-我的知识总体组成如下:
平台:UNIT为托管知识图谱提供了的整套平台化支持。
算法:提供了图谱生产和应用环节的一套丰富的高质量算法。
架构:包含图谱生产架构,图谱存储架构,图谱算法架构,图谱应用架构。
![]()
UNIT知识图谱的核心技术包括知识表示、知识抽取、知识消岐与融合、知识存储。
1. 知识表示:
知识表示要解决的核心问题是知识建模,也就是建立行业知识图谱的数据模式,以及对整个知识图谱的结构进行定义。可采用三种方式对行业知识体系进行定义:
1) 自顶向下,即完全由专家在平台上进行专业化编辑生产。
2) 自底向上,基于行业现有的标准进行转换或者从现有的高质量行业数据源(如业务系统数据库表)中进行映射。
3) 通用引入,基于百度积累多年的KG Schema,由行业图谱生产者在平台fork引用,形成行业schema的基础骨架。
百度知识图谱数据描述规范使用W3C RDF协议定义作为基础协议,采用JSON-LD标准组织描述语言,包含如下要素:
1) Class类:实体的种类,定义一种类型的实体。
2) Property属性:表示不同数据源中针对实体的描述,形成对实体的全方位描述。
3) Relation关系:利用关系来描述各类抽象建模成实体的数据之间的关联关系,从而支持关联分析。
4) Constraint约束:一个属性在特定类下面的约束,为属性增加多态和重载的特性。
5) Datatype数据类型:描述一个属性的数据类型。
6) Subclass概念上下位:描述Class的从属上下位概念关系。
KGSchema支持复合类型的属性值,用以增强三元组表示方式的语义表达能力,例如可以表达时序,空间等复杂知识。
2. 知识抽取:
百度知识图谱的知识抽取能力,从百度对万亿级的互联网资源图谱化而建立的抽取能力而来。能力栈上分为三个层次:结构化抽取,半结构化抽取,以及非结构化抽取。
1) 结构化数据指规范化良好的关系数据库,知识图谱已实现基于成熟D2R技术的可视化工具用于这类数据的转化。
2) 半结构化数据主要指表格、半结构的kv等有一定结构的数据,目前知识图谱已实现基于schema的表格(主要技术是根据schema自动识别表格结构)和半结构化文本自动抽取模块。该项技术已经在多个行业场景中实际落地。
3) 无结构化自由文本知识抽取,采用通用数据预训练+具体场景迁移的技术思路解决行业样本稀疏的问题。预训练阶段主要是基于百度在通用知识图谱构件上积累的大量标注样本,训练文本分类模型与序列标注模型,用于标注出现在文档段落中的SPO。
3. 实体消岐与融合:
行业数据往往存在多来源,多渠道的特型,不同来源渠道对同一实体的表述往往不尽相同,由于不可能为每个名称分配唯一的标识符,所以在许多情况下,如果人们使用名称来识别指定的命名实体,则可能会导致混淆,为了提升知识图谱的质量以及语义密度,提供了一套知识融合消歧算法以及配套的策略迭代方法,来解决行业数据的融合消歧问题。
融合与消歧涉及两种知识操作:
1) 关联,给定实体(集)、知识库KB,完成实体的辨识、建立与KB中实体的等价链接、及NIL判断。其中,“等价”是指两实体指代现实世界中同一事物或概念、“NIL”表示实体在KB中不存在。
2) 归一,给定实体集合,完成相同实体的分组聚合。其中,“相同”定义为待归一的实体指代了现实世界中同一事物或概念。
【如何在UNIT平台构建自己的知识图谱】
UNIT对话系统的核心能力包含语言理解、对话流程管理和知识建设。“我的知识-图谱/问答知识库”是知识建设能力的重要组成部分,为开发者提供了知识挖掘与管理工具。这些积累的知识可用于提高模型理解能力、完善对话管理能力、实现对话系统的知识建设闭环。
![]()
现在,只需3步就能在“我的知识——图谱知识库”定义和构建您的知识图谱:
![]()
第一步,在“知识定义”页面导入我们为您准备好的类目文件模板:https://unitweb.cdn.bcebos.com/图谱知识库快速上手类目文件模板.zip
第二步,在“我的数据”页面上传我们为您准备好的数据源文件:https://unitweb.cdn.bcebos.com/图谱知识库快速上手数据源文件.zip
第三步,在“图谱构建”页面点击“开始构建图谱”,等待构建完成。
接下来,您就可以预览查看相关数据,完成快速体验。
【整合技能与知识】
在UNIT中,知识与技能整合的方式如下:
1) 提炼萃取行业知识:定义自己的图谱知识结构,上传知识源文档,挖掘实体、属性、属性值;
2) 让技能更好地理解:导出图谱知识库里的各种属性值作为对话技能的词槽词典值;
3) 让技能更聪明地对话:在对话技能中使用Taskflow配置(云端对话流程管理模块,可实现复杂对话流程的管理 )查询实体、属性值,进行流程控制或作为答复内容。
后续UNIT平台会提供更多“技能+知识”的整合方案,也将帮助各位开发者持续探索并打造对话技术进入工业级落地的各项基础条件。
相关文章阅读:
百度大脑UNIT3.0解读之对话式文档问答——上传文档获取对话能力
百度大脑UNIT3.0详解之知识图谱与对话的更多相关文章
- 百度大脑UNIT3.0详解之嵌入式对话理解技术
相信很多人都体验过手机没有网时的焦虑,没有网什么也做不了.而机器人也会遇到这样的时刻,没有网或者网络环境不好的情况下,无法识别用户在说什么,也无法回复用户.在AIoT(AI+物联网)飞速普及的现在,智 ...
- 百度大脑UNIT3.0详解之数据生产工具DataKit
在智能对话项目搭建的过程中,高效筛选.处理对话日志并将其转化为新的训练数据,是对话系统效果持续提升的重要环节,也是当前开发者面临的难题之一.为此百度大脑UNIT推出学习反馈闭环机制,提供数据获取.辅助 ...
- 百度大脑UNIT3.0详解之语音语义一体化方案
在电话客服场景里,用户和机器人交流的过程中,经常会出现沉默.打断机器人.噪声等情况,机器人在应对这些异常情况的时候,需要语音和语义理解技术进行处理,才能实现用户和机器人的流畅交谈.而这些能力的获取与应 ...
- 百度大脑UNIT3.0智能对话技术全面解析
智能客服.智能家居.智能助手.智能车机.智能政务……赋予产品智能对话能力是提升产品智能化体验.高效服务的重要手段,已经开始被越来越多的企业关注并布局.然而,智能对话系统搭建涉及NLP.知识图谱.语音等 ...
- 百度大脑UNIT3.0解读之对话式文档问答——上传文档获取对话能力
在日常生活中,用户会经常碰到很多复杂的规章制度.规则条款.比如:乘坐飞机时,能不能带宠物上飞机,3岁小朋友是否需要买票等.在工作中,也会面对公司多样的规定制度和报销政策.比如:商业保险理赔需要什么材料 ...
- iOS百度地图简单使用详解
iOS百度地图简单使用详解 百度地图 iOS SDK是一套基于iOS 5.0及以上版本设备的应用程序接口,不仅提供展示地图的基本接口,还提供POI检索.路径规划.地图标注.离线地图.定位.周边雷达等丰 ...
- 发布AI芯片昆仑和百度大脑3.0、L4自动驾驶巴士量产下线,这是百度All in AI一年后的最新答卷...
机器之心报道,作者:李泽南. 去年的 7 月 5 日,百度在北京国际会议中心开办了首届「AI 开发者大会」.在会上,百度首次喊出了「All in AI」的口号.一年的时间过去了,今天在同样地点举行的第 ...
- Mongostat 3.0详解
可以参考之前写的这篇博客: Mongostat 2.6详解 mapped Changed in version 3.0.0. Only for MMAPv1 Storage Engine. The t ...
- Android端百度地图API使用详解
百度地图API简介 百度地图移动版API(Android)是一套基于Android设备的应用程序接口,通过该接口,可以轻松的访问百度服务和数据,构建功能丰富.交互性强的地图应用程序. 百度地图移动版A ...
随机推荐
- scrapy框架介绍及安装
什么是scrapy框架? scrapy框架的安装 1.windowes下的安装 Python 2 / 3升级pip版本: pip install --upgrade pip 通过pip 安装 Scra ...
- maven本地仓库路径和修改
1.本地仓库,顾名思义,就是Maven在本地存储构件的地方. 注:maven的本地仓库,在安装maven后并不会创建,它是在第一次执行maven命令的时候才被创建 maven本地仓库的默认位置:无论是 ...
- django restful framework 一对多方向更新数据库
目录 django restful framework 序列化 一 . 数据模型: models 二. 序列化: serializers 三, 视图: views 四, 路由: urls 五. 测试 ...
- wpa_supplicant的移植
解压,进入,使用默认配置文件 cd wpa_supplicant-2.6 cp defconfig .config 修改.config文件,修改部分,根据自己的需要进行这部分的配置 #指定libnl的 ...
- 区块链学习笔记:D04 区块链在各行业领域的应用(二)
这节课主要是政务领域.版权存证领域.能源领域的应用案例介绍 1.房屋租赁联盟链 特点:真实可信.透明补贴.便于追溯.公共监督 节点:房屋运营节点.房管局节点.社保局节点.财政局节点.教育部门节点(多节 ...
- 在一个数组中,除了两个数外,其余数都是两两成对出现,找出这两个数,要求时间复杂度O(n),空间复杂度O(1)
题目:在一个数组中,除了两个数外,其余数都是两两成对出现,找出这两个数,要求时间复杂度O(n),空间复杂度O(1) 分析:这道题考察位操作:异或(^),按位与(&),移位操作(>> ...
- 小白学 Python 爬虫(17):Requests 基础使用
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇 小白学 Python 爬虫(2):前置准备(一)基本类库的安装 小白学 Python 爬虫(3):前置准备(二)Li ...
- 服务容错保护hystrix
灾难性雪崩效应 如何解决灾难性雪崩效应 降级 超时降级.资源不足时(线程或信号量)降级,降级后可以配合降级接口返回托底数据.实现一个 fallback 方法, 当请求后端服务出现异常的时候, 可以使用 ...
- HDU 6405 Make ZYB Happy(广义SAM)
It's known to all that ZYB is godlike, so obviously he has a large number of titles, such as jskingj ...
- HDU5394 Bomb
题目:http://acm.hdu.edu.cn/showproblem.php?pid=5934 There are NN bombs needing exploding. Each bomb ha ...