如今,越来越多的企业想要在电商客服、法律顾问等领域做一套包含行业知识的智能对话系统,而行业或领域知识的积累、构建、抽取等工作对于企业来说是个不小的难题,百度大脑UNIT3.0推出「我的知识」版块专门为开发者提供知识建设帮助。在行业智能化的实现进程中,通过知识图谱对数据进行提炼、萃取、关联、整合,形成行业知识或领域知识,让机器形成对于行业工作的认知能力,并把这些认知能力与技能理解模型进行整合,从而实现这个行业的知识型对话系统。

【认知与对话智能】

首先举个简单的例子,让大家直观感受一下认知与对话智能:

小明:[演员]是做什么的?

小吴:是指专职演出,或在表演艺术中扮演某个角色的人物

小明:[周杰伦]是做什么的?

小吴:歌手

以上,直观展示了即使是句式一致的两句话,人类能区分出前者是“名词解释” 意图,后者是“询问工作” 意图。小吴能做到如此,是因为他积累了很多知识,而这些知识帮助他在日常交流中更好的理解、决策、答复。

对应的,人机对话流程中涉及的语言理解、对话决策、信息查询、语言组织等重要环节,都需要语言知识、世界知识以及必要的领域知识的指导。其中,知识图谱(Knowledge Graph,KG)是应用最为广泛的知识表示形式之一。知识图谱以图谱的形式描述真实世界的实体及其内在关系,用模式定义可能的类和实体关系,允许任意实体彼此潜在相互关联,并涵盖各种主题领域。

在UNIT平台中,知识图谱的具体应用可划分为三种模式:

1) 第一种模式对应问答型对话系统,该类对话系统将知识图谱视为答案信息来源,通过对话理解将用户问题转化为对知识图谱的查询,直接得到用户问题的答案。

2) 第二种模式将知识图谱视为用于对话理解的知识源,借助知识图谱中元素的属性及关系,为用户话语和对话上下文的语义理解提供辅助。

3) 第三种模式对应主动对话场景,借助知识图谱中概念、属性 和关系之间的关联,通过话题推荐等策略实现对话过程的主动引导。

【知识图谱技术解读】

UNIT-我的知识总体组成如下:

平台:UNIT为托管知识图谱提供了的整套平台化支持。

算法:提供了图谱生产和应用环节的一套丰富的高质量算法。

架构:包含图谱生产架构,图谱存储架构,图谱算法架构,图谱应用架构。

UNIT知识图谱的核心技术包括知识表示、知识抽取、知识消岐与融合、知识存储。

1. 知识表示:

知识表示要解决的核心问题是知识建模,也就是建立行业知识图谱的数据模式,以及对整个知识图谱的结构进行定义。可采用三种方式对行业知识体系进行定义:

1) 自顶向下,即完全由专家在平台上进行专业化编辑生产。

2) 自底向上,基于行业现有的标准进行转换或者从现有的高质量行业数据源(如业务系统数据库表)中进行映射。

3) 通用引入,基于百度积累多年的KG Schema,由行业图谱生产者在平台fork引用,形成行业schema的基础骨架。

百度知识图谱数据描述规范使用W3C RDF协议定义作为基础协议,采用JSON-LD标准组织描述语言,包含如下要素:

1) Class类:实体的种类,定义一种类型的实体。

2) Property属性:表示不同数据源中针对实体的描述,形成对实体的全方位描述。

3) Relation关系:利用关系来描述各类抽象建模成实体的数据之间的关联关系,从而支持关联分析。

4) Constraint约束:一个属性在特定类下面的约束,为属性增加多态和重载的特性。

5) Datatype数据类型:描述一个属性的数据类型。

6) Subclass概念上下位:描述Class的从属上下位概念关系。

KGSchema支持复合类型的属性值,用以增强三元组表示方式的语义表达能力,例如可以表达时序,空间等复杂知识。

2. 知识抽取:

百度知识图谱的知识抽取能力,从百度对万亿级的互联网资源图谱化而建立的抽取能力而来。能力栈上分为三个层次:结构化抽取,半结构化抽取,以及非结构化抽取。

1) 结构化数据指规范化良好的关系数据库,知识图谱已实现基于成熟D2R技术的可视化工具用于这类数据的转化。

2) 半结构化数据主要指表格、半结构的kv等有一定结构的数据,目前知识图谱已实现基于schema的表格(主要技术是根据schema自动识别表格结构)和半结构化文本自动抽取模块。该项技术已经在多个行业场景中实际落地。

3) 无结构化自由文本知识抽取,采用通用数据预训练+具体场景迁移的技术思路解决行业样本稀疏的问题。预训练阶段主要是基于百度在通用知识图谱构件上积累的大量标注样本,训练文本分类模型与序列标注模型,用于标注出现在文档段落中的SPO。

3. 实体消岐与融合:

行业数据往往存在多来源,多渠道的特型,不同来源渠道对同一实体的表述往往不尽相同,由于不可能为每个名称分配唯一的标识符,所以在许多情况下,如果人们使用名称来识别指定的命名实体,则可能会导致混淆,为了提升知识图谱的质量以及语义密度,提供了一套知识融合消歧算法以及配套的策略迭代方法,来解决行业数据的融合消歧问题。

融合与消歧涉及两种知识操作:

1) 关联,给定实体(集)、知识库KB,完成实体的辨识、建立与KB中实体的等价链接、及NIL判断。其中,“等价”是指两实体指代现实世界中同一事物或概念、“NIL”表示实体在KB中不存在。

2) 归一,给定实体集合,完成相同实体的分组聚合。其中,“相同”定义为待归一的实体指代了现实世界中同一事物或概念。

【如何在UNIT平台构建自己的知识图谱】

UNIT对话系统的核心能力包含语言理解、对话流程管理和知识建设。“我的知识-图谱/问答知识库”是知识建设能力的重要组成部分,为开发者提供了知识挖掘与管理工具。这些积累的知识可用于提高模型理解能力、完善对话管理能力、实现对话系统的知识建设闭环。

现在,只需3步就能在“我的知识——图谱知识库”定义和构建您的知识图谱:

第一步,在“知识定义”页面导入我们为您准备好的类目文件模板:https://unitweb.cdn.bcebos.com/图谱知识库快速上手类目文件模板.zip

第二步,在“我的数据”页面上传我们为您准备好的数据源文件:https://unitweb.cdn.bcebos.com/图谱知识库快速上手数据源文件.zip

第三步,在“图谱构建”页面点击“开始构建图谱”,等待构建完成。

接下来,您就可以预览查看相关数据,完成快速体验。

整合技能与知识

在UNIT中,知识与技能整合的方式如下:

1) 提炼萃取行业知识:定义自己的图谱知识结构,上传知识源文档,挖掘实体、属性、属性值;

2) 让技能更好地理解:导出图谱知识库里的各种属性值作为对话技能的词槽词典值;

3) 让技能更聪明地对话:在对话技能中使用Taskflow配置(云端对话流程管理模块,可实现复杂对话流程的管理 )查询实体、属性值,进行流程控制或作为答复内容。

后续UNIT平台会提供更多“技能+知识”的整合方案,也将帮助各位开发者持续探索并打造对话技术进入工业级落地的各项基础条件。

相关文章阅读:

百度大脑UNIT3.0解读之对话式文档问答——上传文档获取对话能力

百度大脑UNIT3.0详解之语音语义一体化方案

百度大脑UNIT3.0详解之数据生产工具DataKit

百度大脑UNIT3.0详解之知识图谱与对话的更多相关文章

  1. 百度大脑UNIT3.0详解之嵌入式对话理解技术

    相信很多人都体验过手机没有网时的焦虑,没有网什么也做不了.而机器人也会遇到这样的时刻,没有网或者网络环境不好的情况下,无法识别用户在说什么,也无法回复用户.在AIoT(AI+物联网)飞速普及的现在,智 ...

  2. 百度大脑UNIT3.0详解之数据生产工具DataKit

    在智能对话项目搭建的过程中,高效筛选.处理对话日志并将其转化为新的训练数据,是对话系统效果持续提升的重要环节,也是当前开发者面临的难题之一.为此百度大脑UNIT推出学习反馈闭环机制,提供数据获取.辅助 ...

  3. 百度大脑UNIT3.0详解之语音语义一体化方案

    在电话客服场景里,用户和机器人交流的过程中,经常会出现沉默.打断机器人.噪声等情况,机器人在应对这些异常情况的时候,需要语音和语义理解技术进行处理,才能实现用户和机器人的流畅交谈.而这些能力的获取与应 ...

  4. 百度大脑UNIT3.0智能对话技术全面解析

    智能客服.智能家居.智能助手.智能车机.智能政务……赋予产品智能对话能力是提升产品智能化体验.高效服务的重要手段,已经开始被越来越多的企业关注并布局.然而,智能对话系统搭建涉及NLP.知识图谱.语音等 ...

  5. 百度大脑UNIT3.0解读之对话式文档问答——上传文档获取对话能力

    在日常生活中,用户会经常碰到很多复杂的规章制度.规则条款.比如:乘坐飞机时,能不能带宠物上飞机,3岁小朋友是否需要买票等.在工作中,也会面对公司多样的规定制度和报销政策.比如:商业保险理赔需要什么材料 ...

  6. iOS百度地图简单使用详解

    iOS百度地图简单使用详解 百度地图 iOS SDK是一套基于iOS 5.0及以上版本设备的应用程序接口,不仅提供展示地图的基本接口,还提供POI检索.路径规划.地图标注.离线地图.定位.周边雷达等丰 ...

  7. 发布AI芯片昆仑和百度大脑3.0、L4自动驾驶巴士量产下线,这是百度All in AI一年后的最新答卷...

    机器之心报道,作者:李泽南. 去年的 7 月 5 日,百度在北京国际会议中心开办了首届「AI 开发者大会」.在会上,百度首次喊出了「All in AI」的口号.一年的时间过去了,今天在同样地点举行的第 ...

  8. Mongostat 3.0详解

    可以参考之前写的这篇博客: Mongostat 2.6详解 mapped Changed in version 3.0.0. Only for MMAPv1 Storage Engine. The t ...

  9. Android端百度地图API使用详解

    百度地图API简介 百度地图移动版API(Android)是一套基于Android设备的应用程序接口,通过该接口,可以轻松的访问百度服务和数据,构建功能丰富.交互性强的地图应用程序. 百度地图移动版A ...

随机推荐

  1. OSI层次模型

    ISO:国际标准化组织 层(layer):描述所有的有效的通讯过程,并把逻辑上的组叫做层. 分层优点: 促进标准化工作,允许各个供应商进行开发 各层之间相互独立,把网络操作分成低复杂度性单元 灵活性好 ...

  2. 构建调试Linux内核网络代码的环境MenuOS系统

    构建MenuOS系统 1.将指定文件拷贝到本地: git clone https://github.com/mengning/linuxnet.git 此过程可能需要输入github账号和密码. 2. ...

  3. JS前端将table导出到excel 兼容谷歌 IE 且保留表格样式

    CDSN上博主给我一段代码,可将表格导出为EXCEL文档,原文见: https://blog.csdn.net/zz210891470/article/details/94717644 向博主学习.致 ...

  4. 十、Spring boot 简单优雅的整合 Swagger2

    前言 swagger2 是什么,我这里就不说了,就是一个简单的接口文档,方便前后端联调. 其实之前没有想要到要使用swagger 的.因为我之前用的是YAPI ,不过这个是一个单独的工具.并且是开源的 ...

  5. CSS+HTML实现移动端div左右滑动展示

    由于手机屏幕的宽度有限,内容太多移动设备一行装不下的,所以很多移动端网站的导航栏都有左右滑动效果,下面我就用CSS+HTML实现移动端div左右滑动展示. CSS:box设置文本不换行,子元素box1 ...

  6. 华为担纲建设基础软硬件国家新一代AI开放创新平台

    [摘要] 全栈全场景AI能力爆发! [上海,2019年8月29日] 凭借领先的全栈全场景AI能力华为入选国家新一代人工智能开放创新平台 8月29日,科技部在2019世界人工智能大会宣布,将依托华为建设 ...

  7. DRF Django REST framework 之 序列化(三)

    Django 原生 serializer (序列化) 导入模块 from django.core.serializers import serialize 获取queryset 对queryset进行 ...

  8. SpringBoot-了解微服务(二)

    什么是微服务? 微服务是一种架构风格,它要求我们在开发一个应用的时候,这个应用必须构建成一系列小服务的组合: 可以通过http的方式进行互通. 要说微服务架构,先了解一下以前的单体应用架构 单体应用架 ...

  9. 09-Python-Socket编程

    一.Python-Socket编程 1.1.弄懂HTTP.Socket.TCP这几个概念 什么是HTTP协议?浏览器的本质就是一个socket客户端遵循HTTP协议,HTTP协议的本质:通过\r\n分 ...

  10. Mysql的查询语句的使用

    1. 简单查询 查询所有字段: SELECT * FROM 表名 查询特定字段: SELECT 字段列表 FROM 表名 2. 查询显示行号 - 在字段列表中加入(@rownum := @rownum ...