知识图谱与机器学习 | KG入门 -- Part1 Data Fabric
介绍
如果你在网上搜索机器学习,你会找到大约20500万个结果。确实是这样,但是要找到适合每个用例的描述或定义并不容易,然而会有一些非常棒的描述或定义。在这里,我将提出机器学习的另一种定义,重点介绍一种新的范式——Data Fabric[1]。
目标
解释Data Fabric与机器学习的关系
细节
给出关于Data Fabric以及创建它的生态系统的描述
用几句话解释什么是机器学习
提出一种在Data Fabric内部可视化机器学习洞察(insight)的方法
主要理论
如果我们可以创建一个支持公司所有数据的Data Fabric,那么它内部的商业洞察力(business insight)可以被认为是一个缺陷(dent),发现这种洞察(insight)[2]的自动过程叫做机器学习。
第一节 什么是Data Fabric?
讨论Data Fabric时,我们应该提到几个词:图(graphs)、知识图谱(knowledge-graph)、本体(ontology)、语义(semantics)、链接数据(linked-data)。在你对这些定义有所了解后,我们可以说:
Data Fabric是支持企业所有数据的平台,它作为一个统一的框架来管理、描述、组合和访问数据。该平台由企业知识图谱构成以创建统一的数据环境。
我们把这个定义拆分成几部分。我们首先需要的是一个知识图谱。
知识图谱由数据和信息组成,还包含大量不同数据之间的链接。这里的关键是,在这个新模型下,我们不是在寻找可能的答案,而是在寻找确定的答案。我们想要的是事实——这些事实来自哪里并不那么重要。这里的数据可以代表概念、对象、事物、人,以及你头脑中的任何东西。图中填充了概念之间的关系和联系。
知识图谱还允许你为图中的关系创建结构。有了它,就可以建立一个框架来研究数据及其与其他数据的关系。
在这种情况下,我们可以向我们的数据湖(Data Lake)提出这个问题:这里存在什么?
数据湖的概念也很重要,因为我们需要一个地方来存储数据、管理数据并运行我们的任务。但我们需要一个智能数据湖,一个能理解我们拥有什么以及如何使用它的地方,这是拥有Data Fabric的好处之一。
Data Fabric应该是统一的,这意味着我们应该努力将组织中的所有数据组织在一个地方并真正地管理它。
第二节 什么是机器学习?
机器学习已经存在很长时间了,有很多关于它的描述、书籍、文章和博客,所以我不会用太多的章节来描述它,而只是把一些观点说清楚。
机器学习不是魔法
机器学习是数据科学工作流程的一部分
机器学习需要数据的存在,至少现在是这样。
在这之后,让我给机器学习一个有点像借用来的和个性化的定义:
机器学习是一种自动的过程,通过使用算法来理解数据中的模式和一些数据表示,这些算法能够提取那些模式,而无需专门为此编写程序,从而创建能够解决特定(或多个)问题的模型。
你可以同意也可以不同意这个定义,现在的文献中有很多很好的定义,我只是觉得这个很简单,对我想表达的东西很有用。
第三节 在Data Fabric中进行机器学习
在爱因斯坦的引力理论(广义相对论)中,他从数学上提出质量可以使时空变形,而这种变形就是我们所理解的引力。我知道如果你不熟悉这个理论,听起来会很奇怪。我来解释一下。
在没有引力的狭义相对论的平行时空中,力学定律呈现出一种特别简单的形式:只要没有外力作用于一个物体上,它将沿着一条直线通过时空:沿着一条直线,以一个恒定的速度(牛顿力学第一定律)。
但是当我们有质量和加速度时,我们可以说我们处于重力之下。像Wheeler所说:
Spacetime tells matter how to move; matter tells spacetime how to curve.(时空告诉物质如何运动;物质告诉时空如何弯曲。)
在上图中,“立方体”是时空结构的一种表现,当物体在其中移动时,它会变形,“线”移动的方式会告诉我们,一个靠近的物体会如何靠近那个物体。所以重力像是下面这样的:
所以当我们有质量时,我们可以在时空中做一个“凹痕”,在那之后,当我们接近那个凹痕时,我们看到的是重力。我们必须离物体足够近才能感觉到它。
这正是我所提到的机器学习在Data Fabric中的作用。我知道听起来很疯狂,所以让我解释一下。
假设我们创建了一个Data Fabric,对我来说,最好的工具是Anzo。
你可以使用Anzo构建所谓的“企业知识图谱”,当然也创建了你的Data Fabric。
图的节点和边灵活地捕获了每个数据源的高分辨率孪生体——结构化或非结构化。该图可以帮助用户快速、交互式地回答任何问题,允许用户与数据进行对话,从而发现问题的洞察(insights)。
顺便说一下,我是这样描绘一个洞察(insight)的:
如果我们有Data Fabric:
我所建议的是一种洞察(insight)可以被认为是它的一个凹痕。而发现这种洞察(insight)的自动过程,就是机器学习。
所以现在我们可以说:
机器学习是一种自动发现Data Fabric中隐藏的洞察(insight)的过程,它使用的算法能够发现这些洞察(insight),而无需专门为此编写程序,从而创建模型来解决特定(或多个)问题。
使用fabric生成的洞察(insight)本身就是新数据,作为fabric的一部分而变得明确。也就是说洞察(insight)可以扩增图,可能会产生进一步的洞察(insight)。
在Data Fabric中,我们遇到了一个问题,试图在数据中找到那些隐藏的洞察(insight),使用机器学习我们可以发现它们。这在现实生活中会是什么样子?
Cambridge Semantics研究人员也用Anzo给出了答案,使用Anzo进行机器学习的解决方案用一个现代化的数据平台取代了这种单调乏味、容易出错的工作,该数据平台旨在快速集成、协调和将来自所有相关数据源的数据转换为优化的机器学习特性数据集。
Data Fabric提供了高级数据转换功能,这是快速有效的特性工程所必需的,可以帮助将关键的业务信号从无关的噪声中分离出来。
记住,数据是第一位的,这个新的范示使用内置的图形数据库和语义数据层集成和协调所有相关的数据源——结构化和非结构化数据都是如此。Data Fabric传递数据的业务上下文和含义,使业务用户更容易理解和正确使用数据。
重现性(reproducibility)对于数据科学和机器学习非常重要,因此我们需要通过管理数据集目录以及数据集成等方面,像数据质量处理,来轻松地重用和协调结构化和非结构化数据,这就是Data Fabric所提供的。它还保留了包含机器学习数据集的数据的端到端的起源,因此在生产中使用模型时很容易找出所需的数据转换。
在接下来的文章中,我将给出一个关于如何在这个新框架中进行机器学习的具体例子。
总结
机器学习并不新鲜,但它有一个新的范式,也许这就是这个领域的未来(这么说可能有点乐观)。在Data Fabric内部,提出了本体、语义、层次、知识图谱等新概念;但所有这些都可以改善我们思考和进行机器学习的方式。
在这个范式中,我们通过使用算法来发现Data Fabric中隐藏的洞察(insight),这些算法能够发现这些洞察(insight),而无需专门为此编写程序,从而创建模型来解决特定(或多个)问题。
下一篇我们将为大家介绍Data Fabric上的深度学习。
[1]: 译者尝试将其翻译为数据构建、数据结构、数据框架,但总觉得不能完整地表达它该有的意思[2]: 对数据挖掘和分析,洞察其背后的规律
欢迎关注磐创博客资源汇总站:
http://docs.panchuang.net/
欢迎关注PyTorch官方中文教程站:
http://pytorch.panchuang.net/
知识图谱与机器学习 | KG入门 -- Part1 Data Fabric的更多相关文章
- 知识图谱与机器学习 | KG入门 -- Part1-b 图深度学习
介绍 我们正在定义一种新的机器学习方法,专注于一种新的范式 -- Data Fabric. 在上一篇文章中,我们对机器学习给出了新的定义: 机器学习是一种自动发现Data Fabric中隐藏的&quo ...
- 知识图谱与机器学习|KG入门 -- Part2 建立知识图谱
介绍 在本系列前面两篇文章中我一直在讨论Data Fabric,并给出了一些关于Data Fabric中的机器学习和深度学习的概念.并给出了我对Data Fabric的定义: Data Fabric是 ...
- ISWC 2018概览:知识图谱与机器学习
语义网的愿景活跃且良好,广泛应用于行业 语义网的愿景是「对计算机有意义」的数据网络(正如 Tim Berners Lee.James Hendler 和 Ora Lassila 在<科学美国人& ...
- 百度大脑UNIT3.0详解之知识图谱与对话
如今,越来越多的企业想要在电商客服.法律顾问等领域做一套包含行业知识的智能对话系统,而行业或领域知识的积累.构建.抽取等工作对于企业来说是个不小的难题,百度大脑UNIT3.0推出「我的知识」版块专门为 ...
- [NLP] 语义网络与知识图谱入门(一)
语义网络与知识图谱入门(一) RDF/XML 本体:一种形式化的对于共享概念体系明确而又详细的说明.就是指一种抽象的模型,可以用来描述对象类型.属性以及关系类型所构成的世界. RDF/XML主要讲的就 ...
- [NLP] 语义网络与知识图谱入门(二)
语义网络与知识图谱入门(二) OWL 本体声明 owl用owl:Ontology来声明一个本体.rdf:about属性为本体提供一个名称或引用.根据标准,当rdf:about属性的值为"&q ...
- 知识图谱-生物信息学-医学论文(BMC Bioinformatics-2022)-挖掘阿尔茨海默病相关KG来确定潜在的相关语义三元组用于药物再利用
论文标题: Mining On Alzheimer's Diseases Related Knowledge Graph to Identity Potential AD-related Semant ...
- Multi-Task Feature Learning for Knowledge Graph Enhanced Recommendation(知识图谱)
知识图谱(Knowledge Graph,KG)可以理解成一个知识库,用来存储实体与实体之间的关系.知识图谱可以为机器学习算法提供更多的信息,帮助模型更好地完成任务. 在推荐算法中融入电影的知识图谱, ...
- 知识图谱+Recorder︱中文知识图谱API与工具、科研机构与算法框架
目录 分为两个部分,笔者看到的知识图谱在商业领域的应用,外加看到的一些算法框架与研究机构. 文章目录 @ 一.知识图谱商业应用 01 唯品金融大数据 02 PlantData知识图谱数据智能平台 03 ...
随机推荐
- Cenots 7 通过Yum 安装Node.js 报错问题
环境:CentOS Linux release 7.3.1611 (Core) 安装报错信息: [cenots7@localhost ~]$ sudo yum -y install npm Loade ...
- 大马提权详细过程webshell到提权
.在shell路径这一栏里输入服务器端cmd.exe对应的绝对路径,这里用我们刚刚上传上去的smallchao.exe 8.WINDOWS常见命令:net user 查看所有用户query user ...
- SpringBoot图文教程9—SpringBoot 导入导出 Excel 「Apache Poi」
有天上飞的概念,就要有落地的实现 概念十遍不如代码一遍,朋友,希望你把文中所有的代码案例都敲一遍 先赞后看,养成习惯 SpringBoot 图文教程系列文章目录 SpringBoot图文教程1「概念+ ...
- Let’s Encrypt https证书安装
我的博客: https://www.seyana.life/post/15 现在已经有很多的免费ssl证书提供商,国内的也有, 不过国内政策要求还要把key给他们, 我们还是用Let's Encryp ...
- 【转】Maven详细
Maven maven 中央仓库 网站 https://mvnrepository.com/ 全世界 发布到Maven仓库 供用类着使用 maven 本质上下载工具和构建工具 下载工具 迅雷 只能下载 ...
- 02 JPA
JPA概述 JPA的全称是Java Persistence API, 即Java 持久化API,是SUN公司推出的一套基于ORM的规范,内部是由一系列的接口和抽象类构成. JPA通过JDK ...
- 网址封锁的几种方法 公司把 pan.baidu.com 封了 研究实现原理
HTTP 和 HTTPS 协议HTTP 协议在 头部会发送 host 就是要访问的域名,可以用来被检测. HTTPS 协议虽然会加密全部通讯,但是在握手之前还是明文传输.有证书特证可被检测. 1, D ...
- Django _web框架本质
Web框架本质 我们可以这样理解:所有的Web应用本质上就是一个socket服务端,而用户的浏览器就是一个socket客户端. 这样我们就可以自己实现Web框架了. socket服务端 import ...
- go极其ide的安装
一.下载软件开发包 官网:https://golang.google.cn/ 二. 安装和配置SDK windows使用.msi一键安装 配置环境变量 GOROOT,自动的,默认将go安装到C:/ ...
- Java14来了!Switch竟如此简单?Lombok也不需要了?来使用Idea配置Java14的开发环境吧!
Java 14 在 2020.3.17 日发布正式版了,但现在很多公司还在使用 Java 7 或 Java 8,每当看到 Java 又发布新版本心里就慌得一匹.不过此版本并不是 LTS (长期支持版) ...