Task1：知识图谱介绍（1天）

一、知识图谱简介

“知识图谱本质上是语义网络（Semantic Network）的知识库”。但这有点抽象，所以换个角度，从实际应用的角度出发其实可以简单地把知识图谱理解成多关系图（Multi-relational Graph）。

二、怎么构建知识图谱呢？

2.1 知识图谱的数据来源

第一种：业务本身的数据。这部分数据通常包含在公司内的数据库表并以结构化的方式存储，一般只需要简单预处理即可以作为后续AI系统的输入；
第二种：网络上公开、抓取的数据。这些数据通常是以网页的形式存在所以是非结构化的数据，一般需要借助于自然语言处理等技术来提取出结构化信息。

2.2 信息抽取的难点

信息抽取的难点在于处理非结构化数据。（如图）

2.3 构建知识图谱所涉及的技术

在构建类似的图谱过程当中，主要涉及以下几个方面的自然语言处理技术：

实体命名识别（Name Entity Recognition，NER）：就是从文本里提取出实体并对每个实体做分类/打标签。
关系抽取（Relation Extraction，RE）：通过关系抽取技术，把实体间的关系从文本中提取出来。
实体统一（Entity Resolution，ER）：不同词汇其实是指向同一个实体。
指代消解（Coreference Resolution）：文本中出现的“it”, “he”, “she”这些词到底指向哪个实体

三、知识图谱的存储

知识图谱主要有两种存储方式：

一种是基于RDF的存储；
另一种是基于图数据库的存储。

其中Neo4j系统目前仍是使用率最高的图数据库，它拥有活跃的社区，而且系统本身的查询效率高，但唯一的不足就是不支持准分布式。

四、Neo4J 介绍与安装

安装与环境配置参考博客

 安装完成后win下输入代码：
　　neo4j.bat console

4.1 Neo4J Web 界面介绍

http://127.0.0.1:7474/browser/

4.2 Cypher查询语言

Cypher：

介绍：是Neo4J的声明式图形查询语言，允许用户不必编写图形结构的遍历代码，就可以对图形数据进行高效的查询。
设计目的：类似SQL，适合于开发者以及在数据库上做点对点模式（ad-hoc）查询的专业操作人员。

五、Neo4J 实战

参考知乎@异尘手把手教你快速入门知识图谱 - Neo4J教程

六、通过 Python 操作 Neo4j

6.1 neo4j模块：执行CQL ( cypher ) 语句

　# step 1：导入 Neo4j 驱动包

  from neo4j import GraphDatabase

  # step 2：连接 Neo4j 图数据库

  driver = GraphDatabase.driver("bolt://localhost:7687", auth=("neo4j", "password"))

  # 添加 关系 函数

  def add_friend(tx, name, friend_name):

      tx.run("MERGE (a:Person {name: $name}) "

            "MERGE (a)-[:KNOWS]->(friend:Person {name: $friend_name})",

            name=name, friend_name=friend_name)

  # 定义 关系函数

  def print_friends(tx, name):

      for record in tx.run("MATCH (a:Person)-[:KNOWS]->(friend) WHERE a.name = $name "

                          "RETURN friend.name ORDER BY friend.name", name=name):

          print(record["friend.name"])

  # step 3：运行

  with driver.session() as session:

      session.write_transaction(add_friend, "Arthur", "Guinevere")

      session.write_transaction(add_friend, "Arthur", "Lancelot")

      session.write_transaction(add_friend, "Arthur", "Merlin")

      session.read_transaction(print_friends, "Arthur")

上述程序的核心部分，抽象一下就是：

  neo4j.GraphDatabase.driver(xxxx).session().write_transaction(函数(含tx.run(CQL语句)))

或者

  neo4j.GraphDatabase.driver(xxxx).session().begin_transaction.run(CQL语句)

6.2 py2neo模块：通过操作python变量，达到操作neo4j的目的（需要pip3 install py2neo）

  # step 1：导包

  from py2neo import Graph, Node, Relationship

  # step 2：构建图

  g = Graph()

  # step 3：创建节点

  tx = g.begin()

  a = Node("Person", name="Alice")

  tx.create(a)

  b = Node("Person", name="Bob")

  # step 4：创建边

  ab = Relationship(a, "KNOWS", b)

  # step 5：运行

  tx.create(ab)

  tx.commit()

py2neo模块符合python的习惯，写着感觉顺畅，其实可以完全不会CQL也能写
其中可能会出现ClientError: [Security.Unauthorized] The client is unauthorized due to authentication failure.问题参考博客

七、通过csv文件批量导入图数据

这里我们介绍使用neo4j-admin import命令导入，适合部署在docker环境下的neo4j。其他导入方法也可以参考Neo4j之导入数据

csv分为两个nodes.csv和relations.csv，注意关系里的起始节点必须是在nodes.csv里能找到的：

  # nodes.csv需要指定唯一ID和nam,

  headers = [

  'unique_id:ID', # 图数据库中节点存储的唯一标识

  'name', # 节点展示的名称

  'node_type:LABEL', # 节点的类型，比如Person和Location

  'property' # 节点的其他属性

  ]

  # relations.csv

  headers = [

  'unique_id', # 图数据库中关系存储的唯一标识

  'begin_node_id:START_ID', # begin_node和end_node的值来自于nodes.csv中节点

  'end_node_id:END_ID',

  'begin_node_name',

  'end_node_name',

  'begin_node_type',

  'end_node_type',

  'relation_type:TYPE', # 关系的类型，比如Friends和Married

  'property' # 关系的其他属性

  ]

制作出两个csv后，通过以下步骤导入neo4j:

两个文件nodes.csv ，relas.csv放在
```
 neo4j安装绝对路径/import
```
导入到图数据库mygraph.db

 　　　　neo4j bin/neo4j-admin import --nodes=/var/lib/neo4j/import/nodes.csv --relationships=/var/lib/neo4j/import/relas.csv   --delimiter=^ --database=xinfang*.db
　　
　　　　注：delimiter=^ 指的是csv的分隔符

指定neo4j使用哪个数据库

  　　　　修改 /root/neo4j/conf/neo4j.conf 文件中的 dbms.default_database=mygraph.db

重启neo4j就可以看到数据已经导入成功了

Task1：知识图谱介绍（1天）的更多相关文章

k8s--发展历程、知识图谱、组件说明
kubernetes 1.发展历程基础设施级服务infrastructure as a service 阿里云平台设施级服务 platform as a service 新浪云软件设施级服务 s ...
知识图谱学习与实践（4）——通过例句介绍Sparql的使用
通过例句介绍Sparql的使用 1 简介 SPARQL的定义,是一个递归的定义,为SPARQL Protocal and RDF Query Language,是W3C制定的RDF知识图谱标准查询语言 ...
知识图谱里的知识存储：neo4j的介绍和使用
一般情况下,我们使用数据库查找事物间的联系的时候,只需要短程关系的查询(两层以内的关联).当需要进行更长程的,更广范围的关系查询时,就需要图数据库的功能. 而随着社交.电商.金融.零售.物联网等行 ...
Atitit 知识图谱的数据来源
Atitit 知识图谱的数据来源 2. 知识图谱的数据来源1 a) 百科类数据2 b) 结构化数据3 c) 半结构化数据挖掘AVP (垂直站点爬虫)3 d) 通过搜索日志(query record ...
Atitit 知识图谱解决方案：提供完整知识体系架构的搜索与知识结果overview
Atitit 知识图谱解决方案:提供完整知识体系架构的搜索与知识结果overview 知识图谱的表示和在搜索中的展1 提升Google搜索效果3 1.找到最想要的信息.3 2.提供最全面的摘要.4 ...
Atitti 知识图谱构建方法attilax 总结
Atitti 知识图谱构建方法attilax 总结 1.1. 知识图谱schema构建(体系化)1 1.2. 纵向垂直拓展(向上抽象,向下属性拓展)2 1.3. 横向拓展2 1.4. 网拓展2 1 ...
2. 知识图谱-命名实体识别（NER）详解
1. 通俗易懂解释知识图谱(Knowledge Graph) 2. 知识图谱-命名实体识别(NER)详解 3. 哈工大LTP解析 1. 前言在解了知识图谱的全貌之后,我们现在慢慢的开始深入的学习知识 ...
CCKS 2018 | 最佳论文：南京大学提出DSKG，将多层RNN用于知识图谱补全
作者:Lingbing Guo.Qingheng Zhang.Weiyi Ge.Wei Hu.Yuzhong Qu 2018 年 8 月 14-17 日,主题为「知识计算与语言理解」的 2018 全国 ...
Redis闲谈（1）：构建知识图谱
场景:Redis面试 (图片来源于网络) 面试官: 我看到你的简历上说你熟练使用Redis,那么你讲一下Redis是干嘛用的? 小明: (心中窃喜,Redis不就是缓存吗?)Redis主要用作缓存,通 ...

随机推荐

element ui中循环出来的表格勾选问题
需求是这样的,一个房主屋里面有多个电表,每一个表是一个账户,一次只能给一个账户缴费,在点击go按钮进行缴费,这个时候判断是否跨表勾选,跨表格勾选则弹窗提示,反之符合需求,走缴费逻辑上代码 <! ...
学习笔记：Splay
代码适中.非常灵活的平衡树. 需要前置:二叉搜索树. 一些基础的函数: int idx, ch[N][2], cnt[N], sz[N], fa[N]; /* idx 是节点计数, ch[i][0 / ...
Codeforces Round #631 (Div. 1) A-C
在 \(\text{Div. 2/3}\) 混了一个多月后,四个号终于都上紫了,也没用理由不打 \(\text{Div. 1}\) 了.这是我人生中的第一场 \(\text{Div .1}\) ,之前 ...
Codeforces Edu Round 48 A-D
A. Death Note 简单模拟,可用\(\%\)和 \(/\)来减少代码量 #include <iostream> #include <cstdio> using nam ...
KVM初体验之virt-manager unable to connect to libvirt的处理办法
解决方法需要用root身份运行virt-manager
linux修改文件所属的用户组以及用户
linux修改文件所属的用户组以及用户将文件夹从A用户(huangxf)目录复制B用户(zhenglf)目录,其中B没有sudo权限.将A的Downloads文件夹下的所有文件,复制到B的Docum ...
STL——容器（Set & multiset）的删除 erase
set.clear(); //清除所有元素 set.erase(pos); //删除pos迭代器所指的元素,返回下一个元素的迭代器. set.erase(beg,end ...
ss命令结合zabbix对socket做监控
本文为博客园作者所写: 一寸HUI,个人博客地址:https://www.cnblogs.com/zsql/ 最近天冷了,socket也出问题了,一直没有做监控,现在就把监控加起来,目前我们使用的有z ...
Greenplum 性能优化之路 --（一）分区表
一.什么是分区表分区表就是将一个大表在物理上分割成若干小表,并且整个过程对用户是透明的,也就是用户的所有操作仍然是作用在大表上,不需要关心数据实际上落在哪张小表里面.Greenplum 中分区表的原 ...
多任务-python实现-使用生成器完成多任务（2.1.14）
@ 目录 1.注意 2. 代码关于作者 1.注意先定义函数,函数里面放一个yiled 主函数生成该对象执行while循环调用生成器对象的next 因为每次调用next,不会继续执行,从而完成 ...