墨天轮沙龙 | 北京大学李文杰:面向知识图谱应用的图数据库系统gStore
在6月8日举办的【墨天轮数据库沙龙第七期—开源生态专场】中,北京大学重庆大数据研究院图数据库与知识图谱实验室副主任、北京大学王选计算机研究所全职博士后 李文杰老师分享了《面向知识图谱应用的图数据库系统gStore》主题演讲,本文为整理内容。
导读
大家好,我是来自北京大学的李文杰,我今天分享的主题是《面向知识图谱应用的图数据库系统gStore》,内容将从以下几个方面展开:图数据行业背景、gStore图数据库系统、gStore开源之路。
图数据库行业背景
1、大数据与人工智能推动图数据库发展
随着大数据、人工智能时代的到来,图数据库及知识图谱也应运而生并逐渐发展。
图数据充分体现了大数据的关联性,拥有广泛的应用场景。图数据能够关联信息,使之成为知识,同时图数据能够很清晰揭示复杂的模式,用于挖掘人、物和实体之间的潜在不易观察的行为和联系。
在人工智能领域,图数据也发挥着巨大的作用。认知智能作为人工智能中重要的分支,知识图谱便是认知智能的数据基础,因此以图数据库为代表的知识图谱逐渐获得了广大的关注。

图1 知识图谱数据的存储与查询
2、图数据库的优势
为什么随着大数据与人工智能的发展,图数据能够迅速火热?主要是基于它独特的优势。首先,在关联查询的条件下,图数据库表现出性能方面的优势,能够支持秒级多跳查询。除此之外,图数据库也具有优秀的表达能力,能够构建与检索复杂的人物关系,实现“按图索骥”。
正是因为它的独特优势,近年来图数据一枝独秀成为近几年数据管理软件发展最为快捷的数据管理软件类型。

图2 图数据在 DB-Engines 上的发展趋势
gStore图数据库系统
不管是关系型数据库还是图数据库,中国公司在核心数据管理引擎技术上存在缺位的现状,“打造图数据管理系统的中国芯”也成为了我们的愿景。
从2011年开始,北京大学王选计算机所数据管理实验室开始研发面向知识图谱的图数据库管理系统,到目前为止,gStore已经走过了11年的时间,它有着源头创新、自主可控、标准系统、系统优越的核心技术。
gStore面向知识图谱应用,采用了RDF模型。在2011年的顶级会议VLDB上,子图匹配的搜索查询方法被gStore团队首次提出,从此奠定了gStore的核心是自主研发的原生的数据库管理系统。 不管是从存储模式还是存储结构的角度,gStore都是自主研发的数据库管理系统。

图3 gStore实现了源头创新
gStore同样也获得了国外业内同行的认可,在国外第三方的测试中,gStore 在性能与查询时间上表现出了优势。

图4 gStore在测试中的表现结果展示
除了技术认可,gStore在学术上做的贡献也得到了认定。围绕着gStore核心技术,团队发表国际数据库领域顶级期刊会议论文(包括SIGMOD,VLDB等)35篇,被国内外学术同行引用超过2000次。

图5 gStore的学术认定
gStore开源之路
1、研发历程及产品生态
接下来我们一起回顾 gStore 的研发历程。
gStore的研究论文最早发表在数据库领域顶级国际会议VLDB 2011上,在论文中提出利用子图匹配的方法来构建图数据库系统。2017年,gStore 0.7版本在Github上开源。一直到今天,gStore也保持着至少一月一次的代码提交频率。

图6 gStore研发历程
目前gStore 开发团队研发了gBuilder、gAnswer、gWorkbench、gMaster、gCloud等系列产品,初步形成了围绕着知识图谱应用的产品栈。

图7 gStore 产品生态
2、为什么选择开源?
接下来讲讲gStore的开源之路。为什么选择开源,我们基于以下两个方面的考虑:
首先gStore作为一款自主研发的图数据库产品,在孵化期阶段需要获取国家科技资金支持,完成产品原型及关键理论研究。
其次我们希望gStore通过开源的方式吸引一批技术爱好者以及特定客户,从而选择关键客户及应用场景进行技术及场景验证与探索核心引擎产品化及商业化。
目前图数据库的发展正处于成长期,我们经常会花很多时间向客户介绍“什么是图数据库”,社会大众对图数据库的不了解是这个领域面临的一个普遍性问题。因此我们迫切的需要从开源以及社区建设等途径,打造大众社会对图数据库的认知。

图8 gStore 目前的阶段及为未来发展
3、gStore 开源建设与策略
gStore在开源建设上持续努力,积极与各个社区平台展开合作。

图9 gStore 合作的开源平台与社区
作为一款开源项目,gStore有较为宽松的开源策略,我们采用BSD开源协议,同时在GitHUB
与gitee上有最新的源码可供下载。
我们参考Neo4j 的方式实行开源版与企业版并行。相较于开源版,企业版具有如最短路、环路检测、K跳可达、PageRank等图分析算法的高级功能,同时还具有分布式部署的能力。

图10 gStore 开源策略
4、gStore 未来计划
gStore在发展过程中,对于开发者而言存在着一些问题,借这个机会与业界同仁一起来探讨。
第一个问题是开发者使用不易。目前项目中参与代码贡献的更多是高校的老师与学生,同时代码的体量较大,大约为十多万行,其中包块项目研发者自己设计的相关数据结构、索引结构。因此这样的代码对于开发者学习与研究而言,较为吃力。
第二个问题是学习资料较少。开发者能够学习和参考使用的的资料不足,也因此导致GitHub等平台star和fork不足。因此gStore的研发团队也在整理类似于openGauss内核源码分析的内核手册与文件,同时也会增加用户手册以及产品宣传的工作,从而改善学习资料较少的现状。
第三个问题是内部沟通较少,开发者内部针对gStore的讨论未搭建完善的平台,大家互通有无连接不足。

图11 gStore 目前存在的问题
基于以上的问题,gStore的开源计划将从两个方面进行重点开源优化,增加gStore相关使用学习资料以及增加共享机制。

图12 gStore 后期开源计划
我今天的分享就到这里,谢谢大家!
更多精彩内容,欢迎大家观看现场视频回放与会议资料
视频回放:https://www.modb.pro/video/6497
会议资料:https://www.modb.pro/doc/64475
- 查看原文:https://www.modb.pro/db/429809
- 查看【国产数据库沙龙】开源生态专场文章、视频回放资源:https://www.modb.pro/topic/412121
欲了解更多可以进入墨天轮社区,围绕数据人的学习成长提供一站式的全面服务,打造集新闻资讯、在线问答、活动直播、在线课程、文档阅览、资源下载、知识分享及在线运维为一体的统一平台,持续促进数据领域的知识传播和技术创新。
关注官方公众号: 墨天轮、 墨天轮平台、墨天轮成长营、数据库国产化 、数据库资讯
墨天轮沙龙 | 北京大学李文杰:面向知识图谱应用的图数据库系统gStore的更多相关文章
- 1. 通俗易懂解释知识图谱(Knowledge Graph)
1. 通俗易懂解释知识图谱(Knowledge Graph) 2. 知识图谱-命名实体识别(NER)详解 3. 哈工大LTP解析 1. 前言 从一开始的Google搜索,到现在的聊天机器人.大数据风控 ...
- 知识图谱顶刊综述 - (2021年4月) A Survey on Knowledge Graphs: Representation, Acquisition, and Applications
知识图谱综述(2021.4) 论文地址:A Survey on Knowledge Graphs: Representation, Acquisition, and Applications 目录 知 ...
- 基于pyecharts的中医药知识图谱可视化
基于pyecharts的中医药知识图谱可视化 关键词: pyecharts:可视化:中医药知识图谱 摘要: 数据可视化是一种直观展示数据结果和变化情况的方法,可视化有助于知识发现与应用.Neo4j数据 ...
- [敏杰开发]知识路书——图形化文献管理大师 Beta版发布喽!!!
[敏杰开发]知识路书--图形化文献管理大师 Beta版发布喽!!! 一.总览 项目名称:知识路书 发布形式:网页应用 发布地址:http://roadmap.imcoming.top 二.运行环境与使 ...
- 知识图谱-生物信息学-医学顶刊论文(Briefings in Bioinformatics-2021):生物信息学中的图表示学习:趋势、方法和应用
4.(2021.6.24)Briefings-生物信息学中的图表示学习:趋势.方法和应用 论文标题: Graph representation learning in bioinformatics: ...
- Atitit 知识图谱的数据来源
Atitit 知识图谱的数据来源 2. 知识图谱的数据来源1 a) 百科类数据2 b) 结构化数据3 c) 半结构化数据挖掘AVP (垂直站点爬虫)3 d) 通过搜索日志(query record ...
- Atitti 知识图谱构建方法attilax 总结
Atitti 知识图谱构建方法attilax 总结 1.1. 知识图谱schema构建(体系化)1 1.2. 纵向垂直拓展(向上抽象,向下属性拓展)2 1.3. 横向拓展2 1.4. 网拓展2 1 ...
- 如何系统学习知识图谱-15年+IT老兵的经验分享
一.前言 就IT而言,胖子哥算是老兵,可以去猝死的年纪,按照IT江湖猿龄的规矩,也算是到了耳顺之年:而就人工智能而言,胖子哥还是新人,很老的新人,深度学习.语音识别.人脸识别,知识图谱,逐个的学习了一 ...
- 知识图谱+Recorder︱中文知识图谱API与工具、科研机构与算法框架
目录 分为两个部分,笔者看到的知识图谱在商业领域的应用,外加看到的一些算法框架与研究机构. 文章目录 @ 一.知识图谱商业应用 01 唯品金融大数据 02 PlantData知识图谱数据智能平台 03 ...
- ERNIE:知识图谱结合BERT才是「有文化」的语言模型
自然语言表征模型最近受到非常多的关注,很多研究者将其视为 NLP 最重要的研究方向之一.例如在大规模语料库上预训练的 BERT,它可以从纯文本中很好地捕捉丰富的语义模式,经过微调后可以持续改善不同 N ...
随机推荐
- ClickHouse的向量处理能力
ClickHouse的向量处理能力 引言 在过去,非结构化数据(如文本.图片.音频.视频)通常被认为难以在数据库中直接使用,因为这些数据类型的多样性和复杂性.然而,随着技术的发展,嵌入技术可以将非结构 ...
- 计算机领域:学术写作中的conducive的含义表示
"Conducive" 的意思是"有助于"或"有益于".在学术和正式的写作中,"conducive" 常用于描述某种情况 ...
- Jax框架的性能分析——性能分析可视化
官方文档: https://jax.readthedocs.io/en/latest/profiling.html 将jax代码的性能文件写入到文件夹中,并给出上传第三方网站的链接生成(https:/ ...
- DQN2013代码尝试复现版(存在各种实现问题及Bug,个人尝试复现版,没有follow价值)
在网上找的各种dqn代码修改而成,只实现了基本功能,对各个游戏的适配性没有进行,代码中还存在各种bug,属于草稿品质,不适合fellow,只是一时学习之用而进行尝试的残次半成品.核心代码已实现,为DQ ...
- 记录一次实验室linux系统的GPU服务器死机排查过程——某显卡满负荷导致内核进程超时导致系统死机
在自己没有管理多台高负荷的ubuntu显卡服务器之前,我是万万想不到linux服务器居然也是如此容易死机的. 什么每个版本的TensorFlow调用显卡驱动时和内核不兼容,什么系统自动升级导致的显卡驱 ...
- java主线程等待多个子线程中任意一个有结果后,主线程继续执行
1.背景 2.代码 package com.qianxingniwo.ls; import org.junit.Test; import java.util.concurrent.atomic.Ato ...
- lua环境配置与编译
1.背景 2.安装lua 官方下载地址:https://joedf.ahkscript.org/LuaBuilds/ 下载后解压即可 解压后: 配置环境变量: 检查是否安装成功: 如果能输出版本号,则 ...
- 利用 Amazon EMR Serverless、Amazon Athena、Apache Dolphinscheduler 以及本地 TiDB 和 HDFS 在混合部署环境中构建无服务器数据仓库(一)云上云下数据同步方案设计
引言 在数据驱动的世界中,企业正在寻求可靠且高性能的解决方案来管理其不断增长的数据需求.本系列博客从一个重视数据安全和合规性的 B2C 金融科技客户的角度来讨论云上云下混合部署的情况下如何利用亚马逊云 ...
- SMU Autumn 2023 Round 3(Div.1)
SMU Autumn 2023 Round 3(Div.1) A. Find The Array 要满足"b数组内任意一个元素满足可以被数组两边的元素整除"这个条件,我们很容易想到 ...
- STM32F3, STM32F4编程手册
1. Cortex-M4的内核设备 NVIC, Nested vectored interrupt controller SCB, System control block SysTick, The ...