引子 Nebula Graph 的技术总监在 09.24 - 09.30 期间同开源中国·高手问答的小伙伴们以「图数据库的设计和实践」为切入点展开讨论,包括:「图数据库的存储设计」.「图数据库的计算设计」.「图数据库的架构设计」等方面内容,本文整理于他和开源中国小伙伴对图数据库的讨论内容~ 嘉宾·陈恒介绍 陈恒,开源的分布式图数据库 Nebula Graph 技术总监,图数据库领域专家 & HBase Committer.北京邮电大学硕士,曾就职于蚂蚁金服.猿题库.网易等公司,一直从事基础设施相…
  Caffe Torch Theano TensorFlow Language C++, Python Lua Python Python Pretrained Yes ++ Yes ++ Yes (Lasagne) Inception Multi-GPU: Data parallel Yes Yes Yes Yes Multi-GPU: Model parallel No Yes Experimental Yes (best) Readable source code Yes (C++) Y…
图数据库(英语:Graph Database)是一个使用图结构进行语义查询的数据库.该系统的关键概念是图,形式上是点 (Node 或者 Vertex) 和边 (Edge 或者 Relationship) 的集合.一个顶点代表一个实体,比如,某个人,边则表示两个实体间的关联关系,比如 "你关注 Nebula Graph"的关注关系.图广泛存在于现实世界中,从社交网络到风控场景.从知识图谱到智能推荐. Nebula Graph 是什么 Nebula Graph 是一款开源的分布式图数据库,…
Nebula Graph 是开源的分布式图数据库,可应用于知识图谱.社交推荐.风控.IoT 等场景. 本次 RC2 主要新增 GO FROM ... REVERSELY 和 GROUP BY 等语句,Storage Engine 也更灵活,用户可以通过 Console 或 Http 获取配置信息,触发 compaction:客户端目前支持 Python,Java,Go:在工具方面,增强了 CSV Importer 功能 Query Engine 支持 GROUP BY 语句用于聚合函数,根据一个…
本文内容节选自由msup主办的第七届TOP100summit,北京一流科技有限公司首席科学家袁进辉(老师木)分享的<让AI简单且强大:深度学习引擎OneFlow背后的技术实践>实录. 北京一流科技有限公司将自动编排并行模式.静态调度.流式执行等创新性技术相融合,构建成一套自动支持数据并行.模型并行及流水并行等多种模式的分布式深度学习框架,降低了分布式训练门槛.极大的提高了硬件使用率.该框架已经成功帮助众多头部互联网公司及人工智能企业提升了大模型训练效率,节约了硬件运营和使用成本,达到了降本增效…
作为人工智能最前沿的技术之一,图深度学习被公认是人工智能认识世界实现因果推理的关键,也是深度学习未来发展的方向.但深度学习对图数据模型的支持性差一直是众多研究者难以攻克的难点,因此图深度学习在实际生产中一直难以得到普及. 不过,图深度学习的瓶颈即将被打破.华为云计划9月推出的一站式AI开发平台ModelArts多个关键新特性中,将新增图深度学习功能.ModelArt联合图引擎打造的"图神经网络",让图深度学习真正落地,加速实现普惠AI. 强大图引擎助力突破图深度学习瓶颈 尽管图深度学习…
导读 索引是数据库系统中不可或缺的一个功能,数据库索引好比是书的目录,能加快数据库的查询速度,其实质是数据库管理系统中一个排序的数据结构.不同的数据库系统有不同的排序结构,目前常见的索引实现类型如 B-Tree index.B+-Tree index.B*-Tree index.Hash index.Bitmap index.Inverted index 等等,各种索引类型都有各自的排序算法. 虽然索引可以带来更高的查询性能,但是也存在一些缺点,例如: 创建索引和维护索引要耗费额外的时间,往往是…
11 月 2 号 - 11 月 3 号,以"大爱无疆,开源无界"为主题的 2019 中国开源年会(COSCon'19)正式启动,大会以开源治理.国际接轨.社区发展和开源项目为切入点同全球开源爱好者们共同交流开源. 作为图数据库技术的代表,Nebula Graph 总监--吴敏在本次大会上将会讲述了大规模分布式图数据库设计思考和实践.在信息爆发式增长和内容平台遍地开花的信息时代,图数据库在当中扮演了什么样的角色?同传统数据库相比,图数据库又有什么优势?图数据库开发需要哪些新技术?就此,开…
本文首发于 Nebula Graph Community 公众号 背景 企查查是企查查科技有限公司旗下的一款企业信用查询工具,旨在为用户提供快速查询企业工商信息.法院判决信息.关联企业信息.法律诉讼.失信信息.被执行人信息.知识产权信息.公司新闻.企业年报等服务. 为更好地展现企业之间的法律诉讼.风险信息.股权信息.董监高法等信息,我们抽取结构化/非结构化的企业数据构建企业知识图谱,为用户提供真实可靠的服务. 图数据库选择 在最初的时候,我们用的是 Neo4j HA cluster 作为存储端.…
本文首发于 Nebula Graph Community 公众号 当游戏上知识图谱,网易游戏是如何应对大规模图数据的管理问题,Nebula Graph 又是如何帮助网易游戏落地游戏内复杂的图的业务呢?在本文,我们来一探究竟. 游戏中的图数据 目前网易游戏大部分的产品都是在线游戏,作为国际领先的头部游戏厂商,网易所吸引的在线玩家数量也是众多的,那么大量的玩家登录我们的游戏势必产生大量各种操作性数据. 如上图中间显示的交易数据--玩家可以购买商城里的物品,或者直接购买其他玩家的物品:社交数据--加好…
1 应用开发概述 基于数据传输效率以及接口自定义等特殊性需求,我们暂时放弃使用Neo4j服务器版本,而是在Neo4j嵌入式版本的基础上进行一些封装性的开发.封装的重点,是解决Neo4j嵌入式版本EmbeddedGraphDatabase中不能同时创建多个实例指向同一个数据库的问题.如果开发人员使用Neo4j嵌入式版本作为数据库,要想实现多个程序共享一个数据库,这将是一个不可回避的问题.本手册给出的解决方案是“构建一个中间服务层,提供各种接口方法,指向同一个数据库实例:其他客户端程序通过中间服务层…
标题:Local Spectral Graph Convolution for Point Set Feature Learning 作者:Chu Wang, Babak Samari, Kaleem Siddiqi 译者:Elliott Zheng 来源:ECCV 2018 Abstract 点云的特征学习已经显示出巨大的希望,引入了有效且可推广的深度学习框架,例如pointnet ++. 然而,到目前为止,点特征已经以独立和孤立的方式被抽象,忽略了相邻点的相对布局及其特征.在本文中,我们建议…
目录 1. 简介 2. 近几年发表的主要工具 1.DeepRT 2.Prosit 3. DIANN 4.DeepDIA 1. 简介 基于串联质谱的蛋白质组学大部分是依赖于数据库(database search)的bottom-up策略研究.也就是实际谱图和理论谱图进行匹配打分,从而实现肽段和蛋白的鉴定和定量.如果是DDA的数据,因为一张二级谱是一条肽段,直接将数据库理论酶切碎裂后的理论谱和实际谱图匹配即可.但如果是DIA的数据,因为二级谱是混合谱,即来源于很多肽段,而且碎片离子还会受到未碎裂的母…
上一篇提到文字数据集的合成,现在我们手头上已经得到了3755个汉字(一级字库)的印刷体图像数据集,我们可以利用它们进行接下来的3755个汉字的识别系统的搭建.用深度学习做文字识别,用的网络当然是CNN,那具体使用哪个经典网络?VGG?RESNET?还是其他?我想了下,越深的网络训练得到的模型应该会更好,但是想到训练的难度以及以后线上部署时预测的速度,我觉得首先建立一个比较浅的网络(基于LeNet的改进)做基本的文字识别,然后再根据项目需求,再尝试其他的网络结构.这次任务所使用的深度学习框架是强大…
架构师小组交流会是由国内知名公司技术专家参与的技术交流会,每期选择一个时下最热门的技术话题进行实践经验分享.第一期:来自沪江.滴滴.蘑菇街.扇贝架构师的 Docker 实践分享 第二期:来自滴滴.微博.唯品会.魅族.点评关于高可用架构的实践分享 第三期:京东.宅急送的微服务实践分享(上)(下) 第四期小组交流会邀请到了 Polarr 联合创始人宫恩浩.搜狗大数据总监高君.七牛云 AI 实验室负责人彭垚,对深度学习框架选型.未来趋势展开了交流. 自由交流 Polarr 宫恩浩 我是宫恩浩,现在在斯…
上一篇提到文字数据集的合成,现在我们手头上已经得到了3755个汉字(一级字库)的印刷体图像数据集,我们可以利用它们进行接下来的3755个汉字的识别系统的搭建.用深度学习做文字识别,用的网络当然是CNN,那具体使用哪个经典网络?VGG?RESNET?还是其他?我想了下,越深的网络训练得到的模型应该会更好,但是想到训练的难度以及以后线上部署时预测的速度,我觉得首先建立一个比较浅的网络(基于LeNet的改进)做基本的文字识别,然后再根据项目需求,再尝试其他的网络结构.这次任务所使用的深度学习框架是强大…
英特尔与 Facebook 曾联手合作,在多卡训练工作负载中验证了 BFloat16 (BF16) 的优势:在不修改训练超参数的情况下,BFloat16 与单精度 32 位浮点数 (FP32) 得到了相同的准确率.现在,英特尔发布了第三代英特尔 至强 可扩展处理器(代号 Cooper Lake),该处理器集成了支持 BF16 的英特尔 深度学习加速技术(英特尔 DL Boost),可大幅提升训练和推理能力,并且也支持去年推出的英特尔 深度学习 INT8 加速技术. 英特尔和 Facebook 不…
本文首发于 Nebula Graph 官方博客:https://nebula-graph.com.cn/posts/nebula-graph-risk-control-boss-zhipin/ 摘要:在本文中,BOSS 直聘大数据开发工程师主要分享一些他们内部的技术指标和选型,以及很多小伙伴感兴趣的 Dgraph 对比使用经验. 业务背景 在 Boss 直聘的安全风控技术中,需要用到大规模图存储和挖掘计算,之前主要基于自建的高可用 Neo4j 集群来保障相关应用,而在实时行为分析方面,需要一个支…
摘要:本文主要介绍 Query 层的整体结构,并通过一条 nGQL 语句来介绍其通过 Query 层的四个主要模块的流程. 一.概述 分布式图数据库 Nebula Graph 2.0 版本相比 1.0 有较大改动,最明显的变化便是,在 1.0 版本中 Query.Storage 和 Meta 模块代码不作区分放在同一个代码仓中,而 Nebula Graph 2.0 开始在架构上先解耦成三个代码仓:nebula-graph.nebula-common 和 nebula-storage,其中 neb…
本文首发于 Nebula Graph Community 公众号 ​在图论中,介数(Betweenness)反应节点在整个网络中的作用和影响力.而本文主要介绍如何基于 Nebula Graph 图数据库实现 Betweenness Centrality 介数中心性的计算. 1. 算法介绍 中心性是用来衡量一个节点在整个网络图中所在中心程度的概念,包括度中心性.接近中心性.中介中心性等. 其中度中心性通过节点的度数(即关联的边数)来刻画节点的受欢迎程度,接近中心性是通过计算每个节点到全图其他所有节…
Nebula Graph:一个开源的分布式图数据库.作为唯一能够存储万亿个带属性的节点和边的在线图数据库,Nebula Graph 不仅能够在高并发场景下满足毫秒级的低时延查询要求,而且能够提供极高的服务可用性和数据安全性. 本篇主要介绍 Nebula Graph 的数据模型和系统架构设计. 有向属性图 DirectedPropertyGraph Nebula Graph 采用易理解的有向属性图来建模,也就是说,在逻辑上,图由两种图元素构成:顶点和边. 有向属性图 顶点 Vertex 在 Neb…
1 概述 1.1 需求背景 图数据库 Nebula Graph 在生产环境中将拥有庞大的数据量和高频率的业务处理,在实际的运行中将不可避免的发生人为的.硬件或业务处理错误的问题,某些严重错误将导致集群无法正常运行或集群中的数据失效.当集群处于无法启动或数据失效的状态时,重新搭建集群并重新倒入数据都将是一个繁琐并耗时的工程.针对此问题,Nebula Graph 提供了集群 snapshot 的创建功能. Snapshot 功能需要预先提供集群在某个时间点 snapshot 的创建功能,以备发生灾难…
Nebula Graph:一个开源的分布式图数据库.作为唯一能够存储万亿个带属性的节点和边的在线图数据库,Nebula Graph 不仅能够在高并发场景下满足毫秒级的低时延查询要求,还能够实现服务高可用且保障数据安全性. 本文目录 简介 Nebula 整体架构 Meta Service Storage Service Graph Service 安装部署 单机运行 集群部署 环境准备 安装 配置 测试集群 简介 Nebula Graph 是开源的第三代分布式图数据库,不仅能够存储万亿个带属性的节…
导读 身处在现在这个大数据时代,我们处理的数据量需以 TB.PB, 甚至 EB 来计算,怎么处理庞大的数据集是从事数据库领域人员的共同问题.解决这个问题的核心在于,数据库中存储的数据是否都是有效的.有用的数据,因此如何提高数据中有效数据的利用率.将无效的过期数据清洗掉,便成了数据库领域的一个热点话题.在本文中我们将着重讲述如何在数据库中处理过期数据这一问题. 在数据库中清洗过期数据的方式多种多样,比如存储过程.事件等等.在这里笔者举个例子来简要说明 DBA 经常使用的存储过程 + 事件来清理过期…
本文系腾讯云安全团队李航宇.邓昶博撰写 图数据库在挖掘黑灰团伙以及建立安全知识图谱等安全领域有着天然的优势.为了能更好的服务业务,选择一款高效并且贴合业务发展的图数据库就变得尤为关键.本文挑选了几款业界较为流行的开源图数据库与 Nebula Graph 进行了多角度的对比. 图数据库介绍 Neo4j Neo4j 是目前业界广泛使用的图数据库,包含社区版本和商用版本,本文中使用社区版本. HugeGraph HugeGraph 是百度基于 JanusGraph 改进而来的分布式图数据库,主要应用场…
不同来源的异构数据间存在着千丝万缕的关联,这种数据之间隐藏的关联关系和网络结构特性对于数据分析至关重要,图计算就是以图作为数据模型来表达问题并予以解决的过程. 一.背景 随着网络信息技术的飞速发展,数据逐渐向多源异构化方向发展,且不同来源的异构数据之间也存在的千丝万缕的关联,这种数据之间隐藏的关联关系和网络结构特性对于数据分析至关重要.但传统关系型数据库在分析大规模数据关联特性时存在性能缺陷.表达有限等问题,因此有着更强大表达能力的图数据受到业界极大重视,图计算就是以图作为数据模型来表达问题并予…
摘要 在讨论某个数据库时,存储 ( Storage ) 和计算 ( Query Engine ) 通常是讨论的热点,也是爱好者们了解某个数据库不可或缺的部分.每个数据库都有其独有的存储.计算方式,今天就和图图来学习下图数据库 Nebula Graph 的存储部分. Nebula 的 Storage 包含两个部分, 一是 meta 相关的存储, 我们称之为 Meta Service ,另一个是 data 相关的存储, 我们称之为 Storage Service. 这两个服务是两个独立的进程,数据也…
Motivation 图数据库中的高科技和高安全性中引用了一个关于图数据库(graph database)的应用前景的乐观估计: 预计到2017年,图数据库产业在数据库市场的份额将从2个百分点增长到25个百分点,在此过程中图数据库工具将会逐步获得企业认可,并且其消费群体会持续增长. 文中从图发现.图知识管理和图预测角度阐述图数据库生态系统面临的技术和安全性挑战. 由于有语义网初步研究的背景,对图数据库NoSQL实现中triple概念感到亲切:在一本名为Graph database的Neo4j技术…
Nebula Graph 是一个高性能的分布式开源图数据库,本文为大家介绍 Nebula Graph 的整体架构. 一个完整的 Nebula 部署集群包含三个服务,即  Query Service,Storage Service 和 Meta Service.每个服务都有其各自的可执行二进制文件,这些二进制文件既可以部署在同一组节点上,也可以部署在不同的节点上. Meta Service 上图为 Nebula Graph 的架构图,其右侧为 Meta Service 集群,它采用 leader…
摘要 上文(存储篇)说到数据库重要的两部分为存储和计算,本篇内容为你解读图数据库 Nebula 在查询引擎 Query Engine 方面的设计实践. 在 Nebula 中,Query Engine 是用来处理 Nebula 查询语言语句(nGQL).本篇文章将带你了解 Nebula Query Engine 的架构. 上图为查询引擎的架构图,如果你对 SQL 的执行引擎比较熟悉,那么对上图一定不会陌生.Nebula 的 Query Engine 架构图和现代 SQL 的执行引擎类似,只是在查询…