本文由美团 NLP 团队高辰.赵登昌撰写 首发于 Nebula Graph 官方论坛:https://discuss.nebula-graph.com.cn/t/topic/1377 1. 前言 近年来,深度学习和知识图谱技术发展迅速,相比于深度学习的"黑盒子",知识图谱具有很强的可解释性,在搜索推荐.智能助理.金融风控等场景中有着广泛的应用.美团基于积累的海量业务数据,结合使用场景进行充分地挖掘关联,逐步建立起包括美食图谱.旅游图谱.商品图谱在内的近十个领域知识图谱,并在多业务场景落…
导读 索引是数据库系统中不可或缺的一个功能,数据库索引好比是书的目录,能加快数据库的查询速度,其实质是数据库管理系统中一个排序的数据结构.不同的数据库系统有不同的排序结构,目前常见的索引实现类型如 B-Tree index.B+-Tree index.B*-Tree index.Hash index.Bitmap index.Inverted index 等等,各种索引类型都有各自的排序算法. 虽然索引可以带来更高的查询性能,但是也存在一些缺点,例如: 创建索引和维护索引要耗费额外的时间,往往是…
摘要:本文主要介绍 Query 层的整体结构,并通过一条 nGQL 语句来介绍其通过 Query 层的四个主要模块的流程. 一.概述 分布式图数据库 Nebula Graph 2.0 版本相比 1.0 有较大改动,最明显的变化便是,在 1.0 版本中 Query.Storage 和 Meta 模块代码不作区分放在同一个代码仓中,而 Nebula Graph 2.0 开始在架构上先解耦成三个代码仓:nebula-graph.nebula-common 和 nebula-storage,其中 neb…
1 概述 1.1 需求背景 图数据库 Nebula Graph 在生产环境中将拥有庞大的数据量和高频率的业务处理,在实际的运行中将不可避免的发生人为的.硬件或业务处理错误的问题,某些严重错误将导致集群无法正常运行或集群中的数据失效.当集群处于无法启动或数据失效的状态时,重新搭建集群并重新倒入数据都将是一个繁琐并耗时的工程.针对此问题,Nebula Graph 提供了集群 snapshot 的创建功能. Snapshot 功能需要预先提供集群在某个时间点 snapshot 的创建功能,以备发生灾难…
Nebula Graph 是开源的分布式图数据库,可应用于知识图谱.社交推荐.风控.IoT 等场景. 本次 RC2 主要新增 GO FROM ... REVERSELY 和 GROUP BY 等语句,Storage Engine 也更灵活,用户可以通过 Console 或 Http 获取配置信息,触发 compaction:客户端目前支持 Python,Java,Go:在工具方面,增强了 CSV Importer 功能 Query Engine 支持 GROUP BY 语句用于聚合函数,根据一个…
@ 目录 概述 定义 特性 与Hbase对比 Cassandra使用场景 术语 架构 概览 Dynamo 数据集分区使用令牌环的一致性哈希 存储引擎 部署 单实例部署 集群部署 CQL 概述 数据模型 数据类型 null 基础操作 键空间 表 key索引 索引 操作数据 概述 定义 Apache Cassandra 官网地址 https://cassandra.apache.org/ 最新版本4.1.1 Apache Cassandra 官网文档地址 https://cassandra.apac…
掌握搜索技能,才能在庞大的数据集中找到准确的目标.本篇就带你进入另一个非凡的旅程,即使你没有像Google或Baidu一样强大的技术,一样也可以做出与之相匹敌的用户体验. 搜索是现代软件必备的一项基础功能,而 Elasticsearch 就是一款功能强大的开源分布式搜索与数据分析引擎. 它可以从海量数据中快速找到相关信息,在同领域内几乎没有竞争对手——近两年 DBRanking 的数据库评测中,ES 在搜索引擎领域始终位列第一. 当你在 GitHub 上搜索时,Elasticsearch 可以实…
一道面试题的引入: 如果面试的时候碰到这样一个面试题:ElasticSearch(以下简称ES) 在数据量很大的情况下(数十亿级别)如何提高查询效率? 这个问题说白了,就是看你有没有实际用过 ES,因为啥?其实 ES 性能并没有你想象中那么好的. 很多时候数据量大了,特别是有几亿条数据的时候,可能你会懵逼的发现,跑个搜索怎么一下 5~10s,坑爹了. 第一次搜索的时候,是 5~10s,后面反而就快了,可能就几百毫秒. 然后你就很懵,每个用户第一次访问都会比较慢,比较卡么?所以你要是没玩儿过 ES…
HBase(Hadoop Database)是一个高可靠性.高性能.面向列.可伸缩的分布式存储系统,我们可以利用HBase技术在廉价的PC上搭建起大规模结构化存储集群.同Google的Bigtable基于GFS(Google FileSystem)所提供分布式数据存储服务一样,HBase基于HDFS之上也能提供类似的分布式数据存储服务.HBase利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理HBase中的海量数据,利用Zookeeper作为协调工具.HB…
Nebula Graph:一个开源的分布式图数据库.作为唯一能够存储万亿个带属性的节点和边的在线图数据库,Nebula Graph 不仅能够在高并发场景下满足毫秒级的低时延查询要求,而且能够提供极高的服务可用性和数据安全性. 本篇主要介绍 Nebula Graph 的数据模型和系统架构设计. 有向属性图 DirectedPropertyGraph Nebula Graph 采用易理解的有向属性图来建模,也就是说,在逻辑上,图由两种图元素构成:顶点和边. 有向属性图 顶点 Vertex 在 Neb…