摘要:openGemini是一个开源的分布式时序数据库系统,可广泛应用于物联网、车联网、运维监控、工业互联网等业务场景,具备卓越的读写性能和高效的数据分析能力。

本文分享自华为云社区《华为云面向全球正式开放openGemini内核源码》,作者: 云数据库创新Lab。

一、背景介绍

物联网时代已经来临,物联网设备走进我们的日常生活,例如智能冰箱、电动汽车、智能手表等等。公开报告显示,预计到2025年,中国的物联网连接数会占到全球的30%。这些联网的设备每时每刻都在产生大量的数据,每天的数据增长量可以达到GB级甚至TB级,给数据库带来非常大的挑战,例如:高并发写入大量数据导致数据入库太慢,海量数据引起过高的存储成本和查询时延等等。时序场景作为物联网领域的典型场景,与传统关系型数据库场景有很大区别,时序数据库专为时序场景设计和优化,近年来开始受到越来越多的关注。

华为云整合产业和技术优势,打造了业界领先的企业级时序数据库GaussDB for Influx,并经过外部公有云业务服务化的锤炼以及内部DevOps等业务的长时间打磨,在大规模集群、高性能查询、分级压缩存储等方面都有明显优势。今年6月,华为云宣布将GaussDB for Influx内核正式对外开源,开源品牌命名为openGemini。

openGemini是一个开源的分布式时序数据库系统,可广泛应用于物联网、车联网、运维监控、工业互联网等业务场景,具备卓越的读写性能和高效的数据分析能力。

二、openGemini软件架构

2.1架构设计

openGemini采用MPP 大规模并行处理分层架构,由ts-sql(计算引擎)、ts-store(存储引擎)、ts-meta(元数据引擎)三大部分组成。openGemini既支持集群部署,也可以单机部署。

ts-sql:统一处理客户端请求

  • 提供RESTful接口
  • 兼容InfluxDB Line Protocol和v1 API,同时也支持Prometheus的远程数据读写
  • 查询语句执行期间,从ts-store获取数据并汇总,并返回客户端
  • 支持横向扩展

ts-store:数据管理

  • 将原始数据按优化设计的数据格式进行统一组织和存储
  • 按时间范围和时间线ID查询数据
  • 支持横向扩展

ts-meta:元数据管理

  • 数据库集群元数据管理,如节点信息等
  • 数据库元数据管理,如数据保留时间、数据分区信息、表信息等

2.2关键特性

高性能读写

  • 每秒千万级指标数据并发写入,毫秒级查询响应支持时序数据分析
  • 内置AI数据分析算法,支持实时异常检测和预测

兼容时序生态

  • 完全兼容InfluxDB Line Protocol 和 InfluxQL
  • 无缝集成现有InfluxDB工具链
  • 支持Prometheus远程数据存储

分布式

  • 提供了水平扩展能力,支持数百节点集群规模

海量时序数据高效管理

  • 支持亿级时间线管理
  • 内置高效数据压缩算法,存储成本只有传统关系数据库的1/20

部署灵活

  • 部署只需运行编译生成的可执行文件,无需外部依赖
  • 所有数据库配置参数均有合理的默认值,无需手动设置
  • 支持单机和集群部署

三、openGemini有什么优势

3.1性能优势

针对物联网、运维监控等领域海量数据管理和分析的需求,openGemini对计算引擎和存储引擎做了大量的优化设计。

  • 查询引擎,实现了向量化、分布式计算、算子下推、预聚合等多种查询优化和执行技术,提升了数据查询效率。在工业物联网、运维监控等场景中实现交互级的查询时延,并且在超大数据基数(万亿级)的情况下,也能够达到很低的查询时延。
  • 存储引擎,设计列式数据存储格式,将多元时间序列数据按时间对齐,减少时间戳的重复存储,并开发了一套高效的存储引擎,实现了数据有序存储、数据分区分级、数据预取、稀疏索引等丰富功能。

数据吞吐量和查询时延是评价一个时序数据库性能的关键指标,openGemini经过大量优化后,整体性能表现出色。下方的测试结果显示了openGemini 从4U扩展到32U的性能表现,可以看出:

  • 从4U到32U,openGemini写入性能可以线性扩展(扩展比为0.8)
  • 从4U的155万Metrics/s平稳增长到32U的560万Metrics/s

在业界流行的时序数据库Benchmark测试工具TSBS的15个标准测试场景中,openGemini性能表现优异,15个标准测试场景可分为简单查询、中等查询和复杂查询三大类型:

  • 简单查询:少量或者没有使用函数或表达式,查询时间范围在24小时以内,查询时延数毫秒。
  • 中等查询:使用多个函数或表达式,查询时间范围在几周内,并且使用了GROUP BY分组,查询时延在数十毫秒到数百毫秒。
  • 复杂查询:使用了多个聚合函数或表达式,按月或者按年为时间范围查询,查询时延通常可能会达分钟级。

openGemini相比开源InfluxDB,简单查询场景提升2倍多,中等查询场景提升4倍多;复杂查询场景下,openGemini依然可以快速响应,然而InfluxDB则出现OOM无法工作。

3.2丰富的数据分析能力

时序数据采集的最终目的是让数据被理解和使用,数据分析是其中关键的一环。时序数据库具有广泛的应用场景,使得时序应用日益多样化,数据分析需求在不断变化和增加,这要求时序数据库能快速应对不同数据分析需求,不断丰富内部的分析算子。

与此同时,传统的大数据分析工具(比如Spark、Flink等)过于厚重,部署成本高;搭配时序数据库进行分析时,离数据较远,数据分析实时性无法满足要求。随着物联网、传感器技术、5G的快速发展,迫切需要一种更有效的方法来处理海量、高速的时序数据,而用户真正需要的是一个能够以最低时延和最高吞吐量处理、检测和预测信息的系统,这样的系统在业界开源的数据库中少之又少。

相对应的,openGemini具有丰富的聚合分析算子(COUNT、SUM、MAX、MIN等共计60余种)、统计分析算子(PERCENTILE分位数、HISTOGRAM直方图等)、异常检测和预测算子(内置13种异常检测器,可覆盖常见的离群点、数值变化、阈值、持续上升下降等时序异常场景)。其中基于AI的异常检测的实现过程中,充分考虑了数据分布,提供近数据计算能力,能提升端到端数据分析和计算效率。

3.3降低成本,增加效益

openGemini 源于华为云GaussDB for Influx,GaussDB for Influx已经在华为云许多内部重要业务上使用,通过技术的升级,替代了Cassandra、InfluxDB、HBase、OpenTSDB等多套系统部署,实现了降本增效。

openGemini在承载相同业务场景下,较原系统端到端时延减低50%,CPU资源上可以节省68%,内存资源可以节省50%,硬盘资源可以节省90%以上。

四、为什么开源

开源是开放创新的有效手段,是数字时代的事实标准和专利。DB-Engines的统计数据表明,从 2021 年开始,开源数据库的流行指数已经超过商用数据库,开源时序数据库占比更是高达80%,openGemini时序数据库作为基础软件,也需要拥抱开源。

源于开源,回馈开源

openGemini时序数据库经历了几个发展阶段。从最初基于开源InfluxDB的架构改造,到应对内部数十亿海量时间线挑战,再到自研数据库引擎,一路打磨,经受住了华为云内、外部100余家用户的生产检验。openGemini现在以及将来取得的成绩,都离不开开源社区肥沃的土壤。openGemini的开源,希望可以倡导开源文化,以实际行动回馈开源。

开放合作,共建共享

我们深知独木难成林,百川聚江海的道理,但开源生态建设并非朝夕之功,也并非一个企业自身就能完成,而是一个聚沙成塔、集腋成裘的过程,唯有携手伙伴共建、共享,方能打造出健康繁荣的开源生态。我们希望把openGemini社区作为一个支点、一个开放创新平台,通过释放华为云内部多年积累的时序数据库技术研发和应用的实践经验,吸引更多的伙伴与开发者参与贡献,不断改善openGemini生态和竞争力,持续打造开放的技术产品和应用生态,使能物联网、工业互联网等行业数字化转型,促进产业协同,以应对生存环境愈发复杂,行业竞争愈发激烈,业务发展愈发多样的数字化时代。

版本说明

本次发布的v0.1.0是具有完整时序数据库功能的版本,详细信息请点击查看用户指南。

v0.1.0版本主要特性:

  • 支持单机和分布式集群部署,高性能和可扩展
  • 支持证书验证和用户鉴权
  • 完全兼容InfluxDB Line Protocol v1、InfluxQL
  • 支持Prometheus远程数据读写
  • 支持Linux操作系统
  • 丰富的内核运行指标(60余项),提供指标监测的工具ts-monitor

详细版本路标已发布,请前往社区查阅。

加入社区

为方便了解和参与社区贡献,我们为您准备了贡献指南

其他

社区合作、寻求社区帮助、相关问题咨询渠道:

  1. 推荐在GitHub上给社区提交Issue和Discussion
  2. 发送邮件到openGemini社区邮箱(community.ts@opengemini.org),1-2个工作日内给与回复
  3. 加入openGemini社区微信交流群(微信添加 xiangyu5632,备注openGemini)
  4. 加入Slack。

openGemini官网主页: http://www.openGemini.org/

openGemini开源地址: https://github.com/openGemini

点击关注,第一时间了解华为云新鲜技术~

openGemini内核源码正式对外开源的更多相关文章

  1. 鸿蒙内核源码分析(源码注释篇) | 鸿蒙必定成功,也必然成功 | 百篇博客分析OpenHarmony源码 | v13.02

    百篇博客系列篇.本篇为: v13.xx 鸿蒙内核源码分析(源码注释篇) | 鸿蒙必定成功,也必然成功 | 51.c.h .o 几点说明 kernel_liteos_a_note | 中文注解鸿蒙内核 ...

  2. git获取内核源码的方法

    [转]http://www.360doc.com/content/17/0410/16/23107068_644444795.shtml 1. 前言 本文主要讲述ubuntu下通过git下载linux ...

  3. LiteOS内核源码分析:任务LOS_Schedule

    摘要:调度,Schedule也称为Dispatch,是操作系统的一个重要模块,它负责选择系统要处理的下一个任务.调度模块需要协调处于就绪状态的任务对资源的竞争,按优先级策略从就绪队列中获取高优先级的任 ...

  4. 鸿蒙内核源码分析(GN应用篇) | GN语法及在鸿蒙的使用 | 百篇博客分析OpenHarmony源码 | v60.01

    百篇博客系列篇.本篇为: v60.xx 鸿蒙内核源码分析(gn应用篇) | gn语法及在鸿蒙的使用 | 51.c.h.o 编译构建相关篇为: v50.xx 鸿蒙内核源码分析(编译环境篇) | 编译鸿蒙 ...

  5. v78.01 鸿蒙内核源码分析(消息映射篇) | 剖析LiteIpc(下)进程通讯机制 | 百篇博客分析OpenHarmony源码

    百篇博客分析|本篇为:(消息映射篇) | 剖析LiteIpc(下)进程通讯机制 进程通讯相关篇为: v26.08 鸿蒙内核源码分析(自旋锁) | 当立贞节牌坊的好同志 v27.05 鸿蒙内核源码分析( ...

  6. Linux内核源码分析方法

    一.内核源码之我见 Linux内核代码的庞大令不少人“望而生畏”,也正因为如此,使得人们对Linux的了解仅处于泛泛的层次.如果想透析Linux,深入操作系统的本质,阅读内核源码是最有效的途径.我们都 ...

  7. Linux基础系列—Linux内核源码目录结构

    /** ****************************************************************************** * @author    暴走的小 ...

  8. Linux内核源码分析--内核启动之(3)Image内核启动(C语言部分)(Linux-3.0 ARMv7)

    http://blog.chinaunix.net/uid-20543672-id-3157283.html Linux内核源码分析--内核启动之(3)Image内核启动(C语言部分)(Linux-3 ...

  9. Linux内核源码分析 day01——内存寻址

    前言 Linux内核源码分析 Antz系统编写已经开始了内核部分了,在编写时同时也参考学习一点Linux内核知识. 自制Antz操作系统 一个自制的操作系统,Antz .半图形化半命令式系统,同时嵌入 ...

  10. 【转】Linux内核源码分析方法

    一.内核源码之我见 Linux内核代码的庞大令不少人“望而生畏”,也正因为如此,使得人们对Linux的了解仅处于泛泛的层次.如果想透析Linux,深入操作系统的本质,阅读内核源码是最有效的途径.我们都 ...

随机推荐

  1. C# 在流行度指数上将超过Java

    2023年10月最新的TIOBE编程语言流行指数表明:C#和Java之间的差距从未如此之小,目前,差异仅为1.2%,如果趋势保持这种状态,C#将在大约2个月内超过Java,TIOBE Software ...

  2. RLChina理论三:强化学习基础

    强化学习基础 马尔可夫决策过程就是在,环境自发做出转变,是个随波逐流的过程,At是智能体的行动,在St环境状态下加入At动作,c才进入下个状态S(t+1),即环境有自己的变化,也加入了智能体的决策. ...

  3. PTA乙级1044C++(手动打表hhh)

    1044 火星数字 (20 分) 火星人是以 13 进制计数的: 地球人的 0 被火星人称为 tret. 地球人数字 1 到 12 的火星文分别为:jan, feb, mar, apr, may, j ...

  4. 欧拉序求LCA

    使用欧拉序 st 表 O(1) 求 LCA 欧拉序 st 表求 LCA 一开始是从某篇题解里看到的,后来百度了一下就会了( 这是一种预处理 O(nlogn) ,查询 O(1) 的优秀算法. 什么是欧拉 ...

  5. centos7通过yum安装mysql5.7以上版本

    1.检查并卸载mariadb yum remove *mariadb* 遇到要求输入直接y/n 直接输入y回车 2.下载并安装mysql mysql源地址:https://repo.mysql.com ...

  6. .Net Core3中微信退款证书本地调试正常读取证书,在服务器IIS中加载不到证书文件

    如图,在开发微信退款功能时,需要用到微信提供的证书文件.本地开发调试时是正常的,但放到服务器(WinServer 2012 R2)中,则报错提示找不到文件. 网上找了一堆骚操作都没什么卵用,最后在其中 ...

  7. Go 接口:nil接口为什么不等于nil?

    Go 接口:nil接口为什么不等于nil? 本文主要内容:深入了解接口类型的运行时表示层. 目录 Go 接口:nil接口为什么不等于nil? 一.Go 接口的地位 二.接口的静态特性与动态特性 2.1 ...

  8. Vivado生成bitstream时报错[Opt 31-67] Problem: A LUT3 cell in the design is missing a connection on input pin I1, which is used by the LUT equation

    这个原因主要是因为有一个引脚没有用到,解决方法. 1.打开Schematic. 2.根据提示的模块去找,比如说我的报错. [Opt 31-67] Problem: A LUT3 cell in the ...

  9. Mariadb 10.4 root 用户无法使用无密码登录的原因

    Mariadb现在是网站建设中使用的主流数据库之一,当前它很多个版本:10.1.10.2.10.3.10.4. 其中10.1和10.2在程序中使用root用户登录连接数据库都没有什么问题. 如果是10 ...

  10. 这些新项目一定不要错过「GitHub 热点速览」

    本周 GitHub 热点上榜的项目有不少的新面孔,比如搞电子商务的 eShop,还有处理表数据的 onetable.还有用来方便处理数据同步问题的 loro,以及网易新开源的 tts 项目 Emoti ...