一、Druid概述

1、Druid简介

Druid是一款基于分布式架构的OLAP引擎，支持数据写入、低延时、高性能的数据分析，具有优秀的数据聚合能力与实时查询能力。在大数据分析、实时计算、监控等领域都有相关的应用场景，是大数据基础架构建设中重要组件。

与现在相对热门的Clickhouse引擎相比，Druid对高并发的支持相对较好和稳定，但是Clickhouse在任务队列模式中的数据查询能力十分出色，但是对高并发支持不够友好，需要做好很多服务监控和预警。大数据组件中OLAP引擎的选型有很多，在数据的查询引擎层通常都具有两种或者以上的OLAP引擎，选择合适的组件解决业务需求是优先原则。

2、基本特点

分布式

分布式的OLAP数据引擎，数据分布在多个服务节点中，当数据量激烈增长的时候，可以通过增加节点的方式进行水平扩容，数据在多个节点相互备份，如果单个节点出现故障，则可基于Zookeeper调度机制重新构建数据，这是分布式OLAP引擎的基本特点，在之前Clickhouse系列中也说过这个策略。

聚合查询

主要针对时间序列数据提供低延时数据写入和快速聚合查询，时序数据库特点写入即可查询，Druid在数据写入时就会对数据预聚合，进而减少原始数据量，节省存储空间并提升查询效率;数据聚合粒度可以基于特定策略，例如分钟、小时、天等。必须要强调Druid适合数据分析场景，并不适合单条数据主键查询的业务。

列式存储

Druid面向列的存储方式，并且可以在集群中进行大规模的并行查询，这意味在只需要加载特定查询所需要的列情况下，查询速度可以大幅度提升。

3、基础架构

统治者节点

即Overlord-Node，任务的管理节点，进程监视MiddleManager进程，并且是数据摄入Druid的控制器，负责将提取任务分配给MiddleManagers并协调Segement发布。

协调节点

即Coordinator-Node，主要负责数据的管理和在历史节点上的分布，协调节点告诉历史节点加载新数据、卸载过期数据、复制数据、和为了负载均衡移动数据。

中间管理节点

即MiddleManager-Node，摄入实时数据，已生成Segment数据文件，可以理解为overlord节点的工作节点。

历史节点

即Historical-Node，主要负责历史数据存储和查询，接收协调节点数据加载与删除指令，historical节点是整个集群查询性能的核心所在，因为historical会承担绝大部分的segment查询。

查询节点

即Broker-Node，扮演着历史节点和实时节点的查询路由的角色，接收客户端查询请求，并将这些查询转发给Historicals和MiddleManagers，当Brokers从这些子查询中收到结果时，它们会合并这些结果并将它们返回给调用者。

数据文件存储库

即DeepStorage，存放生成的Segment数据文件。

元数据库

即MetadataStorage，存储Druid集群的元数据信息，比如Segment的相关信息。

协调中间件

即Zookeeper，为Druid集群提供协调服务，如内部服务的监控，协调和领导者选举。

二、Druid部署

1、安装包

imply对druid做了集成，并提供从部署到配置到各种可视化工具的完整的解决方案。

https://static.imply.io/release/imply-2.7.10.tar.gz

解压并重新命名。

[root@hop01 opt]# tar -zxvf imply-2.7.10.tar.gz

[root@hop01 opt]# mv imply-2.7.10 imply2.7

2、Zookeeper配置

配置Zookeeper集群各个节点，逗号分隔。

[root@hop01 _common]# cd /opt/imply2.7/conf/druid/_common

[root@hop01 _common]# vim common.runtime.properties

druid.zk.service.host=hop01:2181,hop02:2181,hop03:2181

关闭Zookeeper内置校验并且不启动。

[root@hop01 supervise]# cd /opt/imply2.7/conf/supervise

[root@hop01 supervise]# vim quickstart.conf

注释掉如下内容：

3、服务启动

依次启动相关组件：Zookeeper、Hadoop相关组件，然后启动imply服务。

[root@hop01 imply2.7]# /opt/imply2.7/bin/supervise -c /opt/imply2.7/conf/supervise/quickstart.conf

注意虚拟机内存问题，在如下的目录中Druid各个组件的JVM配置，条件不允许的话适当拉低，并且要拉高JVM相关内存参数。

[root@hop01 druid]# cd /opt/imply2.7/conf/druid

启动默认端口：9095，访问界面如下：

三、基础用法

1、数据源配置

选择上述Http的方式，基于imply提供的JSON测试文件。

https://static.imply.io/data/wikipedia.json.gz

2、数据在线加载

执行上述：Sample and continue。

样本数据加载配置：

数据列的配置：

配置项总体概览：

最后执行数据加载任务即可。

3、本地样本加载

[root@hop01 imply2.7]# bin/post-index-task --file quickstart/wikipedia-index.json

这样读取两份数据脚本。

4、数据立方体

数据加载完成后，查看可视化数据立方体：

数据立方体中提供一些基础的视图分析，可以在多个维度上拆分数据集并进行数据分析：

5、SQL查询

可以基于可视化工具对Druid进行SQL查询，语法与常用规则几乎一样：

SELECT COUNT(*) AS Edits FROM wikipedia;

SELECT * FROM wikipedia WHERE "__time" BETWEEN TIMESTAMP '开始' AND TIMESTAMP '结束';

SELECT page, COUNT(*) AS Edits FROM wikipedia GROUP BY page LIMIT 2;

SELECT * FROM wikipedia ORDER BY __time DESC LIMIT 5;

SELECT * FROM wikipedia LIMIT 3;

6、Segment文件

文件位置：

/opt/imply2.7/var/druid/segments/wikipedia/

Druid基于Segment实现对数据的切割，数据按时间的时序分布，将不同时间范围内的数据存储在不同的Segment数据块中，按时间范围查询数据时，可以避免全数据扫描效率可以极大的提高，同时面向列进行数据压缩存储，提高分析的效率。

四、源代码地址

GitHub·地址

https://github.com/cicadasmile/big-data-parent

GitEE·地址

https://gitee.com/cicadasmile/big-data-parent

OLAP引擎：基于Druid组件进行数据统计分析的更多相关文章

基于Apache Hudi构建数据湖的典型应用场景介绍
1. 传统数据湖存在的问题与挑战传统数据湖解决方案中,常用Hive来构建T+1级别的数据仓库,通过HDFS存储实现海量数据的存储与水平扩容,通过Hive实现元数据的管理以及数据操作的SQL化.虽然能 ...
[转帖]OLAP引擎这么多，为什么苏宁选择用Druid？
OLAP引擎这么多,为什么苏宁选择用Druid? 原创 51CTO 2018-12-21 11:24:12 [51CTO.com原创稿件]随着公司业务增长迅速,数据量越来越大,数据的种类也越来越丰富, ...
分布式大数据多维数据分析(olap)引擎kylin[转]
Apache Kylin是一个开源的分布式分析引擎,提供Hadoop之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBay 开发并贡献至开源社区.它能在亚秒内查询巨大的Hiv ...
给Clouderamanager集群里安装基于Hive的大数据实时分析查询引擎工具Impala步骤（图文详解）
这个很简单,在集群机器里,选择就是了,本来自带就有Impala的. 扩展博客给Ambari集群里安装基于Hive的大数据实时分析查询引擎工具Impala步骤(图文详解)
给Ambari集群里安装基于Hive的大数据实时分析查询引擎工具Impala步骤（图文详解）
不多说,直接上干货! Impala和Hive的关系(详解) 扩展博客给Clouderamanager集群里安装基于Hive的大数据实时分析查询引擎工具Impala步骤(图文详解) 参考 horton ...
OLAP了解与OLAP引擎——Mondrian入门
一. OLAP的基本概念 OLAP(On-Line Analysis Processing)在线分析处理是一种共享多维信息的快速分析技术:OLAP利用多维数据库技术使用户从不同角度观察数据:OLAP ...
常用OLAP引擎
l presto Presto是Facebook开发的分布式大数据SQL查询引擎,专门进行快速数据分析. 特点: 可以将多个数据源的数据进行合并,可以跨越整个组织进行分析. 直接从HDFS读取数据, ...
开源OLAP引擎对比
什么是olap 01.绝大多数请求都是读请求 02.数据以相当大的批次(>1000行)更新,而不是单行更新;或者它根本没有更新 03.数据已添加到数据库,但不会进行修改 04.对于读取,每次查询 ...
快速了解Druid——实时大数据分析软件
Druid 是什么 Druid 单词来源于西方古罗马的神话人物,中文常常翻译成德鲁伊. 本问介绍的Druid 是一个分布式的支持实时分析的数据存储系统(Data Store).美国广告技术公司Met ...

随机推荐

Gradle & Java
Gradle & Java Gradle Build Tool I Modern Open Source Build Automation https://gradle.org/ https: ...
Express vs Koa
Express vs Koa https://www.esparkinfo.com/express-vs-koa.html https://www.cleveroad.com/blog/the-bes ...
「NGK每日快讯」2021.1.22日NGK公链第80期官方快讯!
JULLIAN MURPHY：拥有良好的心态，运气福气便会自来
JULLIAN MURPHY是星盟全球投资公司的基金预审经理,负责星盟投资项目预审,有着资深的基金管理经验,并且在区块链应用的兴起中投资了多个应用区块链技术的公司. JULLIAN MURPHY认为往 ...
翻译：《实用的Python编程》02_02_Containers
目录 | 上一节 (2.1 数据类型) | 下一节 (2.3 格式化) 2.2 容器本节讨论列表(list),字典(dict)和集合(set). 概述通常,程序必须处理许多对象. 股票的投资组合 ...
AtCoder Regular Contest 113
比赛地址 A(暴力) 题目链接题目: 给出\(K\),求出满足\(A\times B\times C\le K\)的\((A,B,C)\)对数解析: 将C移动到等式右边,得到\(A\times B ...
Java线程池 ExecutorService了解一下
本篇主要涉及到的是java.util.concurrent包中的ExecutorService.ExecutorService就是Java中对线程池的实现. 一.ExecutorService介绍 E ...
docker仓库之分布式harbor (一)
1.harbor介绍 harbor是一个用于存储和分发docker镜像的企业级Registry服务器,由VMware开源.其通过添加一些企业必须的功能特性,例如安全,标识和管理,扩展了开源docker ...
Java基本概念：面向对象
一.简介面向过程的思维模式是简单的线性思维,思考问题首先陷入第一步做什么.第二步做什么的细节中. 面向对象的思维模式说白了就是分类思维模式.思考问题首先会解决问题需要哪些分类,然后对这些分类进行单独 ...
STM32学习笔记——序言
写AVR已经两年了.如果初中时候玩Arduino也算的话,就是6年. 两年以来,我用AVR单片机完成了两个大项目: AVR单片机教程,一时兴起写的,效果不好: MEDS,参赛用的课题,半完成,比赛都结 ...

OLAP引擎：基于Druid组件进行数据统计分析