什么是Druid

一、Druid是什么

Druid 单词来源于西方古罗马的神话人物，中文常常翻译成德鲁伊。

玩过魔兽世界，暗黑破坏神，Dota，炉石传说，Dota自走棋的朋友，对这个词一定不陌生。

本文中所介绍的Druid是一个分布式的支持实时分析的数据存储系统。通俗一点：高性能实时分析数据库。它由美国广告技术公司MetaMarkets于2011年创建，并且于2012年开源。MetaMarkets是一家专门为在线媒体公司提供数据服务的公司，主营是DSP广告运营推送平台，由于对实时性要求非常高，公司不得不放弃原始的大数据方案，Druid也就应运而生。

Druid的官方网站地址是：http://druid.io/

目前Druid已基于Apache License 2.0协议开源，正在由Apache孵化，代码托管于Github。

二、Druid特性与基本概念

Druid主要解决的问题就是传统数据库无法解决的大数据量查询性能的问题。

所以她的本质就是一个分布式支持实时数据分析的数据存储系统。

能够快速的实现查询与数据分析，高可用，高扩展能力。

特性

1.快速查询：druid提供了快速的聚合能力以及快速OLAP查询能力，多租户的设计，是面向用户分析应用的理想方式。druid的数据聚合粒度可以是1分钟，5分钟，1小时或者1天等。数据的内存化提高了druid的查询速度。

OLAP：与之相对的是OLTP，这里通过一个在线商城举例，比如在一个在线商城中两者都是做什么呢？

OLTP就是商品浏览，交易，用户数据。必须支持事务，频繁查询修改。 OLTP（联机事务处理），传统数据库的主要应用，面向最基本的CRUD操作，特点是实时性高，数据量小，可以修改删除数据，要求有严格的事务。
OLAP就是对商城数据进行分析，数据量大。 OLAP（联机分析处理），支持复杂的分析操作，对决策的支持，特点是数据量大，吞吐量大，只支持查询。

2.实时数据注入：druid支持流数据的注入，并提供了数据的事件驱动，保证在实时和离线环境下事件的实效性和统一性。历史数据不改变，实时数据实时接入。

3.可扩展的PB级存储：druid集群可以很方便的扩容到PB的数据量，每秒百万级别的数据注入。即便在加大数据规模的情况下，也能保证时其效性。druid可以按照时间范围把聚合数据进行分区处理。

4.多环境部署：druid既可以运行在商业的硬件上，也可以运行在云上。它可以从多种数据系统中注入数据，包括hadoop，spark，kafka，storm和samza等。

5.丰富的社区：druid拥有丰富的社区，供大家学习。

Metamarkets之前几个druid开发者成立了一家叫做imply.io的新公司：https://imply.io/

Druid与其他OLAP方案对比：

使用场景

根据Druid的特性可知，druid适合的场景：

查询多修改很少
查询以聚合或分组为主
快速查询
需要支持离线和实时的数据源

由此可见Druid在实时计算中，作为实时报表和实时大屏的查询环节非常的合适。

而且druid具有非常好的性能：

高扩展使用列式存储的分布式系统；高容错，自平衡，保证查询延迟和数据完整性；自动聚合，索引数据，提供多种算法优化查询效率。

所以druid中一般保存的是聚合后的数据。

基本概念

1、数据格式

druid在数据摄入之前，首先需要定义一个数据源也就是Datasource，这个dataSource的结构是时间列（TimeStamp），维度列（Dimension）和指标列（Metric）。

时间列：druid会将时间相近的一些数据聚合在一起，查询的时候指定时间范围。

维度列：作为标识一些统计的维度，比如各种类型。

指标列：就是用于聚合和计算的列，包括count，sum等等。

2、数据摄入

druid提供了两种数据摄入方式，实时和批处理。

3、数据查询

druid支持两种查询，原生和sql

sql查询大同小异

[ EXPLAIN PLAN FOR ]

[ WITH tableName [ ( column1, column2, ... ) ] AS ( query ) ]

SELECT [ ALL | DISTINCT ] { * | exprs }

FROM table

[ WHERE expr ]

[ GROUP BY exprs ]

[ HAVING expr ]

[ ORDER BY expr [ ASC | DESC ], expr [ ASC | DESC ], ... ]

[ LIMIT limit ]

[ UNION ALL <another query> ]

druid的原生查询采用json方式，通过http传送。

一个druid查询groupby的例子，指定了时间范围，聚合粒度，数据源等。

{

  "queryType": "groupBy",

  "dataSource": "sample_datasource",

  "granularity": "day",

  "dimensions": ["country", "device"],

  "limitSpec": { "type": "default", "limit": 5000, "columns": ["country", "data_transfer"] },

  "filter": {

    "type": "and",

    "fields": [

      { "type": "selector", "dimension": "carrier", "value": "AT&T" },

      { "type": "or",

        "fields": [

          { "type": "selector", "dimension": "make", "value": "Apple" },

          { "type": "selector", "dimension": "make", "value": "Samsung" }

        ]

      }

    ]

  },

  "aggregations": [

    { "type": "longSum", "name": "total_usage", "fieldName": "user_count" },

    { "type": "doubleSum", "name": "data_transfer", "fieldName": "data_transfer" }

  ],

  "postAggregations": [

    { "type": "arithmetic",

      "name": "avg_usage",

      "fn": "/",

      "fields": [

        { "type": "fieldAccess", "fieldName": "data_transfer" },

        { "type": "fieldAccess", "fieldName": "total_usage" }

      ]

    }

  ],

  "intervals": [ "2012-01-01T00:00:00.000/2012-01-03T00:00:00.000" ],

  "having": {

    "type": "greaterThan",

    "aggregation": "total_usage",

    "value": 100

  }

}

三、应用场景

druid常见应用领域包括：

点击流分析（网络和移动分析）
风险/欺诈分析
网络遥测分析（网络性能监控）
服务器指标存储
供应链分析（制造指标）
应用程序性能指标
商业智能/ OLAP

用户行为分析

Druid可以用于，点击流，视图流，活动流。

准确地和近似地计算用户指标，计算出日常活动用户之类的平均指标，以查看总体趋势，或者精确计算以呈现给运营部门。

数字营销

Druid常用于存储和查询在线广告数据。这些数据通常来自广告服务器，对于衡量和了解广告系列的效果，点击率，转化率（损耗率）等等。

OLAP和BI

Druid通常用于BI，与Hive之类的SQL-on-Hadoop引擎不同，Druid专为高并发性和亚秒级查询而设计，可通过UI进行交互式数据探索。

总之，在实时计算应用越来越广泛的今天，druid将凭借着她的高性能和OLAP的优势，在实时的BI已经大屏等领域大放异彩！

静下心来，努力的提升自己，永远都没有错。更多实时计算相关博文，欢迎关注实时流式计算

什么是Druid的更多相关文章

Spring + SpringMVC + Druid + MyBatis 给你一个灵活的后端解决方案
生命不息,折腾不止. 折腾能遇到很多坑,填坑我理解为成长. 两个月前自己倒腾了一套用开源框架构建的 JavaWeb 后端解决方案. Spring + SpringMVC + Druid + JPA(H ...
Spring + SpringMVC + Druid + JPA(Hibernate impl) 给你一个稳妥的后端解决方案
最近手头的工作不太繁重,自己试着倒腾了一套用开源框架组建的 JavaWeb 后端解决方案. 感觉还不错的样子,但实践和项目实战还是有很大的落差,这里只做抛砖引玉之用. 项目 git 地址:https: ...
学记：spring boot使用官网推荐以外的其他数据源druid
虽然spring boot提供了4种数据源的配置,但是如果要使用其他的数据源怎么办?例如,有人就是喜欢druid可以监控的强大功能,有些人项目的需要使用c3p0,那么,我们就没办法了吗?我们就要编程式 ...
druid连接池获取不到连接的一种情况
数据源一开始配置: jdbc.initialSize=1jdbc.minIdle=1jdbc.maxActive=5 程序运行一段时间后,执行查询抛如下异常: exception=org.mybati ...
druid配置数据库连接使用密文密码
spring使用druid配置dataSource片段代码 dataSource配置  <bean id="data ...
[转]阿里巴巴数据库连接池 druid配置详解
一.背景 java程序很大一部分要操作数据库,为了提高性能操作数据库的时候,又不得不使用数据库连接池.数据库连接池有很多选择,c3p.dhcp.proxool等,druid作为一名后起之秀,凭借其出色 ...
技术杂记-改造具有监控功能的数据库连接池阿里Druid，支持simple-jndi，kettle
kettle内置的jndi管理是simple-jndi,功能确实比较简单,我需要监控kettle性能,druid确实是很不错的选择,但没有提供对应的支持,我改进了druid源码,实现了simple-j ...
sql 连接数不释放，Druid异常：wait millis 40000, active 600, maxActive 600
Hibernate + Spring + Druid 数据库mysql 由于配置如下 <bean id="dataSource" class="com.alibab ...
druid sql黑名单报异常 sql injection violation, part alway true condition not allow
最近使用druid,发现阿里这个连接池真的很好用,可以监控到连接池活跃连接数开辟到多少个连接数关闭了多少个,对于我在项目中查看错误问题,很有帮助, 但是最近发现里面有条sql语句被拦截了, ...
从零开始学 Java - 数据库连接池的选择 Druid
我先说说数据库连接数据库大家都不陌生,从名字就能看出来它是「存放数据的仓库」,那我们怎么去「仓库」取东西呢?当然需要钥匙啦!这就是我们的数据库用户名.密码了,然后我们就可以打开门去任意的存取东西了. ...

随机推荐

Java实现简单的学生成绩管理系统
ScoreInformation.java import java.util.Scanner; class ScoreInformation { private String stunumber ...
012.MFC_ListControl
列表控件CListCtrl 四种视图:大图标 .小图标.列表.详细信息CImageList
QP简介
QP简介 QP(Quantum Platform)是一个轻量级的.开源的.基于状态机的.事件驱动型应用程序框架.这个框架包括四部分: 事件处理器(QEP): 轻量级的事件驱动框架(QF): 任务调度微 ...
TCP/IP||Traceroute
1.概述由Van jacobson编写的工具,用于探索tcp/ip协议,使用ICMP报文和首部TTL字段,TTL字段由发送端设置一个8bit字段,初始值为RFC指定,当前值为64, 每个处理数据的路 ...
记一次线上 OOM 和性能优化
大家好,我是鸭血粉丝(大家会亲切的喊我「阿粉」),是一位喜欢吃鸭血粉丝的程序员,回想起之前线上出现 OOM 的场景,毕竟当时是第一次遇到这么紧脏的大事,要好好记录下来. 1 事情回顾在某次周五 ...
CPP STL学习笔记
STL的概念源地址 https://www.ev0l.art/index.php/archives/15/ <li> Iterator (迭代器)<li> Containe ...
ansible批量部署nginx
1.1 将nginx的安装包,和安装脚本copy到客户端,并安装脚本 vim /ansible/roles/nginx/tasks/main.yml - name: copy nginx_tar_gz ...
linux-iostat、sar、top、htop
1.iostat 实时显示linux的任务 centos7中默认没有安装iostat,所以得提前安装sysstat yum install -y sysstat -c 统计cpu信息 -d 统计磁盘信 ...
$loj530\ [LibreOJ\ \beta\ Round \#5]$ 最小倍数数论
正解:数论解题报告: 传送门$QwQ$! 不想做题,来水点儿简单点的$QwQ$. 一个显然的点在于可以直接对不同质因子分别算$n_{min}$最后取$max$. 这个正确性还是蛮显然的?因为只要有$ ...
background，position，绝对定位中位置属性的定位规则，cursor
backgorund背景 background-color:red; 背景颜色 background-image:url(路径);背景图片 background-repeat:no-repeat;不重 ...