Druid ：大数据实时处理的开源分布式系统（1）

引言

Druid 是一个快速，近实时的查询海量只读数据的系统。Druid 的目标是可用性要达到100%，即使在部署新代码，或者某些节点 down 机的情况下。

Druid 目前支持的单表查询方式和 Dremel，PowerDrill 比较相似。它的主要特性如下：

1．支持嵌套数据的列式存储

2．层级查询

3．二级索引

4．实时数据抽取

5．分布式容错架构

同 PowerDrill 和 Dremel 相比，从功能的角度来说，Druid 几乎实现了 Dremel 提供的所有功能，并且参考了 PowerDrill 的数据存储和压缩方法。

Druid非常适合需要实时从一个数据流中摄取大量数据的产品。特别的，如果您希望零宕机，并且您的数据是时间序列数据，就再适合不过了。如何您更需要查询的灵活性和原始数据，那 Druid 就不是一个很好地选择。

架构

Druid 是由一系列不同角色的组件组成的系统。不同的组件如下：

历史节点（Historical Node）：

该节点负责存储数据和查询。历史节点从深度存储中下载数据分片（segment），并且响应来自查询节点的查询。历史节点会定期刷新本身存贮的数据分片信息到 zookeeper，并且通过 zookeeper得到需要加载或者卸载哪些数据分片。

实时节点（Realtime Node）:

实时节点负责摄取实时数据。它们负责监听一个数据流，并把数据发到 Druid 系统当中。实时节点也接受来自查询节点的查询，并把结果返回。实时节点会把历史数据写到深度存储中。实时节点会查询 zookeeper，并确认当前存储在实时节点的数据分片是否已经上传至历史节点。如果已经上传，实时节点将删除该数据分片。

协调节点（coordinator node）:

协调节点会监控所有的历史节点，确保所有数据是可用的，多副本的。协调节点会从存储 meta data 数据源中读取 meta data 信息，去决定哪些数据分片应该在 druid 集群当中。协调节点用 zookeeper 发现哪些历史节点存在，并且通过 zookeeper 去通知历史节点装载和卸载相应的数据分片。

查询节点（broker node）:

查询节点接受从客户端来的查询，并转发这些查询到实时节点和历史节点。查询节点得到分别来自实时节点和历史节点的数据后，对这些数据进行合并，然后返回给客户端。查询节点也是利用zookeeper 去发现实时和历史节点的存在。

这种节点划分方式使得不同节点只需要处理好自己擅长的事情。

下面是在这个架构下地数据流图：

下面这张图，显示的是 Druid 集群是如何运作管理的，显示了节点之间是如何通过 meta data 进行协调运作的

（未完待续）

OneAPM Mobile Insight以真实用户体验为度量标准进行 Crash 分析，监控网络请求及网络错误，提升用户留存。访问 OneAPM 官方网站感受更多应用性能优化体验，想阅读更多技术文章，请访问 OneAPM 官方技术博客。

Druid ：大数据实时处理的开源分布式系统（1）的更多相关文章

Druid：一个用于大数据实时处理的开源分布式系统
Druid是一个用于大数据实时查询和分析的高容错.高性能开源分布式系统,旨在快速处理大规模的数据,并能够实现快速查询和分析.尤其是当发生代码部署.机器故障以及其他产品系统遇到宕机等情况时,Druid仍 ...
Druid：一个用于大数据实时处理的开源分布式系统——大数据实时查询和分析的高容错、高性能开源分布式系统
转自:http://www.36dsj.com/archives/28590 Druid 是一个用于大数据实时查询和分析的高容错.高性能开源分布式系统,旨在快速处理大规模的数据,并能够实现快速查询和分 ...
大数据实时处理-基于Spark的大数据实时处理及应用技术培训
随着互联网.移动互联网和物联网的发展,我们已经切实地迎来了一个大数据的时代.大数据是指无法在一定时间内用常规软件工具对其内容进行抓取.管理和处理的数据集合,对大数据的分析已经成为一个非常重要且紧迫的 ...
[druid]大数据挑战——如何使用Druid实现数据聚合
-- 知道你为什么惧组件很多的一些开源软件? 因为缺乏阅读能力. 最近我接手了druid+kafka+elk一套等日志系统. 但是我对druid很陌生, 周旋了几天, 官网文档快速开始照着做了下. 看 ...
大数据：从开源告诉你身边的IT故事
最近我们Team利用Dream分布式计算平台,做了这样一件事情,将Github的大量数据通过爬虫抓取下来,通过分析后,我们抽取最近一年中部分的开发者和项目信息,得到了如下有趣的信息,故分享之,数据原汁 ...
开源分布式计算引擎 & 开源搜索引擎 Iveely 0.5.0 为大数据而生
Iveely Computing 产生背景 08年的时候,我开始接触搜索引擎,当时遇到的第一个难题就是大数据实时并发处理,当时实验室的机器我们可以随便用,至少二三十台机器,可以,却没有程序可以将这些机 ...
大数据与 AI 生态中的开源技术总结
本文由云+社区发表作者:堵俊平在数据爆炸与智能革命的新时代,新的平台与应用层出不穷,开源项目推动了前沿技术和业界生态快速发展.本次分享将以技术和生态两大视角来看大数据和人工智能技术的发展,通过分析 ...
PayPal高级工程总监：读完这100篇论文就能成大数据高手（附论文下载）
100 open source Big Data architecture papers for data professionals. 读完这100篇论文就能成大数据高手作者白宁超 2016年 ...
PayPal 高级工程总监：读完这 100 篇文献，就能成大数据高手
原文地址开源(Open Source)对大数据影响,有二:一方面,在大数据技术变革之路上,开源在众人之力和众人之智推动下,摧枯拉朽,吐故纳新,扮演着非常重要的推动作用:另一方面,开源也给大数据技术构 ...

随机推荐

iOS之在内存中绘图
与直接在UIView控件上绘图不同,在内存中绘图时,需要开发者自己准备绘图环境,Quartz 2D提供了一个非常便捷的函数:UIGraphicsBeginImageContext(CGSize siz ...
C++学习（四）
一.拷贝构造函数和拷贝赋值运算符1.拷贝构造:用一个已有的对象,构造和它同类型的副本对象——克隆.2.形如class X { X (const X& that) { ... }};的构造函数 ...
Openfire3.8.2在eclipse中Debug方式启动最简单的方式
一.前言最近打算研究一下Openfire,于是打算最好能够以Debug方式启动Openfire的Server,到网上一搜,还果真早到官网的一篇文章来: http://community.ignite ...
高性能web站点建设（一）
一.等待客户端发送请求到服务端相应请求的过程,是需要等待的,而等待时间的长短通常是衡量这个网站“快慢”的重要指标,在这等待的时间里,到底发生了什么?概括来说经历了以下几个部分时间: 数据在网络上传输 ...
那天有个小孩跟我说LINQ（二）转载
1 LINQ TO Objects续(代码下载) 新建项目 linq_Ch2控制台程序,新建一个Entity文件夹 1.1 学生成绩查询(练习Join) 有三张表如下 ...
C#&JQ仿网上商城商品条件筛选功能
1.后台绑定: 一种案例: 根据第一级显示第二级,并带有每个二级的“全部”功能: #region 绑定区域 #region 绑定一级区域 ) <= ? : (PageIndex - )) + , ...
DAG模型——嵌套矩阵
有向无环图上的动态规划是学习动态规划的基础,很多问题都可以转化为DAG上的最长路.最短路或路径计数问题. 嵌套矩阵有n个矩阵,每个矩阵可以用两个整数a,b描述,表示它的长和宽.矩阵X(a,b)可以嵌 ...
重新设置MySQL的root密码
1．首先确认服务器出于安全的状态,也就是没有人能够任意地连接MySQL数据库. 因为在重新设置MySQL的root密码的期间,MySQL数据库完全出于没有密码保护的状态下,其他的用户也可以任意地登录 ...
关于C++几个容易混淆的概念总结
1.函数指针和指针函数函数指针说的就是一个指针,但这个指针指向的函数,不是普通的基本数据类型或者类对象.函数指针的定义: int (*func)(int a, int b); // 声明函数指针指 ...
Android从服务端获取json解析显示在客户端上面
Android从服务端获取json解析显示在客户端上面百度经验:jingyan.baidu.com 首先说一下Json数据的最基本的特点,Json数据是一系列的键值对的集合,和XML数据来比,Jso ...

Druid ：大数据实时处理的开源分布式系统（1）

引言

架构

（未完待续）

Druid ：大数据实时处理的开源分布式系统（1）的更多相关文章

随机推荐

热门专题