作者:Jack47

转载请保留作者和原文出处

欢迎关注我的微信公众账号程序员杰克，两边的文章会同步，也可以添加我的RSS订阅源。

本文是Storm系列之一，主要介绍Storm的架构设计，推荐读者在阅读Storm介绍(一）的基础之上，阅读这一篇。本文只是作者的读书笔记，偏重于浅层次的架构介绍，如果想真正理解内部设计时候的权衡，还需要更多的去阅读Storm源码。

理解Storm的架构，有助于帮助我们理解大型分布式系统设计中需要解决的问题，以及解决问题的思路，帮助我们更好的进行Storm性能调优化。

架构#

先上一张Storm的架构图，如果熟悉 GFS和Hadoop的架构，会发现这些系统的架构图都很类似。

Storm架构图

各节点的作用##

如果你熟悉Hadoop的话，可以这样做一下类比：

Hadoop | Storm | 在Storm中发挥的作用|

----------|-------

JobTracker|Nimbus(只有一个)|

在集群中分发代码
给Slave机器/supervisor分配任务
失败检测(failure monitoring)
快速失败(fail fast)，无状态的(可以kill -9)

TaskTracker|Supervisor（有很多个)|

监听分配到自己所在机器的工作
根据Nimbus的指示来起停worker进程
快速失败，无状态的(可以kill -9)

MapReduce任务 | Topology |

一直处理消息(直到你kill它)
一个运行中的拓扑包含分散在很多机器上运行的多个worker进程

可以看到Nimbus是调度器，Worker是Task的容器，Task是任务的真正执行者。

启动拓扑

为了在集群上启动一个拓扑，需要首先把代码打包成一个“胖jar包”--必须包含所有的依赖代码，除了Storm它自身，因为Storm集群会提供。然后在一台安装了storm命令行的机器上通过storm jar命令来提交拓扑:

storm jar my-topology-version-with-dependency.jar com.corp.MyTopology arg1 arg2

这个命令会连到Nimbus，上传jar包。接下来Nimbus会把拓扑的代码运送到多台不同的机器或者JVM上。只有当拓扑在机器上部署成功了并且在JVM中初始化了之后，才能真正开始处理消息。

Master结点(Master node)

在分布式系统中，调度服务非常重要，它的设计，会直接关系到系统的运行效率，错误恢复(fail over),故障检测(error detection)和水平扩展(scale)的能力。

集群上任务(task)的调度由一个Master节点来负责。这台机器上运行的Nimbus进程负责任务的调度。另外一个进程是Storm UI，可以界面上查看集群和所有的拓扑的运行状态。

从节点(Slave node)

Storm集群上有多个从节点，他们从Nimbus上下载拓扑的代码，然后去真正执行。Slave上的Supervisor进程是用来监督和管理实际运行业务代码的进程。在Storm 0.9之后，又多了一个进程Logviewer,可以用Storm UI来查看Slave节点上的log文件。

在配置文件storm.yaml中,决定了一台机器上运行几个worker:

supervisor.slots.ports:

- 6700

- 6701

- 6702

ZooKeeper的作用

ZooKeeper在Storm上不是用来做消息传输用的，而是用来提供协调服务(coordination service)，同时存储拓扑的状态和统计数据。

ZooKeeper相当于一块黑板，Supervisor，Nimbus和worker都在上面留下约定好的信息。例如Supervisor启动时，会在ZooKeeper上注册，Nimbus就可以发现Supervisor；Supervisor在ZooKeeper上留下心跳信息，Nimbus通过这些心跳信息来对Supervisor进行健康检测，检测出坏节点
由于Storm组件(component)的状态信息存储在ZooKeeper上，所以Storm组件就可以无状态，可以 kill -9来杀死
- 例如：Supervisors/Nimbus的重启不影响正在运行中的拓扑，因为状态都在ZooKeeper上，从ZooKeeper上重新加载一下就好了
用来做心跳
- Worker通过ZooKeeper把孩子executor的情况以心跳的形式汇报给Nimbus
- Supervisor进程通过ZK把自己的状态也以心跳的形式汇报给Nimbua
存储最近任务的错误情况(拓扑停止时会删除)

Storm的容错(Fault Tolerance)机制#

正如“搭建一个Storm集群”一文介绍的一样，必须用工具如daemontools或者monit来监控Nimbus和Supervisor的后台进程。这样如果Nimbus或者Supervisor进程挂掉，会被daemontools检测到，并进行重启。

Nimbus和Supervisor进程被设计成快速失败(fail fast)的(当遇到异常的情况，进程就会挂掉)并且是无状态的(状态都保存在Zookeeper或者在磁盘上)。

最重要的是，worker进程不会因为Nimbus或者Supervisor挂掉而受影响。这跟Hadoop是不一样的，当JobTracker挂掉，所有的任务都会没了。

当Nimbus挂掉会怎样？

如果Nimbus是以推荐的方式处于进程监管(例如通过supervisord)之下，那它会被重启，不会有任何影响

否则当Nimbus挂掉后：
- 已经存在的拓扑可以继续正常运行，但是不能提交新拓扑
- 正在运行的worker进程仍然可以继续工作。而且当worker挂掉，supervisor会一直重启worker。
- 失败的任务不会被分配到其他机器(是Nimbus的职责)上了
当一个Supervisor(slave节点)挂掉会怎样？

如果Supervisor是以推荐的方式处于进程监管(例如通过(supervisord)[supervisord.org/])之下，那它会被重启，不会有任何影响

否则当Supervisor挂掉: 分配到这台机器的所有任务(task)会超时，Nimbus会把这些任务(task)重新分配给其他机器。
当一个worker挂掉会怎么样？

当一个worker挂掉，supervisor会重启它。如果启动一直失败那么此时worker也就不能和Nimbus保持心跳了，Nimbus会重新分配worker到其他机器
Nimbus算是一个单点故障吗？

如果Nimbus节点挂掉，worker进程仍然可以继续工作。而且当worker挂掉，supervisor会一直重启worker。但是，没有了Nimbus，当需要的时候(如果worker机器挂掉了)worker就不能被重新分配到其他机器了。

所以答案是，Nimbus在“某种程度”上属于单点故障的。在实际中，这种情况没什么大不了的，因为当Nimbus进程挂掉，不会有灾难性的事情发生

硬件要求##

ZooKeeper###

推荐精心设计过的机器，因为ZooKeeper是Storm的瓶颈
- 每个机器使用一个ZK的实例
- 注意因为同一台机器上的其他进程或者虚拟机他们是共享这台机器的，所以可能会影响ZK的性能(来源)
I/O是ZooKeeper的瓶颈

把ZooKeeper的存储放到自己的磁盘上
使用SSD会显著提升性能
正常情况下，Zookeeper的每次写操作都会同步到磁盘，这就导致了两次磁盘寻址操作(一次是数据，一次是数据的日志)。当所有的worker都发心跳给ZooKeeper时，可能会显著影响性能(来源)。
- 需要监控ZooKeeper节点的I/O负载

推荐在生产环境上运行的ZooKooper集群有至少3个节点，这样即使有一个ZooKeeper服务器挂掉了(例如进行维护)，也是可以的。

Storm安全性

原始设计Storm时，完全没有把安全性考虑在内

现在安全性能相关的功能在一步步加进来

Storm 0.9.x版本上的安全问题：

没有验证机制(authentication)，没有授权机制(authorization)
传输的数据(例如worker之间)没有加密
ZooKeeper上存储的数据没有访问限制
如果Nimbus的Thrift端口没有锁住，任意的用户代码都可以在节点上执行

更多Storm安全性方面的建议见这里

题外话：

在接触Storm之后，有个问题在我的脑海里升起，国内的大公司，比如Baidu，Ali，腾讯，都是有诞生Storm这类实时计算框架的土壤的，可是为什么没有做出来呢？

Apache Storm Basic Training

Fault tolerance

Storm in pictures

Storm 0.9 Basic Training

如果您看了本篇博客,觉得对您有所收获，请点击右下角的“推荐”，让更多人看到！

资助Jack47写作，打赏一个鸡蛋灌饼钱吧

微信打赏

支付宝打赏

Storm介绍(二)的更多相关文章

storm介绍，核心组件，编程模型
一.流式计算概念利用分布式的思想和方法,对海量“流”式数据进行实时处理,源自业务对海量数据,在“时效”的价值上的挖掘诉求,随着大数据场景应用场景的增长,对流式计算的需求愈发增多,流式计算的一般架构图 ...
Storm系列二： Storm拓扑设计
Storm系列二: Storm拓扑设计在本篇中,我们就来根据一个案例,看看如何去设计一个拓扑, 如何分解问题以适应Storm架构,同时对Storm拓扑内部的并行机制会有一个基本的了解. 本章代码都在 ...
Storm介绍及与Spark Streaming对比
Storm介绍 Storm是由Twitter开源的分布式.高容错的实时处理系统,它的出现令持续不断的流计算变得容易,弥补了Hadoop批处理所不能满足的实时要求.Storm常用于在实时分析.在线机器学 ...
Lucene.Net 2.3.1开发介绍 —— 二、分词（六）
原文:Lucene.Net 2.3.1开发介绍 -- 二.分词(六) Lucene.Net的上一个版本是2.1,而在2.3.1版本中才引入了Next(Token)方法重载,而ReusableStrin ...
Lucene.Net 2.3.1开发介绍 —— 二、分词（五）
原文:Lucene.Net 2.3.1开发介绍 -- 二.分词(五) 2.1.3 二元分词上一节通过变换查询表达式满足了需求,但是在实际应用中,如果那样查询,会出现另外一个问题,因为,那样搜索,是只 ...
Lucene.Net 2.3.1开发介绍 —— 二、分词（三）
原文:Lucene.Net 2.3.1开发介绍 -- 二.分词(三) 1.3 分词器结构 1.3.1 分词器整体结构从1.2节的分析,终于做到了管中窥豹,现在在Lucene.Net项目中添加一个类关 ...
Lucene.Net 2.3.1开发介绍 —— 二、分词（四）
原文:Lucene.Net 2.3.1开发介绍 -- 二.分词(四) 2.1.2 可以使用的内置分词简单的分词方式并不能满足需求.前文说过Lucene.Net内置分词中StandardAnalyze ...
Lucene.Net 2.3.1开发介绍 —— 二、分词（二）
原文:Lucene.Net 2.3.1开发介绍 -- 二.分词(二) 1.2.分词的过程 1.2.1.分词器工作的过程内置的分词器效果都不好,那怎么办?只能自己写了!在写之前当然是要先看看内置的分词 ...
Lucene.Net 2.3.1开发介绍 —— 二、分词（一）
原文:Lucene.Net 2.3.1开发介绍 -- 二.分词(一) Lucene.Net中,分词是核心库之一,当然,也可以将它独立出来.目前Lucene.Net的分词库很不完善,实际应用价值不高.唯 ...

随机推荐

In-Memory：在内存中创建临时表和表变量
在Disk-Base数据库中,由于临时表和表变量的数据存储在tempdb中,如果系统频繁地创建和更新临时表和表变量,大量的IO操作集中在tempdb中,tempdb很可能成为系统性能的瓶颈.在SQL ...
Asp.net MVC 传递数据从前台到后台，包括单个对象，多个对象，集合
今天为大家分享下 Asp.net MVC 将数据从前台传递到后台的几种方式. 环境:VS2013,MVC5.0框架 1.基本数据类型我们常见有传递 int, string, bool, double ...
CI Weekly #10 | 2017 DevOps 趋势预测
2016 年的最后几个工作日,我们对 flow.ci Android & iOS 项目做了一些优化与修复: iOS 镜像 cocoapods 版本更新: fir iOS上传插件时间问题修复: ...
深入理解CSS中的margin负值
前面的话 margin属性在实际中非常常用,也是平时踩坑较多的地方.margin折叠部分相信不少人都因为这样那样的原因中过招.margin负值也是很常用的功能,很多特殊的布局方法都依赖于它.它看似简单 ...
iOS逆向工程之Reveal工具的安装、配置与使用
今天博客内容比较简单,不过还是蛮重要的.经常有小伙伴在QQ上私下问我,说博客中是如何使用Reveal查看AppStore中下载应用的UI层级的,那么就在今天这篇博客中作为一个主题来统一的介绍一下吧.虽 ...
趣说游戏AI开发：曼哈顿街角的A*算法
0x00 前言请叫我标题党!请叫我标题党!请叫我标题党!因为下面的文字既不发生在美国曼哈顿,也不是一个讲述美国梦的故事.相反,这可能只是一篇没有那么枯燥的关于算法的文章.A星算法,这个在游戏寻路开发 ...
原生js+css3实现图片自动切换，图片轮播
运用CSS3transition及opacity属性制作图片轮播动画自己这两天根据用js来控制触发CSS3中transition属性,从而写出来的以CSS3动画为基础,js控制过程的图片轮播运用 ...
Java实现多线程断点下载（下载过程中可以暂停）
线程可以理解为下载的通道,一个线程就是一个文件的下载通道,多线程也就是同时开启好几个下载通道.当服务器提供下载服务时,使用下载者是共享带宽的,在优先级相同的情况下,总服务器会对总下载线程进行平均分配. ...
oracle 误删数据恢复
1.根据时间点查系统版本号scn: select timestamp_to_scn(to_timestamp('2013-01-07 11:20:00','YYYY-MM-DD HH:MI:SS')) ...
Josephus环类问题，java实现
写出一个双向的循环链表,弄一个计数器,我定义的是到三的时候,自动删除当前节点,很简单. package Com; import java.util.Scanner; /* * 约瑟夫环问题,有n个人组 ...

Storm介绍(二)

架构#