Storm介绍(二)
作者:Jack47
转载请保留作者和原文出处
欢迎关注我的微信公众账号程序员杰克,两边的文章会同步,也可以添加我的RSS订阅源。
本文是Storm系列之一,主要介绍Storm的架构设计,推荐读者在阅读Storm介绍(一)的基础之上,阅读这一篇。本文只是作者的读书笔记,偏重于浅层次的架构介绍,如果想真正理解内部设计时候的权衡,还需要更多的去阅读Storm源码。
理解Storm的架构,有助于帮助我们理解大型分布式系统设计中需要解决的问题,以及解决问题的思路,帮助我们更好的进行Storm性能调优化。
架构#
先上一张Storm的架构图,如果熟悉 GFS和Hadoop的架构,会发现这些系统的架构图都很类似。

Storm架构图
各节点的作用##
如果你熟悉Hadoop的话,可以这样做一下类比:
Hadoop | Storm | 在Storm中发挥的作用|
----------|-------
JobTracker|Nimbus(只有一个)|
- 在集群中分发代码
- 给Slave机器/supervisor分配任务
- 失败检测(failure monitoring)
- 快速失败(fail fast),无状态的(可以kill -9)
TaskTracker|Supervisor(有很多个)|
- 监听分配到自己所在机器的工作
- 根据Nimbus的指示来起停worker进程
- 快速失败,无状态的(可以kill -9)
MapReduce任务 | Topology |
- 一直处理消息(直到你kill它)
- 一个运行中的拓扑包含分散在很多机器上运行的多个worker进程
可以看到Nimbus是调度器,Worker是Task的容器,Task是任务的真正执行者。
启动拓扑
为了在集群上启动一个拓扑,需要首先把代码打包成一个“胖jar包”--必须包含所有的依赖代码,除了Storm它自身,因为Storm集群会提供。然后在一台安装了storm命令行的机器上通过storm jar命令来提交拓扑:
storm jar my-topology-version-with-dependency.jar com.corp.MyTopology arg1 arg2
这个命令会连到Nimbus,上传jar包。接下来Nimbus会把拓扑的代码运送到多台不同的机器或者JVM上。只有当拓扑在机器上部署成功了并且在JVM中初始化了之后,才能真正开始处理消息。
Master结点(Master node)
在分布式系统中,调度服务非常重要,它的设计,会直接关系到系统的运行效率,错误恢复(fail over),故障检测(error detection)和水平扩展(scale)的能力。
集群上任务(task)的调度由一个Master节点来负责。这台机器上运行的Nimbus进程负责任务的调度。另外一个进程是Storm UI,可以界面上查看集群和所有的拓扑的运行状态。
从节点(Slave node)
Storm集群上有多个从节点,他们从Nimbus上下载拓扑的代码,然后去真正执行。Slave上的Supervisor进程是用来监督和管理实际运行业务代码的进程。在Storm 0.9之后,又多了一个进程Logviewer,可以用Storm UI来查看Slave节点上的log文件。
在配置文件storm.yaml中,决定了一台机器上运行几个worker:
supervisor.slots.ports:
- 6700
- 6701
- 6702
ZooKeeper的作用
ZooKeeper在Storm上不是用来做消息传输用的,而是用来提供协调服务(coordination service),同时存储拓扑的状态和统计数据。
- ZooKeeper相当于一块黑板,
Supervisor,Nimbus和worker都在上面留下约定好的信息。例如Supervisor启动时,会在ZooKeeper上注册,Nimbus就可以发现Supervisor;Supervisor在ZooKeeper上留下心跳信息,Nimbus通过这些心跳信息来对Supervisor进行健康检测,检测出坏节点 - 由于Storm组件(component)的状态信息存储在ZooKeeper上,所以Storm组件就可以无状态,可以 kill -9来杀死
- 例如:Supervisors/Nimbus的重启不影响正在运行中的拓扑,因为状态都在ZooKeeper上,从ZooKeeper上重新加载一下就好了
- 用来做心跳
- Worker通过ZooKeeper把孩子executor的情况以心跳的形式汇报给Nimbus
- Supervisor进程通过ZK把自己的状态也以心跳的形式汇报给Nimbua
- 存储最近任务的错误情况(拓扑停止时会删除)
Storm的容错(Fault Tolerance)机制#
正如“搭建一个Storm集群”一文介绍的一样,必须用工具如daemontools或者monit来监控Nimbus和Supervisor的后台进程。这样如果Nimbus或者Supervisor进程挂掉,会被daemontools检测到,并进行重启。
Nimbus和Supervisor进程被设计成快速失败(fail fast)的(当遇到异常的情况,进程就会挂掉)并且是无状态的(状态都保存在Zookeeper或者在磁盘上)。
最重要的是,worker进程不会因为Nimbus或者Supervisor挂掉而受影响。这跟Hadoop是不一样的,当JobTracker挂掉,所有的任务都会没了。
当Nimbus挂掉会怎样?
如果Nimbus是以推荐的方式处于进程监管(例如通过supervisord)之下,那它会被重启,不会有任何影响
否则当Nimbus挂掉后:
- 已经存在的拓扑可以继续正常运行,但是不能提交新拓扑
- 正在运行的worker进程仍然可以继续工作。而且当worker挂掉,supervisor会一直重启worker。
- 失败的任务不会被分配到其他机器(是Nimbus的职责)上了
当一个Supervisor(slave节点)挂掉会怎样?
如果Supervisor是以推荐的方式处于进程监管(例如通过(supervisord)[supervisord.org/])之下,那它会被重启,不会有任何影响
否则当Supervisor挂掉: 分配到这台机器的所有任务(task)会超时,Nimbus会把这些任务(task)重新分配给其他机器。
当一个worker挂掉会怎么样?
当一个worker挂掉,supervisor会重启它。如果启动一直失败那么此时worker也就不能和Nimbus保持心跳了,Nimbus会重新分配worker到其他机器
Nimbus算是一个单点故障吗?
如果Nimbus节点挂掉,worker进程仍然可以继续工作。而且当worker挂掉,supervisor会一直重启worker。但是,没有了Nimbus,当需要的时候(如果worker机器挂掉了)worker就不能被重新分配到其他机器了。
所以答案是,Nimbus在“某种程度”上属于单点故障的。在实际中,这种情况没什么大不了的,因为当Nimbus进程挂掉,不会有灾难性的事情发生
硬件要求##
ZooKeeper###
- 推荐精心设计过的机器,因为ZooKeeper是Storm的瓶颈
- 每个机器使用一个ZK的实例
- 注意因为同一台机器上的其他进程或者虚拟机他们是共享这台机器的,所以可能会影响ZK的性能(来源)
- I/O是ZooKeeper的瓶颈
- 把ZooKeeper的存储放到自己的磁盘上
- 使用SSD会显著提升性能
- 正常情况下,Zookeeper的每次写操作都会同步到磁盘,这就导致了两次磁盘寻址操作(一次是数据,一次是数据的日志)。当所有的worker都发心跳给ZooKeeper时,可能会显著影响性能(来源)。
- 需要监控ZooKeeper节点的I/O负载
- 推荐在生产环境上运行的ZooKooper集群有至少3个节点,这样即使有一个ZooKeeper服务器挂掉了(例如进行维护),也是可以的。
Storm安全性
原始设计Storm时,完全没有把安全性考虑在内
现在安全性能相关的功能在一步步加进来
Storm 0.9.x版本上的安全问题:
- 没有验证机制(authentication),没有授权机制(authorization)
- 传输的数据(例如worker之间)没有加密
- ZooKeeper上存储的数据没有访问限制
- 如果Nimbus的Thrift端口没有锁住,任意的用户代码都可以在节点上执行
更多Storm安全性方面的建议见这里
题外话:
在接触Storm之后,有个问题在我的脑海里升起,国内的大公司,比如Baidu,Ali,腾讯,都是有诞生Storm这类实时计算框架的土壤的,可是为什么没有做出来呢?
Apache Storm Basic Training
Fault tolerance
如果您看了本篇博客,觉得对您有所收获,请点击右下角的“推荐”,让更多人看到!
Storm介绍(二)的更多相关文章
- storm介绍,核心组件,编程模型
一.流式计算概念 利用分布式的思想和方法,对海量“流”式数据进行实时处理,源自业务对海量数据,在“时效”的价值上的挖掘诉求,随着大数据场景应用场景的增长,对流式计算的需求愈发增多,流式计算的一般架构图 ...
- Storm系列二: Storm拓扑设计
Storm系列二: Storm拓扑设计 在本篇中,我们就来根据一个案例,看看如何去设计一个拓扑, 如何分解问题以适应Storm架构,同时对Storm拓扑内部的并行机制会有一个基本的了解. 本章代码都在 ...
- Storm介绍及与Spark Streaming对比
Storm介绍 Storm是由Twitter开源的分布式.高容错的实时处理系统,它的出现令持续不断的流计算变得容易,弥补了Hadoop批处理所不能满足的实时要求.Storm常用于在实时分析.在线机器学 ...
- Lucene.Net 2.3.1开发介绍 —— 二、分词(六)
原文:Lucene.Net 2.3.1开发介绍 -- 二.分词(六) Lucene.Net的上一个版本是2.1,而在2.3.1版本中才引入了Next(Token)方法重载,而ReusableStrin ...
- Lucene.Net 2.3.1开发介绍 —— 二、分词(五)
原文:Lucene.Net 2.3.1开发介绍 -- 二.分词(五) 2.1.3 二元分词 上一节通过变换查询表达式满足了需求,但是在实际应用中,如果那样查询,会出现另外一个问题,因为,那样搜索,是只 ...
- Lucene.Net 2.3.1开发介绍 —— 二、分词(三)
原文:Lucene.Net 2.3.1开发介绍 -- 二.分词(三) 1.3 分词器结构 1.3.1 分词器整体结构 从1.2节的分析,终于做到了管中窥豹,现在在Lucene.Net项目中添加一个类关 ...
- Lucene.Net 2.3.1开发介绍 —— 二、分词(四)
原文:Lucene.Net 2.3.1开发介绍 -- 二.分词(四) 2.1.2 可以使用的内置分词 简单的分词方式并不能满足需求.前文说过Lucene.Net内置分词中StandardAnalyze ...
- Lucene.Net 2.3.1开发介绍 —— 二、分词(二)
原文:Lucene.Net 2.3.1开发介绍 -- 二.分词(二) 1.2.分词的过程 1.2.1.分词器工作的过程 内置的分词器效果都不好,那怎么办?只能自己写了!在写之前当然是要先看看内置的分词 ...
- Lucene.Net 2.3.1开发介绍 —— 二、分词(一)
原文:Lucene.Net 2.3.1开发介绍 -- 二.分词(一) Lucene.Net中,分词是核心库之一,当然,也可以将它独立出来.目前Lucene.Net的分词库很不完善,实际应用价值不高.唯 ...
随机推荐
- JavaScript性能优化
如今主流浏览器都在比拼JavaScript引擎的执行速度,但最终都会达到一个理论极限,即无限接近编译后程序执行速度. 这种情况下决定程序速度的另一个重要因素就是代码本身. 在这里我们会分门别类的介绍J ...
- Java数据库连接技术——JDBC
大家好,今天我们学习了Java如何连接数据库.之前学过.net语言的数据库操作,感觉就是一通百通,大同小异. JDBC是Java数据库连接技术的简称,提供连接各种常用数据库的能力. JDBC API ...
- Ubuntu 16.10 安装KolourPaint 4画图工具
KolourPaint 4画图工具简单实用,可以绘画.视频处理和图标编辑: • 绘画:绘制图表和“手绘” • 视频处理:编辑截图和照片;应用特效 • 图标编辑:绘画剪贴和标识透明化 1.在Ubuntu ...
- 玩转spring boot——开篇
很久没写博客了,而这一转眼就是7年.这段时间并不是我没学习东西,而是园友们的技术提高的非常快,这反而让我不知道该写些什么.我做程序已经有十几年之久了,可以说是彻彻底底的“程序老炮”,至于技术怎么样?我 ...
- Python(九)Tornado web 框架
一.简介 Tornado 是 FriendFeed 使用的可扩展的非阻塞式 web 服务器及其相关工具的开源版本.这个 Web 框架看起来有些像web.py 或者 Google 的 webapp,不过 ...
- J a v a 的“多重继承”
接口只是比抽象类“更纯”的一种形式.它的用途并不止那些.由于接口根本没有具体的实施细节——也就是说,没有与存储空间与“接口”关联在一起——所以没有任何办法可以防止多个接口合并到一起.这一点是至关重要的 ...
- [译]处理文本数据(scikit-learn 教程3)
原文网址:http://scikit-learn.org/stable/tutorial/text_analytics/working_with_text_data.html 翻译:Tacey Won ...
- 【C#公共帮助类】 ToolsHelper帮助类
这个帮助类,目前我们只用到了两个,我就先更新这两个,后面有用到的,我会继续更新这个Helper帮助类 在Tools.cs中 有很多方法 跟Utils里是重复的,而且Utils里的方法更加新一点,大家可 ...
- cesium自定义气泡窗口infoWindow
一.自定义气泡窗口与cesium默认窗口效果对比: 1.cesium点击弹出气泡窗口显示的位置固定在地图的右上角,默认效果: 2.对于习惯arcgis或者openlayer气泡窗口样式的giser来说 ...
- Android游戏开发实践(1)之NDK与JNI开发03
Android游戏开发实践(1)之NDK与JNI开发03 前面已经分享了两篇有关Android平台NDK与JNI开发相关的内容.以下列举前面两篇的链接地址,感兴趣的可以再回顾下.那么,这篇继续这个小专 ...