Storm框架基础(一)
* Storm框架基础(一)
Storm简述
如果你了解过SparkStreaming,那么Storm就可以类比着入门,在此我们可以先做一个简单的比较:
在SparkStreaming中:
我们曾尝试过每秒钟的实时数据处理,或者使用Window若干时间范围内的数据统一处理结果。亦或统计所有时间范围内的数据结果。
在Storm中:
我们可以根据进来的每一条数据进行实时处理,也就是说,Storm处理数据的速度,要小于1秒,也就是毫秒级别的。
如果你疑问,1秒处理1次数据,和进来1条数据处理1次有什么差别,稍作思考答案应该是显而易见的,因为1秒中就可以产生不计其数的数据。
Storm角色
主节点:Nimbus
从节点:Supervisor
Storm基本概念
Nimbus:主节点
Supervisor:从节点
Worker:任务工作进程,类似于YARN的ApplicationMaster,可以存在多个,不同的任务有不同的Worker
Executor:Worker进程在执行任务时,会启动多个Executor现成
Topology:task任务的拓扑结构,是一个DAG有向无环图
Spout:抽取数据并将数据进行分发的阶段
Bolt:将分发的数据进行具体操作的阶段
Storm集群配置

Storm的安装部署
OK,闲话不多说,我们直接开始部署Storm,部署完成后,我们再根据运行的任务,来解析一下Storm任务运行的流程和调度过程以及其中的简单原理。
本次安装需要依赖Java以及Python环境,如果当前虚拟机没有,请自行安装,安装后检测,如图:

官网网站:storm.apache.org
Storm下载传送门:
链接:http://pan.baidu.com/s/1pLwj4dt 密码:resv
Step1、解压
$ tar -zxf apache-storm-0.9.6.tar.gz -C /opt/modules/
Step2、修改配置文件
尖叫提示:Notepad++编辑配置文件可能会导致yaml文件格式错乱,请留意,建议使用sublime或者vi编辑
storm_env.ini

storm.yaml
配置帮助页面:http://storm.apache.org/releases/0.9.6/Setting-up-a-Storm-cluster.html

配置完成后将安装包scp到其他机器节点。
Step3、启动三台节点的zookeeper集群
$ /opt/modules/cdh/zookeeper-3.4.5-cdh5.3.6/bin/zkServer.sh start
Step4、启动Nimbus和UI进程
$ nohup bin/storm nimbus > /dev/null 2>&1 &
$ nohup bin/storm ui > /dev/null 2>&1 &
检查:
$ jps

$ ps -ef | grep daemon.nimbus
$ ps -ef | grep ui.core
如图:

Step5、所有节点启动Supervisor和logviewer进程
$ nohup bin/storm supervisor > /dev/null 2>&1 &
$ nohup bin/storm logviewer > /dev/null 2>&1 &
检查第一台节点(第二,第三台节点请自行检查):
$ jps

$ ps -ef | grep daemon.supervisor
$ ps -ef | grep daemon.logviewer

尖叫提示:
默认情况下,nohup执行的日志在当前目录下的nohup.out中,但此刻我们将日志重定向到了/dev/null设备中(即空设备)意思就是丢弃不要了。
Step6、登录z01:8081查看storm集群启动情况,如下图所示

Step7、运行个官方案例,测试一下吧
$ bin/storm jar examples/storm-starter/storm-starter-topologies-0.9.6.jar storm.starter.WordCountTopology wordcount
任务提交后,可以在此查看:

打开该任务,可以看到有一个DAG图:

Storm集群运行机制
主节点Nimbus
管理所有从节点supervisor,当主节点nimbus启动后会定时向zookeeper集群发送自己的当前状态信息,同时也可以获取所有从节点Supervisor的状态信息
从节点Supervisor
定时向zookeeper集群汇报自己的状态信息,同时接受主节点Nimbus派发过来的任务。
Zookeeper的作用
Storm的所有节点的状态信息都保存在zookeeper当中,如果有某个节点挂掉了,只需要启动一个新的节点来替代即可,新的节点启动后,会自动从zookeeper中读取之前的状态信息,然后恢复到该状态下。同时也不必担心task任务意外终止,因为可以通过zookeeper来恢复该任务,也就是重启挂掉的task。nimbus和supervisor之间的状态同步全部依赖zookeeper来实现,看如下一张图,该图是zookeepr中storm的目录结构:
$ /opt/modules/cdh/zookeeper-3.4.5-cdh5.3.6/bin/zkCli.sh -server z01:2181
[zk: z01:2181(CONNECTED) 0] ls /
[hbase, hadoop-ha, admin, zookeeper, consumers, config, rmstore, storm, yarn-leader-election, brokers, controller_epoch]
[zk: z01:2181(CONNECTED) 1] ls /storm
[workerbeats, storms, supervisors, errors, assignments]

/workerbeats:存储worker工作进程的运行状态信息
/storms:存储的Topology的基本配置信息
/supervisors:存储supervisor节点的状态信息
/errors:存储Topology任务运行过程中出现的异常信息
/assignments:存储的是Topology任务的分配信息
Storm代码实现WordCount
Step1、打开IDEA工具构建一个Maven工程,此步骤前文已经进行了多次练习,不再赘述


Step2、指定仓库地址,如果默认则无需改动

Step3、设置项目名称及工作路径,Finish即可

Step4、完事之后呢,打开pom.xml进行如下配置
这个过程可能会有点慢,因为要从联网下载各种依赖包

Step5、第四步全部搞定之后,如果下载了assembly插件,则需要添加如下配置,如果你不适用assembly则不需要Step5,你可以仿照前文Spark章节的打包过程进行。

src.xml的内容是:

Step6、我们就来根据这张图来编写代码

这张图说明的是,storm的topology任务大概分为两个阶段,第一个阶段是spout阶段,主要负责数据的抽取,第二个阶段是bolt阶段,主要负责数据的处理,既然我们是要实现WordCount,所以Bolt数据处理阶段又分为两个过程,分别是单词的切分过程split和单词的汇总过程count,这两个过程都是bolt阶段。好,那么我们需要构建4个类,分别为:
WordCountTopology.Java
SentenceSpout.java
SplitBolt.java
CountBolt.java
如图:

(尖叫提示:Storm中的Spout和Bolt类必须是可序列化的,IDEA工具如何生成serialVersionUID请查看该文章:IDEA工具生成serialVersionUID)
Step7、SentenceSpout.java实现细节

Step8、SplitBolt.java实现细节

Step9、CountBolt实现细节

Step10、WordCountTopology实现细节

Step11、激动人心的测试,Run起来之后,可以看到不停的有类似这样的结果输出

Step12、打包提交到集群测试
打包时记得provided这个属性注释打开。
或者你使用IDEA自带的打包工具(请参考SparkCore(二)Spark打包部分内容)
总之你就是要弄个jar包出来,一切了然之后,我们先kill掉之前运行的wordcount,然后运行我们自己打出来的jar包。
$ bin/storm jar storm_syllabus.jar com.z.WordCountTopology ZWordCount

UI界面查看:

注意,如果提交任务后,jps查看不到worker进程,也许是worker进程运行在其他节点,请依次查看。
so easy,right?
* 总结
学习完Spark后再学习Storm会简单很多,可以类比着来学习,其分布式运算的思想大多都有交集之处,慢慢体会。下一节我们继续探讨Storm框架。
个人微博:http://weibo.com/seal13
QQ大数据技术交流群(广告勿入):476966007
作者:Z尽际
链接:https://www.jianshu.com/p/7e5fc624861b
來源:简书
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
Storm框架基础(一)的更多相关文章
- Flume框架基础
* Flume框架基础 框架简介: ** Flume提供一个分布式的,可靠的,对大数据量的日志进行高效收集.聚集.移动的服务,Flume只能在Unix环境下运行. ** Flume基于流式架构,容错性 ...
- Kafka框架基础
* Kafka框架基础 官网:kafka.apache.org 框架简介 Apache Kafka是分布式发布-订阅消息系统.它最初由LinkedIn公司开发,之后成为Apache项目的一部分.Kaf ...
- Hibernatel框架基础使用
Hibernatel框架基础使用 1.简介 1.1.Hibernate框架由来 Struts:基于MVC模式的应用层框架技术 Hibernate:基于持久层的框架(数据访问层使用)! Spring:创 ...
- Struts2框架基础
Struts2框架基础 1.Java的框架 1.1.框架简介 在大型项目开发过程中,经常会使用到一些框架,这样做好的好处是能够提高工作效率,在java中最常用的的框架就是SSH,这其实是三个框架的简称 ...
- .NET面试题系列[1] - .NET框架基础知识(1)
很明显,CLS是CTS的一个子集,而且是最小的子集. - 张子阳 .NET框架基础知识(1) 参考资料: http://www.tracefact.net/CLR-and-Framework/DotN ...
- 框架基础之Hibernate简介
框架基础之Hibernate简介 1.什么是Hibernate? Hibernate是一个开发源代码的对象关系映射框架,它对JDBC进行非常轻量级的对象封装,使得程序员可以随心所欲地使用对象编程思维来 ...
- ThinkPHP框架基础
ThinkPHP 一.php框架基础介绍 真实项目开发步骤: 多人同时开发项目,协作开发项目.分工合理.效率有提高(代码风格不一样.分工不好) 测试阶段 上线运行 对项目进行维护.修改.升级(单个人维 ...
- Python云端系统开发入门——框架基础
Django框架基础 这是我学习北京理工大学嵩天老师的<Python云端系统开发入门>课程的笔记,在此我特别感谢老师的精彩讲解和对我的引导. 1.Django简介与安装 Django是一个 ...
- 如何基于Winform开发框架或混合框架基础上进行项目的快速开发
在开发项目的时候,我们为了提高速度和质量,往往不是白手起家,需要基于一定的基础上进行项目的快速开发,这样可以利用整个框架的生态基础模块,以及成熟统一的开发方式,可以极大提高我们开发的效率.本篇随笔就是 ...
随机推荐
- poj 2488 A Knight's Journey(dfs+字典序路径输出)
转载请注明出处:http://blog.csdn.net/u012860063?viewmode=contents 题目链接:http://poj.org/problem? id=2488 ----- ...
- Redis 安装与简单示例 <第一篇>【转】
一.Redis的安装 Redis下载地址如下:https://github.com/dmajkic/redis/downloads 解压后根据自己机器的实际情况选择32位或者64位.下载解压后图片如下 ...
- 新型查询系统impala
这羊头很酷... Apache Impala是Apache Hadoop的开源本地分析数据库.Impala由Cloudera,MapR,Oracle和Amazon提供. 在Hadoop上进行BI风格的 ...
- oracle-常见的执行计划(一)
一.表访问方式 CBO基础概念中有讲到,访问表的方式有两种:全表扫描和ROWID扫描. 全表扫描的执行计划:TABLE ACCESS FULL ROWID扫描对应执行计划:TABLE ACCESS B ...
- FPGA之阻塞赋值与非阻塞赋值
Verilog语言中讲的阻塞赋值与非阻塞赋值,但从字面意思来看,阻塞就是执行的时候在某个地方卡住了,等这个操作执行完在继续执行下面的语句,而非阻塞就是不管执行完没有,我不管执行的结果是什么,反正我继续 ...
- Servlet基础(一)
JavaEE:企业级开发技术 <一.基础概念>j2ee:jdk1.1--1.4 ----->> j2ee1.1 1.2 javaee:jdk--5,6,7 ...
- 51nod 1102 面积最大的矩形 && 新疆大学OJ 1387: B.HUAWEI's billboard 【单调栈】+【拼凑段】(o(n) 或 o(nlog(n))
题面1:  题面2:  两道题除了数据范围不同,没有任何差异,两道题都可以o(n)(单调栈),o(nlog(n))(我自己的做法)解决. 解题思路1:(单调栈) 对于每个点找到右边第一个比它小的位 ...
- 51nod 1096 距离之和最小 思维题,求中位数
题目: 在一条直线上,与两个点距离之和最小的点,是怎样的点? 很容易想到,所求的点在这两个已知点的中间,因为两点之间距离最短. 在一条直线上,与三个点距离之和最小的点,是怎样的点? 由两个点的规律,我 ...
- direct2d: antialiasing and drawing a line with a 1 pixel stroke
http://xboxforums.create.msdn.com/forums/t/61448.aspx I'm currently porting a number of custom MFC C ...
- 为什么同样的数据,俩人生成的obj和bin文件不一样
http://bbs.csdn.net/topics/270055083 编译器编译的时候可能有些东西依赖时间,或许是优化的原因,如果可以,换个编译器试试,或许两次编译的时候,强制把系统时间调成一个看 ...