1、集群部署的基本流程

集群部署的流程：下载安装包、解压安装包、修改配置文件、分发安装包、启动集群

注意：

所有的集群上都需要配置hosts

vi /etc/hosts

192.168.239.128 storm01 zk01 hadoop01

192.168.239.129 storm02 zk02 hadoop02

192.168.239.130 storm03 zk03 hadoop03

1、集群部署的基础环境准备

安装前的准备工作（zk集群已经部署完毕）

l 关闭防火墙

chkconfig iptables off && setenforce 0

l 创建用户

groupadd realtime &&　useradd realtime　&& usermod -a -G realtime realtime

l 创建工作目录并赋权

mkdir /export

mkdir /export/servers

chmod 755 -R /export

l 切换到realtime用户下

su realtime

3、Storm集群部署

3.1、下载安装包

wget http://124.202.164.6/files/1139000006794ECA/apache.fayea.com/storm/apache-storm-0.9.5/apache-storm-0.9.5.tar.gz

3.2、解压安装包

tar -zxvf apache-storm-0.9.5.tar.gz -C /export/servers/

cd /export/servers/

ln -s apache-storm-0.9.5 storm

3.3、修改配置文件

mv /export/servers/storm/conf/storm.yaml /export/servers/storm/conf/storm.yaml.bak

vi /export/servers/storm/conf/storm.yaml

输入以下内容：

3.4、分发安装包

scp -r /export/servers/apache-storm-0.9.5 storm02:/export/servers

然后分别在各机器上创建软连接

cd /export/servers/

ln -s apache-storm-0.9.5 storm

3.5、启动集群

l 在nimbus.host所属的机器上启动 nimbus服务

cd /export/servers/storm/bin/

nohup ./storm nimbus &

l 在nimbus.host所属的机器上启动ui服务

cd /export/servers/storm/bin/

nohup ./storm ui &

l 在其它个点击上启动supervisor服务

cd /export/servers/storm/bin/

nohup ./storm supervisor &

3.6、查看集群

访问nimbus.host:/8080，即可看到storm的ui界面。

4、Storm常用操作命令

有许多简单且有用的命令可以用来管理拓扑，它们可以提交、杀死、禁用、再平衡拓扑。

l 提交任务命令格式：storm jar 【jar路径】【拓扑包名.拓扑类名】【拓扑名称】

bin/storm jar examples/storm-starter/storm-starter-topologies-0.9.6.jar storm.starter.WordCountTopology wordcount

l 杀死任务命令格式：storm kill 【拓扑名称】 -w 10（执行kill命令时可以通过-w [等待秒数]指定拓扑停用以后的等待时间）

storm kill topology-name -w 10

l 停用任务命令格式：storm deactivte 【拓扑名称】

storm deactivte topology-name

我们能够挂起或停用运行中的拓扑。当停用拓扑时，所有已分发的元组都会得到处理，但是spouts的nextTuple方法不会被调用。销毁一个拓扑，可以使用kill命令。它会以一种安全的方式销毁一个拓扑，首先停用拓扑，在等待拓扑消息的时间段内允许拓扑完成当前的数据流。

l 启用任务命令格式：storm activate【拓扑名称】

storm activate topology-name

l 重新部署任务命令格式：storm rebalance 【拓扑名称】

storm rebalance topology-name

再平衡使你重分配集群任务。这是个很强大的命令。比如，你向一个运行中的集群增加了节点。再平衡命令将会停用拓扑，然后在相应超时时间之后重分配工人，并重启拓扑。

5、Storm集群的进程及日志熟悉

5.1、部署成功之后，启动storm集群。

依次启动集群的各种角色

5.2、查看nimbus的日志信息

在nimbus的服务器上

cd /export/servers/storm/logs

tail -100f /export/servers/storm/logs/nimbus.log

5.3、查看ui运行日志信息

在ui的服务器上，一般和nimbus一个服务器

cd /export/servers/storm/logs

tail -100f /export/servers/storm/logs/ui.log

5.4、查看supervisor运行日志信息

在supervisor服务上

cd /export/servers/storm/logs

tail -100f /export/servers/storm/logs/supervisor.log

5.5、查看supervisor上worker运行日志信息

在supervisor服务上

cd /export/servers/storm/logs

tail -100f /export/servers/storm/logs/worker-6702.log

(该worker正在运行wordcount程序)

6、Storm源码下载及目录熟悉

6.1、在Storm官方网站上寻找源码地址

6.2、点击文字标签进入github

点击Apache/storm文字标签，进入github

https://github.com/apache/storm

6.3、拷贝storm源码地址

在网页右侧，拷贝storm源码地址

6.4、使用Subversion客户端下载

6.5、Storm源码目录分析（重要）

扩展包中的三个项目，使storm能与hbase、hdfs、kafka交互

7、Storm单词技术案例（重点掌握）

7.1、功能说明

设计一个topology，来实现对文档里面的单词出现的频率进行统计。

整个topology分为三个部分：

l RandomSentenceSpout：数据源，在已知的英文句子中，随机发送一条句子出去。

l SplitSentenceBolt：负责将单行文本记录（句子）切分成单词

l WordCountBolt：负责对单词的频率进行累加

7.2、项目主要流程

7.3、RandomSentenceSpout的实现及生命周期

7.4、SplitSentenceBolt的实现及生命周期

7.5、WordCountBolt的实现及生命周期

7.6、Stream Grouping详解

Storm里面有7种类型的stream grouping

l Shuffle Grouping: 随机分组，随机派发stream里面的tuple，保证每个bolt接收到的tuple数目大致相同。

l Fields Grouping：按字段分组，比如按userid来分组，具有同样userid的tuple会被分到相同的Bolts里的一个task，而不同的userid则会被分配到不同的bolts里的task。

l All Grouping：广播发送，对于每一个tuple，所有的bolts都会收到。

l Global Grouping：全局分组，这个tuple被分配到storm中的一个bolt的其中一个task。再具体一点就是分配给id值最低的那个task。

l Non Grouping：不分组，这stream grouping个分组的意思是说stream不关心到底谁会收到它的tuple。目前这种分组和Shuffle grouping是一样的效果， 有一点不同的是storm会把这个bolt放到这个bolt的订阅者同一个线程里面去执行。

l Direct Grouping：直接分组，这是一种比较特别的分组方法，用这种分组意味着消息的发送者指定由消息接收者的哪个task处理这个消息。只有被声明为Direct Stream的消息流可以声明这种分组方法。而且这种消息tuple必须使用emitDirect方法来发射。消息处理者可以通过TopologyContext来获取处理它的消息的task的id （OutputCollector.emit方法也会返回task的id）。

l Local or shuffle grouping：如果目标bolt有一个或者多个task在同一个工作进程中，tuple将会被随机发生给这些tasks。否则，和普通的Shuffle Grouping行为一致。

Storm集群部署及单词技术的更多相关文章

2.Storm集群部署及单词统计案例
1.集群部署的基本流程 2.集群部署的基础环境准备 3.Storm集群部署 4.Storm集群的进程及日志熟悉 5.Storm集群的常用操作命令 6.Storm源码下载及目录熟悉 7.Storm 单词 ...
Storm 系列（三）Storm 集群部署和配置
Storm 系列(二)Storm 集群部署和配置本章中主要介绍了 Storm 的部署过程以及相关的配置信息.通过本章内容,帮助读者从零开始搭建一个 Storm 集群. 一.Storm 的依赖组件 1 ...
storm集群部署和配置过程详解
先整体介绍一下搭建storm集群的步骤: 设置zookeeper集群安装依赖到所有nimbus和worker节点下载并解压storm发布版本到所有nimbus和worker节点配置storm ...
Storm集群部署
一. 说明 Storm是一个分布式实时计算系统,Storm对于实时计算的意义就相当于Hadoop对于批量计算的意义.对于实时性较高的系统Storm是不错的选择.Hadoop提供了map, reduce ...
Storm1.0.3集群部署
Storm集群部署所有集群部署的基本流程都差不多:下载安装包并上传.解压安装包并配置环境变量.修改配置文件.分发安装包.启动集群.查看集群是否部署成功. 1.所有的集群上都要配置hosts vi ...
02_Storm集群部署
1. 部署前的硬件及软件检查硬件要求 1)storm集群部署包括zookeeper部署,而zookeeper集群最小为3台机器2)storm的计算过程都在内存中完成,因此内存要尽量大3)storm少 ...
Storm集群安装部署步骤【详细版】
作者: 大圆那些事 | 文章可以转载,请以超链接形式标明文章原始出处和作者信息网址: http://www.cnblogs.com/panfeng412/archive/2012/11/30/how ...
Storm入门教程第三章Storm集群安装部署步骤、storm开发环境
一. Storm集群组件 Storm集群中包含两类节点:主控节点(Master Node)和工作节点(Work Node).其分别对应的角色如下: 主控节点(Master Node)上运行一个被称为N ...
Storm集群安装部署步骤
本文以Twitter Storm官方Wiki为基础,详细描述如何快速搭建一个Storm集群,其中,项目实践中遇到的问题及经验总结,在相应章节以"注意事项"的形式给出. 1. Sto ...

随机推荐

软工作业-四则运算（java实现）BY叶湖倩，叶钰羽
四则运算生成器 BY-信安1班叶湖倩(3216005170) 信安1班叶钰羽(3216005171) 1. 项目介绍源代码GitHub地址:https://github.com/yeyuyu/s ...
javaBean和mvc思想
JavaBean, 咖啡豆. JavaBean是一种开发规范,可以说是一种技术. JavaBean就是一个普通的java类.只有符合以下规定才能称之为javabean: 1)必须提供无参数的构造方法 ...
request对象和response对象，什么时候用，具体用哪一个，没有感觉
request对象和response对象,什么时候用,具体用哪一个,没有感觉
win7 秘钥
链接安装好Windows7后右击计算机--属性--更改产品密匙输入以下密匙; RHTBY-VWY6D-QJRJ9-JGQ3X-Q2289 HT6VR-XMPDJ-2VBFV-R9PFY-3VP7R ...
WindowManager实现悬浮可拖动效果
现在360手机卫士有个流量统计的效果,开启流量统计后,在桌面上会出现一个显示流量的窗体,在任何界面都可以自由拖动. 模仿这个功能,做了一个统计手机信号强度的Demo, 界面效果如下: 从上面的截图可以 ...
ip分包研究-以UDP为例
原文 http://www.jianshu.com/p/741cb12ab0c9 测试环境: 利用iOS的NE从TUN抓取IP packets,如下代码分析ip包: uint16_t iphid = ...
【MFC】picture控件两种有细微差别的动态加载图片方法
摘自:http://www.jizhuomi.com/software/193.html VS2010/MFC编程入门之二十七(常用控件:图片控件Picture Control) 分类标签: 编程入门 ...
python学习之数据结构
python的数据很丰富,所以对于数据分析来讲, python是一种最合适的选择下面讲述一下常见的数据结构,包括栈,队列,元组,字典,集合等,以及对这些数据结构进行操作 #堆栈,后进先出 a=[10 ...
如何加快MyEclipse的启动速度
学习java开发的朋友对Myeclipse应该不陌生,MyEclipse企业级工作平台(MyEclipseEnterprise Workbench ,简称MyEclipse)是对EclipseIDE的 ...
pmm监控页面502
我们知道pmm主要使用的是普罗米修斯采集和grafana日志统计显示. 最近为硬盘扩过一次容量,主要是docker使用的,我的pmm是跑在docker上的,但是重启后pmm的debug日志下载502 ...

Storm集群部署及单词技术

1、 集群部署的基本流程

1、 集群部署的基础环境准备

3、Storm集群部署

3.1、下载安装包

3.2、解压安装包

3.3、修改配置文件

3.4、分发安装包

3.5、启动集群

3.6、查看集群

4、Storm常用操作命令

5、Storm集群的进程及日志熟悉

5.1、部署成功之后，启动storm集群。

5.2、查看nimbus的日志信息

5.3、查看ui运行日志信息

5.4、查看supervisor运行日志信息

5.5、查看supervisor上worker运行日志信息

6、Storm源码下载及目录熟悉

6.1、在Storm官方网站上寻找源码地址

6.2、点击文字标签进入github

6.3、拷贝storm源码地址

6.4、使用Subversion客户端下载

6.5、Storm源码目录分析（重要）

7、Storm单词技术案例（重点掌握）

7.1、功能说明

7.2、项目主要流程

7.3、RandomSentenceSpout的实现及生命周期

7.4、SplitSentenceBolt的实现及生命周期

7.5、WordCountBolt的实现及生命周期

7.6、Stream Grouping详解

Storm集群部署及单词技术的更多相关文章

随机推荐

热门专题

1、集群部署的基本流程

1、集群部署的基础环境准备