Storm实践

1.Storm命令

　　在Linux中观直接输入Storm，不带任何参数信息，可以查看Storm命令。

　　参考这里

　　1. activate　　

　　激活指定的拓扑Spout。语法：storm activate topology-name

　　2. classpath

　　打印出Storm客户端运行命令时使用的类路径（classpath），语法：storm classpath

　　3. deactivate

　　禁用指定的拓扑Spout。语法：storm deactivate topology-name

　　4. dev-zookeeper

　　以dev.zookeeper.path配置的值作为本地目录，以storm.zookeeper.port配置的值作为端口，启动一个　新的ZooKeeper服务，仅用来开发/测试。语法：storm dev-zookeeper

　　5. drpc

　　启动一个DRPC守护进程。语法：storm drpc　　该命令应该使用daemontools或者monit工具监控运行。

　　6.help

　　storm help <command>

　　7. jar

　　storm jar topology-jar-path class ...

　　把Storm的jar文件和“~/.storm”的配置放到类路径（classpath）中，以便当拓扑提交时，　　　　 StormSubmitter会上传topology-jar-path的jar文件。

常用命令：

提交Topologies到远程集群机器

　　命令格式：storm jar 【jar路径】【拓扑包名.拓扑类名】【拓扑名称】

　　样例：storm jar /storm-starter.jar storm.starter.WordCountTopology wordcountTop

　　#提交storm-starter.jar到远程集群，并启动wordcountTop拓扑。

停止Topologies

　　命令格式：storm kill 【拓扑名称】

　　样例：storm kill wordcountTop

　　#杀掉wordcountTop拓扑。

　　执行kill命令时可以通过-w [等待秒数]指定拓扑停用以后的等待时间。

启动nimbus后台程序

　　命令格式：storm nimbus

启动supervisor后台程序

　　命令格式：storm supervisor

启动drpc服务

　　命令格式：storm drpc

启动ui服务

　　命令格式：storm ui

启动REPL

　　REPL — read-evaluate-print-loop。

　　虽然clojure可以作为一种脚本语言内嵌在java里面，但是它的首选编程方式是使用REPL，这是一个简单的命令行接口，使用它你可以输入你的命令，执行，然后查看结果，你可以以下面这个命令来启动REPL：

　　命令格式：storm repl

打印本地配置

　　命令格式：storm localconfvalue 【配置参数关键字】

　　举例：storm localconfvalue storm.zookeeper.servers

　　#根据指定参数打印本地配置的值。

打印远程配置

　　命令格式：storm remoteconfvalue 【配置参数关键字】

　　举例：storm remoteconfvalue storm.zookeeper.servers

　　#根据指定参数打印远程配置的值。

执行Shell脚本

　　命令格式：storm shell resourcesdir command args

打印CLASSPATH

　　命令格式：storm classpath

平衡拓扑

　　storm rebalance topology-name

　　再平衡使你重分配集群任务。这是个很强大的命令。比如，你向一个运行中的集群增加了节点。再平衡命令将会停用拓扑，然后在相应超时时间之后重分配工人，并重启拓扑。

2.定义拓扑

Topology和Nimbus
Topology是storm的核心理念，将spout和bolt组织成一个topology，运行在storm集群里，完成实时分析和计算的任务。这里我主要想介绍下topology部署到storm集群的大概过程。提交一个topology任务到Storm集群是通过StormSubmitter.submitTopology方法提交：

StormSubmitter.submitTopology(name, conf, builder.createTopology());

我们将topology打成jar包后，利用bin/storm这个python脚本，执行如下命令：

bin/storm jar xxxx.jar com.taobao.MyTopology args

将jar包提交给storm集群。storm脚本会启动JVM执行Topology的main方法，执行submitTopology的过程。而submitTopology会将jar文件上传到nimbus，上传是通过socket传输。

topology任务的分配过程(zookeeper路径说明忽略root):
　　1.在zookeeper上创建/taskheartbeats/{storm id} 路径，用于任务的心跳检测。storm对zookeeper的一个重要应用就是利用zk的临时节点做存活检测。task将定时刷新节点的时间戳，然后nimbus会检测这个时间戳是否超过timeout设置。
　　2.从topology中获取bolts,spouts设置的并行数目以及全局配置的最大并行数，然后产生task id列表，如[1 2 3 4]
　　3.在zookeeper上创建/tasks/{strom id}/{task id}路径，并存储task信息
　　4.开始分配任务（内部称为assignment)，具体步骤：
　　　　 (1)从zk上获得已有的assignment(新的toplogy当然没有了）
　　　　 (2)查找所有可用的slot，所谓slot就是可用的worker，在所有supervisor上配置的多个worker的端口。
　　　　(3)将任务均匀地分配给可用的worker，这里有两种情况：
　　　　(a)task数目比worker多，例如task是[1 2 3 4],可用的slot只有[host1:port1 host2:port1]，那么最终是这样分配

　　　　{1: [host1:port1] 2 : [host2:port1]
　　3 : [host1:port1] 4 : [host2:port1]}

　　，可以看到任务平均地分配在两个worker上。
(b)如果task数目比worker少，例如task是[1 2]，而worker有[host1:port1 host1:port2 host2:port1 host2:port2]，那么首先会将woker排序，将不同host间隔排列，保证task不会全部分配到同一个worker上，也就是将worker排列成

[host1:port1 host2:port1 host1:port2 host2:port2]

，然后分配任务为

{1: host1:port1 , 2 : host2:port2}

(4)记录启动时间
(5)判断现有的assignment是否跟重新分配的assignment相同，如果相同，不需要变更，否则更新assignment到zookeeper的/assignments/{storm id}上。
5.启动topology，所谓启动，只是将zookeeper上/storms/{storm id}对应的数据里的active设置为true。
6.nimbus会检查task的心跳，如果发现task心跳超过超时时间，那么会重新跳到第4步做re-assignment。

Storm实践的更多相关文章

Storm实践(一)：基础知识
storm简介 Storm是一个分布式实时流式计算平台,支持水平扩展,通过追加机器就能提供并发数进而提高处理能力:同时具备自动容错机制,能自动处理进程.机器.网络等异常. 它可以很方便地对流式数据进行 ...
Storm实践(二)：集群搭建
集群规划角色 IP hostname nimbus 192.168.100.101 dda supervisor 192.168.100.102 ddb supervisor 192.168.100 ...
Kafka+Storm+HDFS整合实践
在基于Hadoop平台的很多应用场景中,我们需要对数据进行离线和实时分析,离线分析可以很容易地借助于Hive来实现统计分析,但是对于实时的需求Hive就不合适了.实时应用场景可以使用Storm,它是一 ...
Zookeeper+Kafka+Storm+HDFS实践
Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者规模的网站中的所有动作流数据. Hadoop一般用在离线的分析计算中,而storm区别于hadoop,用在实时的流式计算中,被广泛用来 ...
STORM在线业务实践-集群空闲CPU飙高问题排查
源:http://daiwa.ninja/index.php/2015/07/18/storm-cpu-overload/ 2015-07-18AUTHORDAIWA STORM在线业务实践-集群空闲 ...
[转载] Kafka+Storm+HDFS整合实践
转载自http://www.tuicool.com/articles/NzyqAn 在基于Hadoop平台的很多应用场景中,我们需要对数据进行离线和实时分析,离线分析可以很容易地借助于Hive来实现统 ...
Storm实时计算：流操作入门编程实践
转自:http://shiyanjun.cn/archives/977.html Storm实时计算:流操作入门编程实践 Storm是一个分布式是实时计算系统,它设计了一种对流和计算的抽象,概念比 ...
基于Redis、Storm的实时数据查询实践
通过算法小组给出的聚合文件,我们需要实现一种业务场景,通过用户的消费地点的商户ID与posId,查询出他所在的商圈,并通过商圈地点查询出与该区域的做活动的商户,并与之进行消息匹配,推送相应活动信息到用 ...
Storm+HBase实时实践
1.HBase Increment计数器 hbase counter的原理: read+count+write,正好完成,就是讲key的value读出,若存在,则完成累加,再写入,若不存在,则按&qu ...

随机推荐

jsp的语法
JSP指令和脚本元素指令 <%@ 指令%>声明 <%! 声明%>表达式 <%= 表达式%>代码段/脚本段 <% 代码段%>注释 <%-- 注释-- ...
java判断网页的编码格式
在爬取内容时,遇到乱码问题.故需对网页内容编码格式做判断,方式大体分为三种:一.从header标签中获取Content-Type=#Charset:二.从meta标签中获取Content-Type=# ...
awk中引用shell变量执行替换的脚本
遇到问题: 现在有两个脚本,我想将file1中的内容按file2来匹配 [root@154 home]# cat file1 3-1-1 POTV=1,POTA=0,POTP=2 1-4-76 PO ...
Git 2.0 更改 push default
近期更新了git,项目push时会提示这样的信息: warning: push.default 尚未设置,它的默认值在 Git 2.0 已从 'matching' 变更为 'simple'.若要不再显 ...
mysql数据库在windows下安装与配置
mysql是一种开源源代码的关系型数据库系统(RDBMS),使用最常用的数据库管理语言--结构化查询语句(SQL)进行数据库管理. MySQL是开放源代码的,因此任何人都可以在General Pu ...
PHP 第3方评论系统
这段时间,无觅评论也下线不能使用了. 客户好几个网站使用了.无觅评论,前面也是用的是多说还是什么,总之也是第3方评论,没想到没过多久,又停止使用了. 没办法,网站还是需要评论系统,一气之下,自己做 ...
Chrome浏览器调试Android的Webview
chrome://inspect Android:4.4+ Chrome 30+ 首次使用需要FQ
使用document.execCommand复制内容至剪贴板
API https://developer.mozilla.org/zh-CN/docs/Web/API/Document/execCommand 兼容性 http://caniuse.com/#se ...
python中的线程之semaphore信号量
semaphore是一个内置的计数器每当调用acquire()时,内置计数器-1 每当调用release()时,内置计数器+1 计数器不能小于0,当计数器为0时,acquire()将阻塞线程直到其他 ...
Pandas快速入门笔记
我正以Python作为突破口,入门机器学习相关知识.出于机器学习实践过程中的需要,我快速了解了一下提供了类似关系型或标签型数据结构的Pandas的使用方法.下面记录相关学习笔记. 数据结构 Panda ...