storm之8：并行度

（一）storm拓扑的并行度可以从以下4个维度进行设置：
1、node（服务器）：指一个storm集群中的supervisor服务器数量。
2、worker（jvm进程）：指整个拓扑中worker进程的总数量，这些数量会随机的平均分配到各个node。
3、executor（线程）：指某个spout或者bolt的总线程数量，这些线程会被随机平均的分配到各个worker。
4、task（spout/bolt实例）：task是spout和bolt的实例，它们的nextTuple()和execute()方法会被executors线程调用。除非明确指定，storm会给每个executor分配一个task。如果设置了多个task，即一个线程持有了多个spout/bolt实例.
注意：以上设置的都是总数量，这些数量会被平均分配到各自的宿主上，而不是设置每个宿主进行多少个进程/线程。详见下面的例子。

（二）并行度的设置方法
1、node：买机器吧，然后加入集群中……
2、worker：Config#setNumWorkers() 或者配置项 TOPOLOGY_WORKERS
3、executor：Topology.setSpout()/.setBolt()
4、task：ComponentConfigurationDeclarer#setNumWorker()

（三）例子：
       // 3、创建topology
       TopologyBuilder builder = new TopologyBuilder();
       builder.setSpout("kafka-reader", new KafkaSpout(spoutConf), 5);//设置executor数量为5
       builder.setBolt("filter-bolt", new FilterBolt(), 3).shuffleGrouping(
               "kafka-reader");//设置executor数量为3
       builder.setBolt("log-splitter", new LogSplitterBolt(), 3)
               .shuffleGrouping("filter-bolt");//设置executor数量为5
       builder.setBolt("hdfs-bolt", hdfsBolt, 2).shuffleGrouping(
               "log-splitter");//设置executor数量为2

// 4、启动topology
       Config conf = new Config();
       conf.put(Config.NIMBUS_HOST, nimbusHost);
       conf.setNumWorkers(3);      //设置worker数量
       StormSubmitter.submitTopologyWithProgressBar(topologyName, conf,
               builder.createTopology());

1、通过config.setNumWorkers(3)将worker进程数量设置为3，假设集群中有3个node，则每个node会运行一个worker。
2、executor的数量分别为：
spout:5
filter-bolt:3
log-splitter:3
hdfs-bolt:2
总共为13个executor，这13个executor会被随机分配到各个worker中去。
注：这段代码是从kafka中读取消息源的，而这个topic在kafka中的分区数量设置为5，因此这里spout的线程娄为5.
3、这个示例都没有单独设置task的数量，即使用每个executor一个task的默认配置。若需要设置，可以：
builder.setBolt("log-splitter", new LogSplitterBolt(), 3)
.shuffleGrouping("filter-bolt").setNumTasks(5);
来进行设置，这5个task会被分配到3个executor中。

（四）并行度的动态调整
对storm拓扑的并行度进行调整有2种方法：
1、kill topo—>修改代码—>编译—>提交拓扑
2、动态调整
第1种方法太不方便了，有时候topo不能说kill就kill，另外，如果加几台机器，难道要把所有topo kill掉还要修改代码？
因此storm提供了动态调整的方法,动态调整有2种方法：
1、ui方式：进入某个topo的页面，点击rebalance即可，此时可以看到topo的状态是rebalancing。但此方法只是把进程、线程在各个机器上重新分配，即适用于增加机器，或者减少机器的情形，不能调整worker数量、executor数量等
2、cli方式：storm rebalance
举个例子
storm rebalance toponame -n 7 -e filter-bolt=6 -e hdfs-bolt=8
将topo的worker数量设置为7，并将filter-bolt与hdfs-bolt的executor数量分别设置为6、8.
此时，查看topo的状态是rebalancing，调整完成后，可以看到3台机器中的worker数量分别为3、2、2

storm之8：并行度的更多相关文章

Storm拓扑的并行度（parallelism）介绍
Storm拓扑的并行度(parallelism)介绍 1.Storm分为3个主要实体,用于在Storm集群中运行拓扑工作进程:Worker Process,也称为Worker ...
理解 Storm 拓扑的并行度(parallelism)概念
组成:一个运行中的拓扑是由什么构成的:工作进程(worker processes),执行器(executors)和任务(tasks)! 在一个 Storm 集群中,Storm 主要通过以下三个部件来运 ...
Storm概念学习系列之并行度与如何提高storm的并行度
不多说,直接上干货! 对于storm来说,并行度的概念非常重要!大家一定要好好理解和消化. storm的并行度,可以简单的理解为多线程. 如何提高storm的并行度? storm程序主要由spout和 ...
storm教程
二.安装部署一.storm伪分布式安装 (一)环境准备1.OS:debian 72.JDK 7.0 (二)安装zookeeper1.下载zookeeper并解压 wget http://mirr ...
Storm基础知识
上一篇文章我们介绍一个简单的Storm起源,今天我去学习Storm一些主要的知识,他的基本使用基本的了解.幸运的是,,不是太困难,假设我们理解Hadoop的MapReduce模型的话.看这个也是很类似 ...
大数据处理框架之Strom: Storm拓扑的并行机制和通信机制
一.并行机制 Storm的并行度 ,通过提高并行度可以提高storm程序的计算能力. 1.组件关系:Supervisor node物理节点,可以运行1到多个worker,不能超过supervisor. ...
Storm 系列（一）基本概念
Storm 系列(一)基本概念 Apache Storm(http://storm.apache.org/)是由 Twitter 开源的分布式实时计算系统. Storm 可以非常容易并且可靠地处理无限 ...
storm原理介绍
目录 storm原理介绍一.原理介绍二.配置三.并行度 (一)storm拓扑的并行度可以从以下4个维度进行设置: (二)并行度的设置方法 (三)示例四.分组五.可靠性 (一)spout (二 ...
Storm实践(一)：基础知识
storm简介 Storm是一个分布式实时流式计算平台,支持水平扩展,通过追加机器就能提供并发数进而提高处理能力:同时具备自动容错机制,能自动处理进程.机器.网络等异常. 它可以很方便地对流式数据进行 ...

随机推荐

nginx的使用配置
nginx为反向代理服务器,可以反向代理不同域名转向不同的具体服务器.可以用于负载压力或是同一台机器使用不同域名进行访问. 以下片段是服务器配置: #user cmcc; worker_process ...
ubuntu后台运行命令行
ubuntu 程序后台运行几个方法 . 程序后加上“&” ,即 “./myjob &”, 将命令放入到一个作业队列中,可以用命令“jobs” 查看 . 将1中的命令放在 “()”中, ...
Xamarin for OSX – SetUp
正常情况联网会失败按照安装顺序进行安装(mono framework->java sdk-> android sdk->xamarin studio->xamarin.and ...
Linux&shell之处理用户输入
写在前面:案例.常用.归类.解释说明.(By Jim) 命令行参数$1为第一个参数,$2为第二个参数,依次类推...示例: #!/bin/bash # using one command line p ...
POJ1321 棋盘问题(dfs)
题目链接. 分析: 用 dfs 一行一行的搜索,col记录当前列是否已经放置. AC代码如下: #include <iostream> #include <cstdio> #i ...
-_-#【乱码】URL中文参数
JavaScript利用URL向后台传入中文参数乱码问题解决之道! encodeURIComponent(encodeURIComponent('ya呀')) http://wap.baomihua. ...
java中的Package语句和import语句
在实际项目中会有成百上千个类,我们把近似的类放在同一个包里面,比如把实体类放在实体类包里面 package 为解决类的命名冲突问题而引入的机制. package语句作为Java源文件的第一条语句 ...
12、ERP设计之系统基础管理(BS)- 模块与菜单的关联
ShareERP2013-10-03 模块:具有功能设计.权限绑定,链接用户菜单与系统的重要桥梁. 菜单:是用于显示与用户交互的重要入口,更是导航系统的舵手,所以它的设计直接影响到用户体验. 菜单可能 ...
MyBatis（5）：MyBatis集成Spring事务管理（上）
单独使用MyBatis对事务进行管理前面MyBatis的文章有写过相关内容,这里继续写一个最简单的Demo,算是复习一下之前MyBatis的内容吧,先是建表,建立一个简单的Student表: 1 2 ...
解决hyerv的linux虚拟机网卡地址重启发生变化的问题
关于linux的虚拟机,当进行虚拟机copy的时候,由于虚拟机配置文件里面会记录网卡的mac地址,所以导致linux里面记录的网卡地址和实际的会有冲突,这样linux会自动把网卡地址提高. 比如原来是 ...

storm之8：并行度

storm之8：并行度的更多相关文章

随机推荐

热门专题