Storm中-Worker Executor Task的关系

Storm在集群上运行一个Topology时，主要通过以下3个实体来完成Topology的执行工作：
1. Worker（进程）
2. Executor（线程）
3. Task

下图简要描述了这3者之间的关系：

注：supervisor.slots.ports:对于每个工作节点配置该节点可以运行多少个worker进程。

每个worker进程使用一个但单独的端口来收取消息，这里配置了哪个端口用来使用。

定义5个端口，那么该节点上允许最多运行5个worker进程。

默认情况下，可以在端口6700, 6701, 6702, 6703四个端口最多运行四个worker进程。

如果我们不在这进行配置的话，这个参数也是有默认值的，有一个strom-core.jar，打开这个jar文件，在里面有一个defaults.yaml文件中是有一些默认配置的。

如下图：

Worker ：

一个Worker 进程执行的是一个topology的子集，这里我们必须强调：不会存在一个worker 为多个topology服务，

一个worker进程会启动一个或则多个executor 线程来执行一个topology的compotent-》也就是Spout或者bolt，

一个topology就是由于集群中间的多台物理机上的Worker构成的

Workers (JVMs): 在一个节点上可以运行一个或多个独立的JVM 进程(配置多个端口时)。一个Topology可以包含一个或多个worker(并行的跑在不同的machine上), 所以worker process就是执行一个topology的子集, 并且worker只能对应于一个topology;worker processes的数目, 可以通过配置文件和代码中配置, worker就是执行进程, 所以考虑并发的效果, 数目至少应该大亍machines的数目。

默认情况下一个storm项目只使用一个work进程，也可以通过代码进行修改，通过config.setNumWorkers(workers)设置。(最好一台机器上的一个topology只使用一个worker,主要原因时减少了worker之间的数据传输)

注意：如果worker使用完的话再提交topology就不会执行，因为没有可用的worker，只能处于等待状态，把之前运行的topology停止一个之后这个就会继续执行了，

Executor：

一个executor是一个被Worker进程启动的单独线程，每一个Executor都只会运行一个topology的一个component，

默认情况：一个spout，或则一个bolt都只会生成一个task，Executor线程里会在每次循环的时候顺序的去调用所有的task的实例子

默认情况：一个executor对应一个task，可以通过配置文件，或者API来设置！

默认情况：一个executor运行一个task，可以通过在代码中设置builder.setSpout(id,spout, parallelism_hint);或者builder.setBolt(id,bolt,parallelism_hint);来提高线程数的。

Executors (threads): 在一个worker JVM进程中运行着多个Java线程。一个executor线程可以执行一个或多个tasks.

一般默认每个executor只执行一个task。

一个worker可用包含一个或多个executor, 每个component (spout或bolt)至少对应于一个executor, 所以可以说executor执行一个compenent的子集,

同时一个executor只能对应于一个component;executor的数目, component的并发线程数只能在代码中配置(通过setBolt和setSpout的参数)。

task：

通过boltDeclarer.setNumTasks(num);来设置实例的个数

默认情况下，一个supervisor节点会启动4个worker进程。每个worker进程会启动1个executor，每个executor启动1个task。

task是最终运行spout或bolt中代码的单元（注：1个task即为spout或bolt的1个实例，executor线程在执行期间会调用该task的nextTuple或execute方法）。

topology启动后，1个component(spout或bolt)的task数目是固定不变的，但该component使用的executor线程数可以动态调整（例如：1个executor线程可以执行该component的1个或多个task实例）。这意味着，对于1个component存在这样的条件：#threads<=#tasks（即：线程数小于等于task数目）。

默认情况下task的数目等于executor线程数目，即1个executor线程只运行1个task

Tasks(bolt/spout instances):Task就是具体的处理逻辑对象,每一个Spout和Bolt会被当作很多task在整个集群里面执行。

每一个task对应到一个线程,而stream grouping则是定义怎么从一堆task发射tuple到另外一堆task。

可以调用TopologyBuilder.setSpout和TopBuilder.setBolt来设置并行度 — 也就是有多少个task，tasks的数目, 可以不配置, 默认和executor1:1, 也可以通过

setNumTasks()配置。

注意：

1、并行度主要就是调整executor的数量，但是调整之后的executor的数量必须小于等于task的数量！

如果分配的executor的线程数比task数量多的话也只能分配和task数量相等的executor

2、如果设置了多个task实例，但是并行度executor并没有很大提高！例如Spout只有两个线程(executor)去运行这些实例,是没有意义的，当然rebalance的时候用到！

rebalance不需要修改代码，就可以动态修改topology的并行度executor，这样的话就必须提前配置好多个(task)实例，在rebalance的时候主要是对之前设置多余的任务实例分配线程去执行。只有设置足够多的线程和实例才可以真正的提高并行度。

3、 worker是进程，executor对应于线程，spout或bolt是一个个的task

同一个worker只会执行同一个topology相关的task，即：一个worder执行一个topology的一部分task，因为topology由多台物理机上的worder构成的！

在同一个executor中可以执行多个同类型的task, 即在同一个executor中，要么全部是bolt类的task，要么全部是 spout类的task

运行的时候，spout和bolt需要被包装成一个又一个task

TASK的存在只是为了topology扩展的灵活性，与并行度无关。

总结一下：worker>executor>task 要想提高storm的并行度可以从三个方面来改造worker(进程)>executor(线程)>task(实例)增加work进程，增加executor线程，增加task实例！

第二：

上图中的3段话依次如下：

Storm集群中的其中1台机器可能运行着属于多个拓扑(可能为1个)的多个worker进程(可能为1个)。每个worker进程运行着特定的某个拓扑的executors。
1个或多个excutor可能运行于1个单独的worker进程，每1个executor从属于1个被worker process生成的线程中。每1个executor运行着相同的组件(spout或bolt)的1个或多个task。
1个task执行着实际的数据处理。

1个worker进程执行一个拓扑的子集。1个worker进程从属于1个特定的拓扑，并运行着这个拓扑的1个或多个组件(spout或bolt)的1个或多个executor。一个运行中的拓扑包括集群中的许多台机器上的许多个这样的进程。

1个executor是1个worker进程生成的1个线程。它可能运行着1个相同的组件(spout或bolt)的1个或多个task。

1 个task执行着实际的数据处理，你用代码实现的每一个spout或bolt就相当于分布于整个集群中的许多个task。在1个拓扑的生命周期中，1个组件的task的数量总是一样的，但是1个组件的executor(线程)的数量可以随着时间而改变。这意味着下面的条件总是成立：thread的数量 <= task的数量。默认情况下，task的数量与executor的数量一样，例如，Storm会在每1个线程运行1个task。

下面附上一段程序来说明：

TopologyBuilder builder = new TopologyBuilder();

builder.setSpout("spout", new RandomSentenceSpout(), 5).setNumTasks(4);    //executors数目设置为5，即线程数为5，task为4
    builder.setBolt("split", new SplitSentence(), 8).shuffleGrouping("spout"); //executors数目设置为8，即线程数为8，task默认为1
    builder.setBolt("count", new WordCount(), 4).fieldsGrouping("spout", new Fields("ming"));   //executors数目设置为4，即线程数为4

Config conf = new Config();
conf.setDebug(false);

conf.setNumWorkers(3); //这里是设置Topology的Workers数
StormSubmitter.submitTopology("word-count", conf, builder.createTopology());

参考：http://blog.chinaunix.net/uid-28379365-id-5017449.html

Storm中-Worker Executor Task的关系的更多相关文章

storm源码之理解Storm中Worker、Executor、Task关系 + 并发度详解
本文导读: 1 Worker.Executor.task详解 2 配置拓扑的并发度 3 拓扑示例 4 动态配置拓扑并发度 Worker.Executor.Task详解: Storm在集群上运行一个To ...
storm中worker、executor、task之间的关系
这里做一些补充: worker是一个进程,由supervisor启动,并只负责处理一个topology,所以不会同时处理多个topology. executor是一个线程,由worker启动,是运行t ...
Storm-源码分析- Component ,Executor ,Task之间关系
Component包含Executor(threads)的个数在StormBase中的num-executors, 这对应于你写topology代码时, 为每个component指定的并发数(通过s ...
【原】storm源码之理解Storm中Worker、Executor、Task关系
Storm在集群上运行一个Topology时,主要通过以下3个实体来完成Topology的执行工作:1. Worker(进程)2. Executor(线程)3. Task 下图简要描述了这3者之间的关 ...
线上Storm的worker，executor，task参数调优篇
问题引入: 线上最近的数据量越来越大,出现了数据处理延迟的现象,观察storm ui的各项数据,发现有大量的spout失败的情况,如下: ------------------------------- ...
Storm概念学习系列之Worker、Task、Executor三者之间的关系
不多说,直接上干货! Worker.Task.Executor三者之间的关系 Storm集群中的一个物理节点启动一个或者多个Worker进程,集群的Topology都是通过这些Worker进程运行的. ...
Storm概念学习系列之核心概念（Tuple、Spout、Blot、Stream、Stream Grouping、Worker、Task、Executor、Topology）（博主推荐）
不多说,直接上干货! 以下都是非常重要的storm概念知识. (Tuple元组数据载体 .Spout数据源.Blot消息处理者.Stream消息流和 Stream Grouping 消息流组.Wor ...
storm中几个概念的大小关系
从图可以看出来:topology>supervisor>worker>excutor>task; 也就是说一个topology可以运行在多个supervisor上,一个supe ...
Storm中遇到的日志多次重写问题（一）
业务描述: 统计从kafka spout中读取的数据条数,以及写入redis的数据的条数,写入hdfs的数据条数,写入kafaka的数据条数.并且每过5秒将数据按照json文件的形式写入日志.其中保存 ...

随机推荐

HDU 2045 不容易系列之(3)—— LELE的RPG难题(递归/动态规划)
不容易系列之(3)—— LELE的RPG难题 Problem Description 人称“AC女之杀手”的超级偶像LELE最近忽然玩起了深沉,这可急坏了众多“Cole”(LELE的粉丝,即" ...
信息设计工具IDT创建从SAP Business Object到SAP HANA的连接
1. 打开Information Design Tool, 并添加BO Server的连接 2. 在Connection上右击, 选择Insert Relational Connection 3. 输 ...
tar命令结合find搜索将指定条件的文件进行打包压缩
今天处理 /tmp 临时目录下 session 文件过多的问题,顺便找到了这个 tar 结合 find 打包压缩的方法,记录下来,很实用的哈! 搜索 /tmp 目录下创建超过 24 分钟的文件 fi ...
[HMLY]2.CocoaPods详解----进阶
作者:wangzz 原文地址:http://blog.csdn.net/wzzvictory/article/details/19178709 转载请注明出处一.podfile.lock文件 ...
js---疑点代码段解析
function count() { var arr = []; for (var i=1; i<=3; i++) { console.log("iii---"+i); ar ...
php学习笔记——基础知识（1）
1.PHP 脚本在服务器上执行,然后向浏览器发送回纯 HTML 结果. 2.基础 PHP 语法 1)PHP 脚本可放置于文档中的任何位置. 2)PHP 脚本以 <?php 开头,以 ?> ...
hdu 3410 Passing the Message(单调队列)
题目链接:hdu 3410 Passing the Message 题意: 说那么多,其实就是对于每个a[i],让你找他的从左边(右边)开始找a[j]<a[i]并且a[j]=max(a[j])( ...
关于UI_USER_INTERFACE_IDIOM() & UIDevice.model
使用 UI_USER_INTERFACE_IDIOM() 进行区分 (ios 3.2 >=) 无法区分iphone和ipod if (UI_USER_INTERFACE_IDIOM() == U ...
suricata抓包方式之一AF_PACKET
suricata抓包方式之一AF_PACKET 噜拯渡 睦坚削曜纡宄式犒藿氆咬焚桤φ 要蒯钮喃俚夼 币噎嶂颐话千叶舞就后悔了怎么想都容易让人引虻谮м 及葚雏钏看着表面平静实际 ...
Java作用域
1. java访问控制修饰符 Java中,可以使用访问控制符来保护对类.变量.方法和构造方法的访问.Java支持4种不同的访问权限. 默认的,也称为 default,在同一包内可见,不使用任何修饰符. ...

Storm中-Worker Executor Task的关系

Storm中-Worker Executor Task的关系的更多相关文章

随机推荐

热门专题