Storm拓扑的并行度（parallelism）介绍

1、Storm分为3个主要实体，用于在Storm集群中运行拓扑
       工作进程：Worker Process，也称为Worker
       执行器：Executor，即线程Thread
       任务：Task
       工作进程、执行器、任务三者之间关系如下图：

       Topology由一个或多个Spout/Bolt组件构成。
        运行中的Topology由一个或多个Supervisor节点中的Worker构成。默认情况下一个Supervisor节点运行4个Worker，由defaults.yaml/storm.yaml中的属性决定：
        　　supervisor.slots.ports：
        　　　　- 6700
        　　　　- 6701
        　　　　- 6702
        　　　　- 6703
        在代码中可以使用new Config().setNumWorkers(3)，最大数量不能超过配置的supervisor.slots.ports数量。
        Worker为特定拓扑的一个或多个组件Spout/Bolt产生一个或多个Executor。默认情况下一个Worker运行一个Executor。
        Executor为特定拓扑的一个或多个组件Spout/Bolt实例运行一个或多个Task。默认情况下一个Executor运行一个Task。
        Task执行真正的数据处理，代码中实现的每个Spout/bolt作为很多任务跨集群执行。一个Spout/Bolt组件的Task数量始终贯穿Topology的整个生命周期，但一个Spout/Bolt组件的Executor数量会随着时间而改变。这意味着Threads≤Tasks条件成立。默认情况下Task数量与Executor数量相同，即Storm会使用每个Executor运行一个Task。

   2、配置拓扑的并行度
       工作进程Worker数量
           Config config = new Config();
           config.setNumWorkers(3);   //注意此参数不能大于supervisor.slots.ports数量。
       执行器Executor数量
           TopologyBuilder builder = new TopologyBuilder();
           builder.setSpout(id, spout, parallelism_hint);       //设置Spout的Executor数量参数parallelism_hint
           builder.setBolt(id, bolt, parallelism_hint);       //设置Bolt的Executor数量参数parallelism_hint
       任务Task数量
           TopologyBuilder builder = new TopologyBuilder();
           builder.setSpout(id, spout, parallelism_hint).setNumTasks(val);;       //设置Spout的Executor数量参数parallelism_hint，Task数量参数val
           builder.setBolt(id, bolt, parallelism_hint).setNumTasks(val);           //设置Bolt的Executor数量参数parallelism_hint，Task数量参数val

   3、改变运行中拓扑的并行度
       Storm一个很好的特性是可以增加或减少工作进程Worker和Executor的数量而不需要重启集群或拓扑，这样的行为成为再平衡（rebalancing）。目前有两种方式可实现拓扑再平衡，如下：
           使用Storm的WebUI
           使用Storm的命令行工具，如下
               # 重新配置拓扑
               # “myTopology” 拓扑使用5个Worker进程
               # “blue-spout” Spout使用3个Executor
               # “yellow-blot” Bolt使用10个Executor
               storm rebalance myTopology -n 5 -e blue-spout=3 -e yellow-blot=10

Storm拓扑的并行度（parallelism）介绍的更多相关文章

理解 Storm 拓扑的并行度(parallelism)概念
组成:一个运行中的拓扑是由什么构成的:工作进程(worker processes),执行器(executors)和任务(tasks)! 在一个 Storm 集群中,Storm 主要通过以下三个部件来运 ...
大数据处理框架之Strom: Storm拓扑的并行机制和通信机制
一.并行机制 Storm的并行度 ,通过提高并行度可以提高storm程序的计算能力. 1.组件关系:Supervisor node物理节点,可以运行1到多个worker,不能超过supervisor. ...
【原】【译文】理解storm拓扑并行度
原文地址: http://storm.apache.org/releases/1.2.1/Understanding-the-parallelism-of-a-Storm-topology.html ...
【原】理解Storm拓扑的并行
Storm入门教程 1. Storm基础 Storm Storm主要特点 Storm基本概念 Storm调度器 Storm配置 Guaranteeing Message Processing(消息处理 ...
Storm系列二： Storm拓扑设计
Storm系列二: Storm拓扑设计在本篇中,我们就来根据一个案例,看看如何去设计一个拓扑, 如何分解问题以适应Storm架构,同时对Storm拓扑内部的并行机制会有一个基本的了解. 本章代码都在 ...
Storm系列（二）：使用Csharp创建你的第一个Storm拓扑（wordcount）
WordCount在大数据领域就像学习一门语言时的hello world,得益于Storm的开源以及Storm.Net.Adapter,现在我们也可以像Java或Python一样,使用Csharp创建 ...
Storm系列（一）：搭建dotNet开发Storm拓扑的环境
上篇博客比较了目前流行的计算框架特性,如果你是 Java 开发者,那么根据业务场景选择即可:但是如果你是 .Net 开发者,那么三者都不能拿来即用,至少在这篇文章出现之前是如此.基于上篇文章的比较发现 ...
Storm系列(十八)事务介绍
功能:将多个tuple组合成为一个批次,并保障每个批次的tuple被且仅被处理一次. storm事务处理中,把一个批次的tuple的处理分为两个阶段processing和commit阶段. proce ...
三个大数据处理框架：Storm，Spark和Samza 介绍比较
转自:http://www.open-open.com/lib/view/open1426065900123.html 许多分布式计算系统都可以实时或接近实时地处理大数据流.本文将对三种Apache框 ...

随机推荐

android实现界面左右滑动（GridView动态设置item,支持每个item按某个属性排序来显示在不同的界面）
效果图 : 分别是第一页.第二页.第三页,随手截的图,不整齐,勿见怪.开始走了弯路,废了不少时间. 思路如下: 1.用ViewPager实现左右分页滑动 ...
java06switch
public class SwitchTest { public static void main(String[] args) { /** * 如果第一名,参加麻省理工大学组织的1个月夏令营 * 如 ...
excel导入mssql数据库，支持excel2003--2010文件格式
rt,简单的excel导入mssql.未做性能及海量数据优化,一般单表5000左右条数据导入适用. 源码非原创,来源于之前搜集整理,原作者无从考究,如有版权问题请留言注明. 看代码.前台页面是一个Fi ...
svg学习笔记
<!DOCTYPE html> <html> <head lang="en"> <meta charset="UTF-8&quo ...
zookeeper笔记
zookeeper用于分布式配置管理,读写锁等等..后续补充.
activiti_SpringEnvironment
package main; import org.activiti.engine.ProcessEngine; import org.activiti.engine.ProcessEngines; i ...
如何完全卸载SQL Server 2005
用过SQL Server 2005的朋友都应该知道,不管是安装还是完全卸载都是件很头疼的事情. 下面跟大家分享一下如何完全卸载SQL Server 2005(手动卸载步骤哦~~). 一.停止sql的服 ...
angularjs不同页面间controller传参方式，使用service封装sessionStorage
这里分享一个我在实际项目中,使用service封装的一个依赖sessionStorage的传参服务. 这里先说下大背景,在我们的实际开发中,登陆之后一般会存在一个token,这个token将会贯穿全场 ...
C#实现MySQL数据库中的blob数据存储
在MySQL数据库中,有一种blob数据类型,用来存储文件.C#编程语言操作MySQL数据库需要使用MySQL官方组件MySQL.Data.dll. Mysql.Data.dll(6.9.6)组件下载 ...
rtmpdump代码分析转
RTMPdump 源代码分析 1: main()函数 rtmpdump 是一个用来处理 RTMP 流媒体的工具包,支持 rtmp://, rtmpt://, rtmpe://, rtmpte://, ...

Storm拓扑的并行度（parallelism）介绍

Storm拓扑的并行度（parallelism）介绍的更多相关文章

随机推荐

热门专题