Storm架构和编程模型总结

1. 编程模型
　　DataSource：外部数据源
　　Spout：接受外部数据源的组件，将外部数据源转化成Storm内部的数据，以Tuple为基本的传输单元下发给Bolt
　　Bolt:接受Spout发送的数据，或上游的bolt的发送的数据。根据业务逻辑进行处理。发送给下一个Bolt或者是存储到某种介质上。介质可以是Redis可以是mysql，或者其他。
　　Tuple：Storm内部中数据传输的基本单元，里面封装了一个List对象，用来保存数据。
　　StreamGrouping:数据分组策略
7种：shuffleGrouping(Random函数),Non Grouping(Random函数),FieldGrouping(Hash取模)、Local or ShuffleGrouping 本地或随机，优先本地。
2. 并发度
　　用户指定的一个任务，可以被多个线程执行，并发度的数量等于线程的数量。一个任务的多个线程，会被运行在多个Worker（JVM）上，有一种类似于平均算法的负载均衡策略。尽可能减少网络IO，和Hadoop中的MapReduce中的本地计算的道理一样。
3. 架构
　　Nimbus：任务分配
　　Supervisor：接受任务，并启动worker。worker的数量根据端口号来的。
　　Worker:执行任务的具体组件（其实就是一个JVM）,可以执行两种类型的任务，Spout任务或者bolt任务。
　　Task：Task=线程=executor。一个Task属于一个Spout或者Bolt并发任务。
　　Zookeeper：保存任务分配的信息、心跳信息、元数据信息。
4. Worker与topology
　　一个worker只属于一个topology,每个worker中运行的task只能属于这个topology。反之，一个topology包含多个worker，其实就是这个topology运行在多个worker上。
　　一个topology要求的worker数量如果不被满足，集群在任务分配时，根据现有的worker先运行topology。如果当前集群中worker数量为0，那么最新提交的topology将只会被标识active，不会运行，只有当集群有了空闲资源之后，才会被运行。

5. 如何指定驱动类中每个组件的并发度数量？如何设置worker的数量？
　　(1) 根据上游的数据量来设置Spout的并发度。
　　(2) 根据业务复杂度和execute方法执行时间来设置Bolt并发度。
　　(3) 根据集群的可用资源来配置，一般情况下70%的资源使用率。
(4) Worker的数量理论上根据程序并发度总的Task数量来均分，在实际的业务场景中，需要反复调整

6. Ack-fail机制

　　(1) 需要ack-fail时，请为每个tuple生成一个messageID,这个messagetId是用来标识你关心的tuple。当这个tuple被完全处理时，storm框架会调用Spout的ack方法，否则调用fail。至于你的消息是否重发，完全由自己处理。

MySpout{

        private Map buffer = new HashMap();

        spout.open()

        spout.nextTuple(){

            collector.emit()

            buffer.put(msgId,messValue)

        }

        spout.outputFields()

        spout.ack(msgId){

        //消息移除

        buffer.remove(msgId);

        }

        spout.fail(msgId){

        //消息重发

         String messValue = buffer.get(msgId)

         collector.emit();

        }

    }

    MyBolt{

        bolt.execute(){

        //先判断消息是否被处理过

        // 在redis或mysql中保存一个处理过的消息列表

        //需要手动的调用ack方法

        collector.ack(tuple)

        }

    }

　　(2) 在Spout有并发度的情况下，storm会根据tuple最开始的所属的spout taskId，通知相应的spoutTask

　　 (3) 在流式计算中topology的bolt组件是可以配置多个的，在每个环节中，都需要bolt组件显式告诉storm框架，自己对当前接受的这个tuple处理完成。
<spoutTaskId,<RootID,ackaValue=0>>

spout1----->tuple1(msgId,rootId)-----bolt1-----collector.ack(tuple)

                               bolt1-----tuple1------>bolt2------ack(tuple1-)

                               bolt1-----tuple1------>bolt2------ack(tuple1-)

                               bolt1-----tuple1------>bolt2------ack(tuple1-)

                               bolt1-----tuple1------>bolt2------ack(tuple1-)

                                                       bolt2-----tuple2------>bolt3------ack(tuple2-)

                                                          bolt2-----tuple2------>bolt3------ack(tuple2-)

                                                          bolt2-----tuple2------>bolt3------ack(tuple2-)

                                                          bolt2-----tuple2------>bolt3------ack(tuple2-)

　　(4) ack机制里面，发送两种类型的tuple。一种是原始消息(DataTuple)，另外一种是ackTuple<RootID，tupleID>，DataTuple中会包含一个MessageId的对象，

spout.emit(DataTuple(MessageId(ackTuple)))------->bolt1.execute(dataTuple)---->collector.ack(dataTuple)

ackTuple--------------------->Acker.execute(tuple)

dataTuple--->MessageId--->ackTuple

Acker.execute(tuple)

Storm架构和编程模型总结的更多相关文章

storm的trident编程模型
storm的基本概念别人总结的, https://blog.csdn.net/pickinfo/article/details/50488226 编程模型最关键最难就是实现局部聚合的业务逻辑聚合类实现 ...
Storm集成Kafka编程模型
原创文章,转载请注明: 转载自http://www.cnblogs.com/tovin/p/3974417.html 本文主要介绍如何在Storm编程实现与Kafka的集成一.实现模型数据流程: ...
Storm 第一章核心组件及编程模型
1 流式计算流式计算:数据实时产生.实时传输.实时计算.实时展示代表技术:Flume实时获取数据.Kafka/metaq实时数据存储.Storm/JStorm实时数据计算.Redis实时结果缓存. ...
Storm介绍及核心组件和编程模型
离线计算离线计算:批量获取数据.批量传输数据.周期性批量计算数据.数据展示代表技术:Sqoop批量导入数据.HDFS批量存储数据.MapReduce批量计算数据.Hive批量计算数据.azkaba ...
storm介绍，核心组件，编程模型
一.流式计算概念利用分布式的思想和方法,对海量“流”式数据进行实时处理,源自业务对海量数据,在“时效”的价值上的挖掘诉求,随着大数据场景应用场景的增长,对流式计算的需求愈发增多,流式计算的一般架构图 ...
学习笔记TF048:TensorFlow 系统架构、设计理念、编程模型、API、作用域、批标准化、神经元函数优化
系统架构.自底向上,设备层.网络层.数据操作层.图计算层.API层.应用层.核心层,设备层.网络层.数据操作层.图计算层.最下层是网络通信层和设备管理层.网络通信层包括gRPC(google Remo ...
Storm编程模型及组件流程图
一.Storm编程模型二.Storm组件流程图
Storm集群组件和编程模型
Storm工作原理: Storm是一个开源的分布式实时计算系统,常被称为流式计算框架.什么是流式计算呢?通俗来讲,流式计算顾名思义:数据流源源不断的来,一边来,一边计算结果,再进入下一个流. 比 ...
第1节 storm编程：4、storm环境安装以及storm编程模型介绍
dataSource:数据源,生产数据的东西 spout:接收数据源过来的数据,然后将数据往下游发送 bolt:数据的处理逻辑单元.可以有很多个,基本上每个bolt都处理一部分工作,然后将数据继续往下 ...

随机推荐

Vue中计算属性与class,style绑定
var vm=new Vue({ el:'#app', data:{ a:2, }, computed:{ //这里的b是计算属性:默认getter b:{ get:function(){ retur ...
Win7-64位安装TensorFlow-GPU
1.查看电脑显卡路径:计算机--属性--设备管理器-显示适配器 2.显卡(GPU)是否支持CUDN https://developer.nvidia.com/cuda-gpus 3.安装 1)CUD ...
微信小程序省市区选择器对接数据库
前言,小程序本身是带有地区选着器的(网站:https://mp.weixin.qq.com/debug/wxadoc/dev/component/picker.html),由于自己开发的程序的数据是很 ...
fork 至 “sys_clone" SyS_clone
注:glibc-2.17中fork的相应系统调用是sys_clone及SyS_clone.有人说调用的是sys_fork,但是我持否定意见,如果我们向真的来发起系统调用可以使用syscall. for ...
Java基础之深入理解Class对象与反射机制
深入理解Class对象 RRIT及Class对象的概念 RRIT(Run-Time Type Identification)运行时类型识别.在<Thinking in Java>一书第十四 ...
struts2危险漏洞解决方法
原创,bgy编写.2013-07-24 前文: 随着苹果开发者网站的沦陷,已经曝光一周的Apache Struts2漏洞再次成为热门话题,今天有消息称由于该漏洞被利用,淘宝的数据库已经被盗,尽管淘宝官 ...
iOS使用NSURLConnection发送同步和异步HTTP Request
1. 同步发送 - (NSString *)sendRequestSync { // 初始化请求, 这里是变长的, 方便扩展 NSMutableURLRequest *request = [[NSMu ...
Java泛型方法与数据查询
在使用JDBC查询数据库中数据时,返回的结果是ResultSet对象,使用十分不方便.Commons DbUtils组件提供了将ResultSet转化为Bean列表的方法,但是该方法在使用时需要根据不 ...
7 -- Spring的基本用法 -- 12... Spring 3.0 提供的表达式语言(SpEL)
7.12 Spring 3.0 提供的表达式语言(SpEL) Spring表达式语言(简称SpEL)是一种与JSP 2 的EL功能类似的表达式语言,它可以在运行时查询和操作对象图.支持方法调用和基本字 ...
exchange 2003配置ASSP 反垃圾邮件
Exchange上第三方反垃圾邮件用得比较多的是ORF,它直接运行在虚拟SMTP服务上,配置非常的方便.ASSP(https://sourceforge.net/projects/assp/) 是一个 ...

Storm架构和编程模型总结

Storm架构和编程模型总结的更多相关文章

随机推荐

热门专题