1. 编程模型
  DataSource:外部数据源
  Spout:接受外部数据源的组件,将外部数据源转化成Storm内部的数据,以Tuple为基本的传输单元下发给Bolt
  Bolt:接受Spout发送的数据,或上游的bolt的发送的数据。根据业务逻辑进行处理。发送给下一个Bolt或者是存储到某种介质上。介质可以是Redis可以是mysql,或者其他。
  Tuple:Storm内部中数据传输的基本单元,里面封装了一个List对象,用来保存数据。
  StreamGrouping:数据分组策略
7种:shuffleGrouping(Random函数),Non Grouping(Random函数),FieldGrouping(Hash取模)、Local or ShuffleGrouping 本地或随机,优先本地。
2. 并发度
  用户指定的一个任务,可以被多个线程执行,并发度的数量等于线程的数量。一个任务的多个线程,会被运行在多个Worker(JVM)上,有一种类似于平均算法的负载均衡策略。尽可能减少网络IO,和Hadoop中的MapReduce中的本地计算的道理一样。
3. 架构
  Nimbus:任务分配
  Supervisor:接受任务,并启动worker。worker的数量根据端口号来的。
  Worker:执行任务的具体组件(其实就是一个JVM),可以执行两种类型的任务,Spout任务或者bolt任务
  Task:Task=线程=executor。 一个Task属于一个Spout或者Bolt并发任务。
  Zookeeper:保存任务分配的信息、心跳信息、元数据信息。
4. Worker与topology
  一个worker只属于一个topology,每个worker中运行的task只能属于这个topology。 反之,一个topology包含多个worker,其实就是这个topology运行在多个worker上。
  一个topology要求的worker数量如果不被满足,集群在任务分配时,根据现有的worker先运行topology。如果当前集群中worker数量为0,那么最新提交的topology将只会被标识active,不会运行,只有当集群有了空闲资源之后,才会被运行。

5. 如何指定驱动类中每个组件的并发度数量?如何设置worker的数量?
  (1) 根据上游的数据量来设置Spout的并发度。
  (2) 根据业务复杂度和execute方法执行时间来设置Bolt并发度。
  (3) 根据集群的可用资源来配置,一般情况下70%的资源使用率。
    (4) Worker的数量理论上根据程序并发度总的Task数量来均分,在实际的业务场景中,需要反复调整

6. Ack-fail机制

  (1) 需要ack-fail时,请为每个tuple生成一个messageID,这个messagetId是用来标识你关心的tuple。当这个tuple被完全处理时,storm框架会调用Spout的ack方法,否则调用fail。至于你的消息是否重发,完全由自己处理。

MySpout{
private Map buffer = new HashMap();
spout.open()
spout.nextTuple(){
collector.emit()
buffer.put(msgId,messValue) }
spout.outputFields()
spout.ack(msgId){
//消息移除
buffer.remove(msgId); }
spout.fail(msgId){
//消息重发
String messValue = buffer.get(msgId)
collector.emit();
}
} MyBolt{
bolt.execute(){
//先判断消息是否被处理过
// 在redis或mysql中保存一个处理过的消息列表
//需要手动的调用ack方法
collector.ack(tuple)
}
}

  (2) 在Spout有并发度的情况下,storm会根据tuple最开始的所属的spout taskId,通知相应的spoutTask

   (3) 在流式计算中topology的bolt组件是可以配置多个的,在每个环节中,都需要bolt组件显式告诉storm框架,自己对当前接受的这个tuple处理完成。
<spoutTaskId,<RootID,ackaValue=0>>

spout1----->tuple1(msgId,rootId)-----bolt1-----collector.ack(tuple)
bolt1-----tuple1------>bolt2------ack(tuple1-)
bolt1-----tuple1------>bolt2------ack(tuple1-)
bolt1-----tuple1------>bolt2------ack(tuple1-)
bolt1-----tuple1------>bolt2------ack(tuple1-)
bolt2-----tuple2------>bolt3------ack(tuple2-)
bolt2-----tuple2------>bolt3------ack(tuple2-)
bolt2-----tuple2------>bolt3------ack(tuple2-)
bolt2-----tuple2------>bolt3------ack(tuple2-)

  (4) ack机制里面,发送两种类型的tuple。一种是原始消息(DataTuple),另外一种是ackTuple<RootID,tupleID>,DataTuple中会包含一个MessageId的对象,

spout.emit(DataTuple(MessageId(ackTuple)))------->bolt1.execute(dataTuple)---->collector.ack(dataTuple)
ackTuple--------------------->Acker.execute(tuple)
dataTuple--->MessageId--->ackTuple
Acker.execute(tuple)


Storm架构和编程模型总结的更多相关文章

  1. storm的trident编程模型

    storm的基本概念别人总结的, https://blog.csdn.net/pickinfo/article/details/50488226 编程模型最关键最难就是实现局部聚合的业务逻辑聚合类实现 ...

  2. Storm集成Kafka编程模型

    原创文章,转载请注明: 转载自http://www.cnblogs.com/tovin/p/3974417.html 本文主要介绍如何在Storm编程实现与Kafka的集成 一.实现模型 数据流程: ...

  3. Storm 第一章 核心组件及编程模型

    1 流式计算 流式计算:数据实时产生.实时传输.实时计算.实时展示 代表技术:Flume实时获取数据.Kafka/metaq实时数据存储.Storm/JStorm实时数据计算.Redis实时结果缓存. ...

  4. Storm介绍及核心组件和编程模型

    离线计算 离线计算:批量获取数据.批量传输数据.周期性批量计算数据.数据展示 代表技术:Sqoop批量导入数据.HDFS批量存储数据.MapReduce批量计算数据.Hive批量计算数据.azkaba ...

  5. storm介绍,核心组件,编程模型

    一.流式计算概念 利用分布式的思想和方法,对海量“流”式数据进行实时处理,源自业务对海量数据,在“时效”的价值上的挖掘诉求,随着大数据场景应用场景的增长,对流式计算的需求愈发增多,流式计算的一般架构图 ...

  6. 学习笔记TF048:TensorFlow 系统架构、设计理念、编程模型、API、作用域、批标准化、神经元函数优化

    系统架构.自底向上,设备层.网络层.数据操作层.图计算层.API层.应用层.核心层,设备层.网络层.数据操作层.图计算层.最下层是网络通信层和设备管理层.网络通信层包括gRPC(google Remo ...

  7. Storm编程模型及组件流程图

    一.Storm编程模型 二.Storm组件流程图

  8. Storm集群组件和编程模型

     Storm工作原理: Storm是一个开源的分布式实时计算系统,常被称为流式计算框架.什么是流式计算呢?通俗来讲,流式计算顾名思义:数据流源源不断的来,一边来,一边计算结果,再进入下一个流. 比 ...

  9. 第1节 storm编程:4、storm环境安装以及storm编程模型介绍

    dataSource:数据源,生产数据的东西 spout:接收数据源过来的数据,然后将数据往下游发送 bolt:数据的处理逻辑单元.可以有很多个,基本上每个bolt都处理一部分工作,然后将数据继续往下 ...

随机推荐

  1. 微信小程序开发1_资料收集

    [前言] 小程序 [一.资料] 微信官网 开发文档.工具 等 https://mp.weixin.qq.com/cgi-bin/wx [二] 创建小程序和编辑代码,先安装 开发者工具 ,根据所使用的操 ...

  2. 精美的HTML5/CSS3表单 带小图标

    今天我们要来分享一款非常精美的HTML5/CSS3表单,准备地说,这是一款经过美化的input输入表单,每一个输入表单都可以定义其两侧的小图标,非常华丽.另外,这款表单应用还采用了3种不同的风格主题, ...

  3. VCL 中的 Windows API 函数(2): ActivateKeyboardLayout

    ActivateKeyboardLayout 分别在 Controls.DBGrids.Grids 单元用到, 基本都是如下语句: ActivateKeyboardLayout(Screen.Defa ...

  4. 18 如何使用go来采集windows的基本硬件信息后发送到CMDB的服务器上

    preface 之前我使用python写了cmdb采集的脚本,打包成exe的二进制文件后放在windows上执行,也达到了预期的效果. 但是最近部门要上open-falcon监控体系,每个服务器都要安 ...

  5. 使用apache的poi实现导入导出excel

    1.jar包:poi-3.14-20160307.jar.poi-ooxml-3.14-20160307.jar 2.导入(本例实现了解析excel生成List): @Override public ...

  6. QT编译错误:Project ERROR: This example requires Qt to be configured with -opengl desktop

    学习QT场景视图,对一个Boxes的例子比较感兴趣,于是去编译学习,结果编译不能通过(使用的是QT5.12): Project ERROR: This example requires Qt to b ...

  7. 【12月06日】A股全市场情绪指标整理分析

    1. A股全市场的股权质押比例 2018年11月30日,A股全市场,质押股数占全市场总股本数比:9.997%,最近2周出现了3.2%的轻微回落.同历史时期相比,仍然处于高位. 2. A股全市场的解禁市 ...

  8. Android 4.0以上BlurMaskFilter效果无效

    Android MaskFilter的基本使用: MaskFilter类可以为Paint分配边缘效果.        对MaskFilter的扩展可以对一个Paint边缘的alpha通道应用转换.An ...

  9. html+jquery制作网页地图

    http://jvectormap.com/ <!--StartFragment --> JVectorMap 是一个显示矢量地图的jQuery插件.它使用 SVG 在Firefox 3 ...

  10. Git 学习笔记--1.Git基础操作

    取得项目的Git仓库 有两种方式取得Git项目仓库.第一种是在现存的目录下,通过导入所有文件来创建新的Git仓库.第二种是从已有的Git仓库克隆出一个新的镜像仓库. 在工作目录中初始化新仓库  要对现 ...