Storm工作流程

为什么storm的数据来自于消息队列？

Storm的解决问题的scope主要在于流计算，说流计算之前我们先简单的说下一般数据处理系统的过程。
一般数据处理简单说要有几个环节：数据采集，数据计算，结果输出。题主的问题主要是在数据采集和计算之间的对接。
一般来说计算系统（storm）不会自己产生业务数据，业务数据一般来自页面的埋点，或者对数据库log的解析，对于storm来说采集系统是个外部系统。 
采集系统是数据的生产者，流计算（storm）是数据的消费者。二者的速度并不是时时刻刻匹配的，中间就需要需要一个缓冲，这个模型下消息队列在适合不过了。
当然为什么一般用kafka，这个超出了这个问题，我们暂不讨论。如果题主要处理的数据不是实时产生的而是静态数据那就没必要使用消息队列了，当然也没必要使用storm，使用Hadoop MR更合适。
关于spout会不会重复读取数据的问题，简单来说消息队列中数据会分partition支持多并发。   
题主可以看看kafka的文档，一般消息队列，对一份数据（一个topic，对应离线系统的表）会分不同的parition，不同的spout并发可以读取不同的parition，
当然一个并发可以读取多个parition，但是多个并发读取一个parition会引起混乱这就是题主的问题。也就是实际应用中一个parition只会有一个并发读取。

模式：自动化数据采集 -> 消息队列（作用：缓冲） -> 运算框架

实例：flume - > kafka -> storm

转自：https://zhidao.baidu.com/question/1771687573246188220.html

Storm工作流程的更多相关文章

Storm工作流程 vs. Spark Stream
看的这个学习课程: http://study.163.com/course/courseLearn.htm?courseId=1002887002#/learn/video?lessonId=1003 ...
Storm 中什么是-acker，acker工作流程介绍
概述我们知道storm一个很重要的特性是它能够保证你发出的每条消息都会被完整处理, 完整处理的意思是指: 一个tuple被完全处理的意思是: 这个tuple以及由这个tuple所导致的所有的tupl ...
storm之 Storm 工作原理
Storm 工作原理 Storm简介 1.Storm是一套分布式的.可靠的,可容错的用于处理流式数据的系统. 2.Storm也是基于C/S架构来进行工作的,C负责将数据处理的方式的jar(Topolo ...
Yarn框架和工作流程研究
一.概述将公司集群升级到Yarn已经有一段时间,自己也对Yarn也研究了一段时间,现在开始记录一下自己在研究Yarn过程中的一些笔记.这篇blog主要主要从大体上说说Yarn的基本架构以及其 ...
struts2工作流程
struts2的框架结构图工作流程 1.客户端请求一个HttpServletRequest的请求,如在浏览器中输入http://localhost: 8080/bookcode/Reg.action ...
SecondaryNameNode的工作流程
SecondaryNameNode是用来合并fsimage和edits文件来更新NameNode和metadata的. 其工作流程为: 1.secondary通知namenode切换edits文件 2 ...
gitlab工作流程简介
gitlab工作流程简介新建项目流程创建/导入项目可以选择导入github.bitbucket项目,也可以新建空白项目,还可以从SVN导入项目建议选择private等级初始化项目 1.本地克 ...
Git 工作流程
Git 作为一个源码管理系统,不可避免涉及到多人协作. 协作必须有一个规范的工作流程,让大家有效地合作,使得项目井井有条地发展下去.”工作流程”在英语里,叫做”workflow”或者”flow”,原意 ...
Spark基本工作流程及YARN cluster模式原理(读书笔记)
Spark基本工作流程及YARN cluster模式原理转载请注明出处:http://www.cnblogs.com/BYRans/ Spark基本工作流程相关术语解释 Spark应用程序相关的几 ...

随机推荐

ssi框架搭建
Struts2主要来源于webwork框架,与Struts1相比,在数据传递方面,Struts2提供了更加强大OGNL标签功能,使其能够通过在action中定义变量来直接与jsp页面中的数据进行相互传 ...
SSM实战——秒杀系统之DAO层实体定义、接口设计、mybatis映射文件编写、整合Spring与Mybatis
一:DAO实体编码 1:首先,在src目录下,新建org.myseckill.entity包,用于存放实体类: 2:实体类设计根据前面创建的数据库表以及映射关系,创建实体类. 表一:秒杀商品表对应 ...
Plus One 加一运算
Given a non-negative number represented as an array of digits, plus one to the number. The digits ar ...
maven-war-plugin 插件 web.xml 缺失时忽略
我们很多时候开发Spring MVC 项目时我们完全可以使用Java Bean 和 Annotation 的方式来配置 Spring MVC 的 DispatcherServlet,而不再采用传统的 ...
linux C++ 莫名奇异的段错误(segmentation fault)，无法调用其他函数
进来在linux下开发C++项目,遇到了非常奇怪的bug. 项目须要多线程实现,在写好代码后,每当执行到线程函数内部,当内部调用其他函数如printf.fopen等时就会提示段错误(segmentat ...
【Linux】特殊符号$$,$#,$?等解释
在linux系统中有很多的特殊符号,他们具有特殊的意义 $# 是传给脚本的参数个数 $0 是脚本本身的名字 $1 是传递给该shell的第一个参数 $2 是传递给该shell的第二个参数 $@ 是传递 ...
LoadRunner监控mysql利器－SiteScope（转）
转自:http://www.jianshu.com/p/fce30e333578 导语 sitescope是惠普出的一个简单易用的监控工具,可以用来监控数据库,系统资源等一.下载传送门 SiteSc ...
【Dubbo实战】 Dubbo+Zookeeper+Spring整合应用篇-Dubbo基于Zookeeper实现分布式服务（转）
Dubbo与Zookeeper.Spring整合使用 Dubbo采用全Spring配置方式,透明化接入应用,对应用没有任何API侵入,只需用Spring加载Dubbo的配置即可,Dubbo基于Spri ...
初次使用Microsoft Azure
一.介绍在微博上偶然发现微软的Azure有免费申请试用的机会,于是赶快给微软发邮件申请,第二天就通过了. 早就听说过微软在云计算方面发力,但一直没机会试用,之前用过国产的BAE.SAE,用GoAge ...
使用Cygwin登录Raspberry PI
偿试了很多ssh终端程序,像ScureCRT,Putty,SSHSecureShellClient,SSH Client Tunnelier,每个工具都有自己的特点,putty对中文的支持还算好的,其 ...

Storm工作流程

为什么storm的数据来自于消息队列？

Storm工作流程的更多相关文章

随机推荐

热门专题