53.storm简介
一、简介
1.storm是twitter开源的一个分布式的实时计算系统,用于数据实时分析,持续计算,分布式RPC等等。
- 官网地址:http://storm-project.net
- 源码地址:https://github.com/nathanmarz/storm
- Jstorm实现高可用。
2.实时计算要解决一些什么问题?
- 最显而易见的就是实时推荐系统,比如我们在淘宝等电商购物网站买东西,我们会在网页旁边或者底端看到与自己需要商品相关的系列产品。这就是使用类似storm实时计算算法去做的,我们非常熟悉的hadoop只是做离线数据分析,无法做到实时分析计算。
- 比如车流量实时计算,可以利用storm为我们实时计算每一个路段的拥挤度等相关路况信息。
- 再比如过票,也是一种实时计算的机制,利用storm完全可以实现。
3.实现一个实时计算系统
- 低延迟:实时计算,延迟肯定要低。
- 高性能:可以使用几台普通的服务器建立环境,结余成本。
- 分布式:storm非常适合于分布式场景,大数据的实时计算;你的数据和计算单机就能搞定的话,那么不用考虑这些复杂问题了。我们所说的是单机搞不定的情况。
- 可扩展:伴随着业务的发展,我们的数据量、计算量可能会越来越大,所以希望这个系统可以扩展。
- 容错:这是分布式系统中通用的问题,一个节点挂了不能影响应用,storm可以轻松做到在节点挂了的时候实现任务转移,并且在节点重启的时候(也就是重新投入生产环境时,自动平衡任务)
- 可靠性:可靠的消息处理。storm保证每一个消息至少能得到一次完整处理。任务失败时,它会负责从消息源重试消息。
- 快速:系统的设计保证了消息能得到快速的处理,使用ZeroMQ作为其底层消费队列。
- 本地模式:Storm有一个“本地模式”,可以在处理过程中完全模拟storm集群。这样可以快速进行开发和单元测试。
二、storm体系结构
- 首先我们那hadoop和storm进行一个简单的对比

- Storm是一个开源的分布式实时计算系统,可以简单、可靠的处理大量的数据流。Storm有很多使用场景:如实时分析,在线机器学习,持续计算,分布式RPC,ETL等待。Storm支持水平扩展,具有高容错性,保证每个消息都得到处理,而且处理速度很快(在一个小集群中,每个节点每秒可以处理数以百万计的消息)。Storm的部署和运维都很便捷,而且更为重要的是,可以使用任意编程语言来开发应用。
- storm框架结构图

- Nimbus主节点:主节点通常运行一个后台程序--Nimbus,用于响应分布式集群中的节点,分配任务和监测故障。这个很类似于Hadoop的Job Tracker
- Supervisor工作节点:通常运行一个后台程序--Supervisor,用于监听工作,指派工作进程,每一个工作节点都是topology中一个子集的实现。而Nimbus和Supervisor之间的协议通过zookeeper系统集群。
- zookeeper:是完成Supervisor和Nimbus之间协调的服务。而应用程序实现实时的逻辑则被封装到storm的topology。topology姿势一组由Spouts和Bolts通过Stream Groupings进行连接的图。
- Topology:拓扑,就是一个概念
- storm中运行的一个实时应用程序,因为各个组件间的消息形成逻辑上的一个拓扑结构。一个topology是spouts和bolts组成的图,通过stream groupings将图中的spouts和bolts连接起来:

53.storm简介的更多相关文章
- 分布式流式处理框架:storm简介 + Storm术语解释
简介: Storm是一个免费开源.分布式.高容错的实时计算系统.它与其他大数据解决方案的不同之处在于它的处理方式.Hadoop 在本质上是一个批处理系统,数据被引入 Hadoop 文件系统 (HDFS ...
- Apache Storm简介
Apache Storm简介 Storm是一个分布式的,可靠的,容错的数据流处理系统.Storm集群的输入流由一个被称作spout的组件管理,spout把数据传递给bolt, bolt要么把数据保存到 ...
- 流式大数据计算实践(6)----Storm简介&使用&安装
一.前言 1.这一文开始进入Storm流式计算框架的学习 二.Storm简介 1.Storm与Hadoop的区别就是,Hadoop是一个离线执行的作业,执行完毕就结束了,而Storm是可以源源不断的接 ...
- Storm概念学习系列之storm简介
不多说,直接上干货! storm简介 Storm 是 Twitter 开源的.分布式的.容错的实时计算系统,遵循 Eclipse Public License1.0. Storm 通过简单的 API ...
- Storm简介
Storm特性 1. 低延迟和高性能 在一个小集群中,每个节点每秒可以处理数以百万计的消息. 2. 可扩展 在Storm集群中主要有三个实体:工作进程.线程和任务.Storm集群中每台机器上都可以运行 ...
- 流式计算之Storm简介
Storm是一个分布式的.容错的实时计算系统,遵循Eclipse Public License 1.0,Storm可以方便地在一个计算机集群中编写与扩展复杂的实时计算,Storm之于实时处理,就好比H ...
- storm简介[ZZ]
场景 伴随着信息科技日新月异的发展,信息呈现出爆发式的膨胀,人们获取信息的途径也更加多样.更加便捷,同时对于信息的时效性要求也越来越高.举个搜索 场景中的例子,当一个卖家发布了一条宝贝信息时,他希望的 ...
- Storm简介及使用
一.Storm概述 网址:http://storm.apache.org/ Apache Storm是一个免费的开源分布式实时计算系统.Storm可以轻松可靠地处理无限数据流,实现Hadoop对批处理 ...
- Storm简介——初始Storm
一.什么是Storm Strom是由Twitter开源的类似于Hadoop的实时数据处理框架.Strom是分布式流式数据处理系统,强大的分布式集群管理.便捷的针对流式数据的编程模型.高容错保障这些都是 ...
随机推荐
- 2018.09.26 bzoj1015: [JSOI2008]星球大战starwar(并查集)
传送门 并查集经典题目. 传统题都是把删边变成倒着加边,这道题是需要倒着加点. 处理方法是将每个点与其他点的边用一个vector存起来,加点时用并查集统计答案就行了. 代码: #include< ...
- 2018.09.25 51nod1597 有限背包计数问题(背包+前缀和优化)
传送门 dp好题. 我认为原题的描述已经很清楚了: 你有一个大小为n的背包,你有n种物品,第i种物品的大小为i,且有i个,求装满这个背包的方案数有多少. 两种方案不同当且仅当存在至少一个数i满足第i种 ...
- 2018.09.24 bzoj4977: [[Lydsy1708月赛]跳伞求生(贪心+线段树)
传送门 线段树好题. 这题一看我就想贪心. 先把a,b数组排序. 然后我们选择a数组中最大的b个数(不足b个就选a个数),分别贪心出在b数组中可以获得的最大贡献. 这时可以用线段树优化. 然后交上去只 ...
- 2018.09.05 bzoj1010: [HNOI2008]玩具装箱toy(斜率优化dp)
传送门 一道经典的斜率优化dp. 推式子ing... 令f[i]表示装前i个玩具的最优代价. 然后用老套路. 我们只考虑把第j+1" role="presentation" ...
- c++ => new/delete
new的具体使用方式如下: 类型 *变量名 = new 类型; delete 变量 / delete[] 变量; 类型包括数组.结构体和类 数组申请动态内存后,要使用delete[]才能把内存清除干净 ...
- 如何让编译器实现struts2的xml提示
首先,选择pereference--->搜索xml 找到xml Catalog 点击右侧的add添加 下载好对应的dtd文档,然后在本地的WEB-INF下建立一个dtd文件夹,将dtd拷入. A ...
- 状态机中的RAM注意的问题--减少扇出的办法
可能我不会抓紧时间,所以做事老是很慢.最近在整维特比译码过程深感自己有这样的毛病. 每天会有一点进展,但是却是一天的时间,感觉别人都做起事情来很快.可能这个东西有点难,做 不做得出来都不要紧,但我的想 ...
- dlib安装教程(for linux)
https://blog.csdn.net/LoHiauFung/article/details/78454905 https://www.linuxidc.com/Linux/2017-11/148 ...
- gulp布局构建小结
一.工具选择CSS预处理语言LESS 构建工具gulp(基于node环境)gulp插件:gulp-connect——主要是用来运行一个webserver npm install --save-dev ...
- REST格式
首先要明确一点:REST 实际上只是一种设计风格,它并不是标准.(所以你可以看到网上一大堆的各种最佳实践,设计指南,但是没有人说设计标准).aisuhua/restful-api-design-ref ...