Hadoop之Storm基础

1、离线计算是什么
　　离线计算：批量获取数据，批量传输数据，周期性批量计算数据，数据展示
　　代表技术：sqoop批量导入数据，hdfs批量存储数据，mapreduce批量计算数据，hive批量计算数据，***任务调度

2、流式就算是什么
　　流式计算：数据实时产生，数据实时传输，数据实时计算，实时展示
　　代表技术：flume实时获取数据，kafka实时数据存储，storm/jstorm实时数据计算，redies实时结果缓存
　　----将源源不断的数据实时收集，并实时计算，尽可能得到计算结果

3、Storm是什么
　　Storm用来实时处理数据，特点：低延迟，高可用，分布式，可扩展，数据不丢失，提供简单容易的接口，便于开发

4、storm和hadoop的区别
　　1）storm用于实时计算，hadoop用于离线计算
　　2）storm处理的数据保存在内存中，源源不断，hadoop处理的数据保存在文件系统中，一批一批
　　3）storm的数据通过网络传输进来，hadoop的数据保存在磁盘中
　　storm hadoop
　　应用名称 topology job
　　编程接口 spout/bolt Mapper/Reducer

5、storm应用场景及行业案例
　　运用场景
　　日志分析管道系统消息转化器
　　典型案例
　　　　1、一淘-实时分析系统：实时分析用户的属性，并反馈给搜索引擎
　　　　2、携程-网站性能监控：实时分析系统监控携程网的网站性能
　　　　3、阿里妈妈-用户画像：实时计算用户的兴趣数据

6、Storm的核心组件
　　1、Nimbus：负责资源分配和任务调度，对任务监控
　　2、Superviser：当前物理机的管理者，负责接受nimbus分配的任务，启动和停止属于自己管理的worker进程
　　　　worker的数量是根据端口来的 ----通过配置文件设置当前superviser上启动多少个worker
　　3、worker：执行具体任务的组件，任务类型有两种，spout任务，bolt任务，一个worker
　　　　中可能同时存在运行具体处理组件逻辑进程
　　4、task：worker中每一个spout/bolt的线程称为一个task ，每个线程默认叫做executor

7、Storm编程模型
　　1、topology：storm中运行的一个实例应用程序的名称。
　　2、spout：在一个topology中获取源数据流的文件
　　　　通常情况下spout会从外部数据源中读取数据，然后转换为topology内部源数据
　　3、bolt：接受数据然后执行处理的组件，用户可以在其中执行自己想要的逻辑
　　4、tuple：一次消息传递的基本单元，理解为一组消息就是一个tuple
　　5、stream：表示数据的流向

8、编程模型
　　datasource：外部数据源
　　spout：接收外部数据源的组件，将外部数据源转化为storm的内部数据源
　　　　　　以tuple为基本的传输单元下发给bolt
　　bolt：接收spout发送的数据，或者上游的bolt的发送数据，根据业务逻辑自行处理，发送给下一个bolt
　　　　或者是存储在某种介质上，介质可以是redis或者mysql。。
　　tuple：storm内部中数据传输的基本单元，里面封装了一个list对象，用来保存数据
　　　　streamgrouping：数据分组策略
　　　　7种，shufflegrouping（random函数），non grouping（random函数），fieldgrouping（hash取模）
　　　　local or shufflegrouping 本地或者随机，优先本地

9、并发度
　　用户指定的一个任务，可以被多个线程执行，并发度的数量等于线程的数量
　　一个任务的多个线程，，会被运行在多个worker（jvm）上，类似于一种平均算法的负载均衡策略
　　尽可能减少网络io，和hadoop中mapreduce中的本地计算道理是一样的

10、架构
　　nimbus;任务分配
　　superviser：接收任务，并启动管理worker，worker的数量是根据端口号决定的
　　worker：执行任务的具体组件（其实就是一个jvm），可以执行两种类型的任务，spout或者bolt任务
　　task：task=线程=executor ，一个task属于一个spout或者bolt并发任务
　　zookeeper：保存任务的信息

11、流式计算的一般架构
　　网站系统——Flume集群（获取数据）——kafka集群（用来临时保存数据）——storm集群（用来计算数据）——Redis集群（内存数据库，保存数据）

12、Storm常用命令
　　有许多简单且有用的命令可以用来管理拓扑，它们可以提交、杀死、禁用、再平衡拓扑。
　　1）、提交任务命令格式：storm jar 【jar路径】【拓扑包名.拓扑类名】【拓扑名称】
　　　　bin/storm jar examples/storm-starter/storm-starter-topologies-0.10.0.jar storm.starter.WordCountTopology wordcount
　　2）、杀死任务命令格式：storm kill 【拓扑名称】 -w 10（执行kill命令时可以通过-w [等待秒数]指定拓扑停用以后的等待时间）
　　　　storm kill topology-name -w 10
　　3）、停用任务命令格式：storm deactivte 【拓扑名称】
　　　　storm deactivte topology-name
　　　　我们能够挂起或停用运行中的拓扑。当停用拓扑时，所有已分发的元组都会得到处理，但是spouts的nextTuple方法
　　　　不会被调用。销毁一个拓扑，可以使用kill命令。它会以一种安全的方式销毁一个拓扑，首先停用拓扑，
　　　　在等待拓扑消息的时间段内允许拓扑完成当前的数据流。
　　4）、启用任务命令格式：storm activate【拓扑名称】
　　　　storm activate topology-name
　　5）、重新部署任务命令格式：storm rebalance 【拓扑名称】
　　　　storm rebalance topology-name
　　　　再平衡使你重分配集群任务。这是个很强大的命令。比如，你向一个运行中的集群增加了节点。再平衡命令将会
　　　　停用拓扑，然后在相应超时时间之后重分配工人，并重启拓扑。

13、查看日志信息
　　查看nimbus的日志信息
　　　　在nimbus的服务器上
　　　　cd /export/servers/storm/logs
　　　　tail -100f /export/servers/storm/logs/nimbus.log
　　查看ui运行日志信息
　　　　在ui的服务器上，一般和nimbus一个服务器
　　　　cd /export/servers/storm/logs
　　　　tail -100f /export/servers/storm/logs/ui.log
　　查看supervisor运行日志信息
　　　　在supervisor服务上
　　　　cd /export/servers/storm/logs
　　　　tail -100f /export/servers/storm/logs/supervisor.log
　　查看supervisor上worker运行日志信息
　　　　在supervisor服务上
　　　　cd /export/servers/storm/logs
　　　　tail -100f /export/servers/storm/logs/worker-6702.log

Hadoop之Storm基础的更多相关文章

大数据框架对比：Hadoop、Storm、Samza、Spark和Flink
转自:https://www.cnblogs.com/reed/p/7730329.html 今天看到一篇讲得比较清晰的框架对比,这几个框架的选择对于初学分布式运算的人来说确实有点迷茫,相信看完这篇文 ...
快速学习hadoop只有这些基础可不行
“学习hadoop需要什么基础”这已经不是一个新鲜的话题了,随便上网搜索一下就能找出成百上千篇的文章在讲学习hadoop需要掌握的基础.再直接的一点的问题就是——学Hadoop难吗?用一句特别让人无语 ...
大数据框架对比：Hadoop、Storm、Samza、Spark和Flink——flink支持SQL，待看
简介大数据是收集.整理.处理大容量数据集,并从中获得见解所需的非传统战略和技术的总称.虽然处理数据所需的计算能力或存储容量早已超过一台计算机的上限,但这种计算类型的普遍性.规模,以及价值在最近几年才 ...
数据框架对比：Hadoop、Storm、Samza、Spark和Flink——flink支持SQL，待看
简介大数据是收集.整理.处理大容量数据集,并从中获得见解所需的非传统战略和技术的总称.虽然处理数据所需的计算能力或存储容量早已超过一台计算机的上限,但这种计算类型的普遍性.规模,以及价值在最近几年才 ...
Hadoop之Storm命令
Hadoop之Storm命令 1.storm核心概念 stream--->一列火车 tuple--->一节车厢数据--->乘客 spout--->始发站 bolt---> ...
Storm基础知识
上一篇文章我们介绍一个简单的Storm起源,今天我去学习Storm一些主要的知识,他的基本使用基本的了解.幸运的是,,不是太困难,假设我们理解Hadoop的MapReduce模型的话.看这个也是很类似 ...
hadoop、Storm该选哪一个
如果hadoop.Storm还感觉混要,那么此篇文章将帮助你把他们完全区分可以带着下面问题来阅读本文章: 1.hadoop.Storm各是什么运算 2.Storm为什么被称之为流式计算系统 3.ha ...
学hadoop需要什么基础
最近一段时间一直在接触关于hadoop方面的内容,从刚接触时的一片空白,到现在也能够说清楚一些问题.这中间到底经历过什么只怕也就是只有经过的人才会体会到吧.前几天看到有个人问“学hadoop需要什么基 ...
分布式处理与大数据平台(RabbitMQ&Celery&Hadoop&Spark&Storm&Elasticsearch)
热门的消息队列中间件RabbitMQ,分布式任务处理平台Celery,大数据分布式处理的三大重量级武器:Hadoop.Spark.Storm,以及新一代的数据采集和分析引擎Elasticsearch. ...

随机推荐

C/C++里的const（2）
对于如下几个语句,哪些定义相同?哪些定义不同?哪些数据可修改?哪些数据不可修改呢? const int a; int const a; const int *a; int *const a; int ...
使用echarts展示线状图信息的时候数据部分数据因为x轴的数据显示不全而隐藏的问题
在使用echarts来展示数据时,因为数据很多的原因导致x轴显示不全,然后有些数据也隐藏在图表中,所以这个时候我们要在 series 中设置一个属性,让所有的数据都能够展示出来,这里我们需要添加的属性 ...
Selenium2+python自动化69-PhantomJS使用【转载】
前言 PhantomJS是一个没有界面的浏览器,本质上是它其实也就是一个浏览器,只是不在界面上展示. PhantomJS非常适合爬虫方面,很多玩爬虫的都喜欢用这个浏览器. 一.PhantomJS环境准 ...
jQuery验证控件jquery.validate.js使用说明+中文API(转)
一导入js库<script src="../js/jquery.js" type="text/javascript"></script> ...
【转】巧用局部变量提升javascript性能
转自:http://www.jb51.net/article/47219.htm 巧用局部变量可以有效提升javascript性能,下面有个不错的示例,大家可以参考下 javascript中一 ...
frameset框架集
frame使用注意事项: 1.frame不能脱离frameset单独使用 2.frame不能放在body标签中,不然不起效果. 3.frame的高度只能由frameset来决定. frameset:是 ...
浙江省第十二届省赛 Beauty of Array（思维题）
Description Edward has an array A with N integers. He defines the beauty of an array as the summatio ...
SPOJ IITWPC4F - Gopu and the Grid Problem （双线段树区间修改区间查询）
Gopu and the Grid Problem Gopu is interested in the integer co-ordinates of the X-Y plane (0<=x,y ...
复制对象 copy 与mutable copy
转载 : http://blog.csdn.net/u010962810/article/details/18887841 通过copy方法可以创建可变对象或不可变对象的不可变副本,对于不可 ...
[Atcoder Grand Contest 003] Tutorial
Link: AGC003 传送门 A: 判断如果一个方向有,其相反方向有没有即可 #include <bits/stdc++.h> using namespace std; ]; map& ...

Hadoop之Storm基础

Hadoop之Storm基础的更多相关文章

随机推荐

热门专题