Storm知识点

1. 离线计算是什么？

离线计算：批量获取数据、批量传输数据、周期性批量计算数据、数据展示

代表技术：Sqoop批量导入数据、HDFS批量存储数据、MapReduce批量计算数据、Hive批量计算数据、Azkaban任务调度。

2. 流式计算是什么？

流式计算：数据实时产生、数据实时传输、数据实时计算、实时展示

代表技术：Flume实时获取数据、Kafka/metaq实时数据存储、Storm/JStorm实时数据计算、Redis实时结果缓存、持久化存储(mysql)。

3. storm核心组件和架构？

核心组件

DataSource：外部数据源；

Spout：接受外部数据源的组件，以Tuple为基本单元发给Bolt；

Bolt：根据业务逻辑进行处理，发送给下一个Bolt或者是存储到某种介质上，比如Kafka、Redis或者Mysql；

Tuple：数据传输的基本单元，里面封装了一个List对象来保存数据；

架构

Nimbus：任务分配

Supervisor：接受任务，并启动worker。worker的数量根据端口号来的；

Worker：执行任务的具体组件（就是一个JVM）,可以执行Spout任务或者bolt任务，一个topology要求的worker数量如果不被满足，在任务分配时根据现有的worker先运行topology，如果当前集群中worker数量为0，那么最新提交的topology将只会被标识active，不会运行，只有当集群有了空闲资源之后，才会被运行；

Task：默认Task=线程=executor。一个Task属于一个Spout或者Bolt并发任务；

Zookeeper：保存任务分配的信息、心跳信息、元数据信息。

4. 并发度

用户指定的一个任务，可以被多个线程执行，并发度的数量等于线程的数量。一个任务的多个线程，会被运行在多个Worker（JVM）上。

5. Storm运行模式

本地模式：在当前IDE运行；

集群模式：在集群上运行。

6. Storm常见的分组策略

共有7种，这里记录常见的几种：

shuffleGrouping-随机分组：Random函数；

Non Grouping-不分组：Random函数；

FieldGrouping-字段分组：Hash取模，保证同一类型数据数据流向同一个worker上的task；

Local or ShuffleGrouping-本地随机分组：本地或随机，优先本地。

7. Storm操作命令

任务提交命令：storm jar 【jar路径】【拓扑包名.拓扑类名】【拓扑名称】

 storm jar /export/servers/storm/examples/storm-starter/storm-starter-topologies-1.0.3.jar org.apache.storm.starter.WordCountTopology  wordcount

与hadoop不同的是：不需要指定输入输出路径，因为在代码中已经记录了

 hadoop jar /usr/local/wordcount.jar /data.txt /wcout

杀死任务命令：storm kill 【拓扑名称】 -w 10（执行kill命令时可以通过-w [等待秒数]指定拓扑停用以后的等待时间）

 storm kill topology-name -w 10

停用任务命令：storm deactive 【拓扑名称】

 storm deactive topology-name

我们能够挂起或停用运行中的拓扑。当停用拓扑时，所有已分发的元组都会得到处理，但是spouts的nextTuple方法不会被调用。销毁一个拓扑，可以使用kill命令。它会以一种安全的方式销毁一个拓扑，首先停用拓扑，在等待拓扑消息的时间段内允许拓扑完成当前的数据流。

启用任务命令：storm activate 【拓扑名称】

 storm activate topology-name

重新部署任务命令：storm rebalance 【拓扑名称】

 storm rebalance topology-name

再平衡使你重分配集群任务。这是个很强大的命令。比如，你向一个运行中的集群增加了节点。再平衡命令将会停用拓扑，然后在相应超时时间之后重分配worker，并重启拓扑。

8. Storm Ack机制

为了保证数据能正确的被处理, 对spout产生的每一个tuple, storm都会进行跟踪。即ACK机制，storm启动acker task参与工作流程：

Spout创建一个新的Tuple时，会发一个消息通知acker去跟踪；

Bolt在处理Tuple成功或失败后，也会发一个消息通知acker；

acker会找到发射该Tuple的Spout，回调其ack或fail方法。

Storm的Bolt有BaseBasicBolt和BaseRichBolt，可以在这两种bolt中实现可靠消息传递：

在BaseBasicBolt中，BasicOutputCollector在emit数据的时候，会自动和输入的tuple相关联，而在execute方法结束的时候那个输入tuple会被自动ack。

 //BaseBasicBolt 实现可靠消息传递

 public class SplitSentence extends BaseBasicBolt {//自动建立 anchor，自动 ack

 　　public void execute(Tuple tuple, BasicOutputCollector collector) {

 　　　　String sentence = tuple.getString(0);

 　　　　for(String word: sentence.split(" ")) {

 　　　　　　collector.emit(new Values(word));

 　　　　}

 　　}

 　　public void declareOutputFields(OutputFieldsDeclarer declarer) {

 　　　　declarer.declare(new Fields("word"));

 　　}

 }

在使用BaseRichBolt需要在emit数据的时候，显示指定该数据的源tuple要加上参数anchor tuple，以保持tracker链路，即collector.emit(oldTuple, newTuple);并且需要在execute执行成功后调用OutputCollector.ack(tuple), 当失败处理时，执行OutputCollector.fail(tuple);

 //BaseRichBolt 实现可靠消息传递

 public class SplitSentence extends BaseRichBolt {//建立 anchor 树以及手动 ack 的例子

     OutputCollector _collector;

     public void prepare(Map conf, TopologyContext context, OutputCollector collector) {

         _collector = collector;

     }

     public void execute(Tuple tuple) {

         String sentence = tuple.getString(0);

         for(String word: sentence.split(" ")) {

             _collector.emit(tuple, new Values(word)); // 建立 anchor 树

         }

         _collector.ack(tuple); //手动 ack，如果想让 Spout 重发该 Tuple，则调用 _collector.fail(tuple);

     }

     public void declareOutputFields(OutputFieldsDeclarer declarer) {

         declarer.declare(new Fields("word"));

     }

 }

9. 调整可靠性

有时候需要调整Storm的可靠性。例如，不关心数据是否丢失，或者想看看后面是否有某个Bolt拖慢Spout速度。有三种方法可以实现：

在build topology时，设置acker数目为0，即conf.setNumAckers(0);

在Spout中，不指定messageId，使得Storm无法追踪；

在Bolt中，使用Unanchor方式发射新的Tuple。

10. Jstorm查看CPU核数

可以用cpu.used / 100向上取整大致估计

11. Jstorm消费kakfa单条数据太大起Lag

可以设置kafka spout参数：

Kafka spoutConfig.fetchSizeBytes = ;

Kafka spoutConfig.bufferSizeBytes = ;

Storm知识点的更多相关文章

Storm知识点笔记
Spark和Storm Spark基于MapReduce算法实现的分布式计算,不同于MapReduce的是,作业中间结果可以保存在内存中,而不要再读写HDFS, Spark适用于数据挖掘和机器学习等需 ...
[大数据面试题]storm核心知识点
1.storm基本架构 storm的主从分别为Nimbus.Supervisor,工作进程为Worker. 2.计算模型 Storm的计算模型分为Spout和Bolt,Spout作为管口.Bolt作为 ...
初版storm项目全流程自动化测试代码实现
由于项目需要,写了版针对业务的自动化测试代码,主要应用场景在于由于业务日趋复杂,一些公共代码的改动,担心会影响已有业务.还没进行重写,但知识点还是不少的与大家分享实践下.首先,介绍下整个流处理的业务流 ...
升级版:深入浅出Hadoop实战开发(云存储、MapReduce、HBase实战微博、Hive应用、Storm应用)
Hadoop是一个分布式系统基础架构,由Apache基金会开发.用户可以在不了解分布式底层细节的情况下,开发分布式程序.充分利用集群的威力高速运算和存储.Hadoop实现了一个分布式文件系 ...
亿级流量场景下，大型架构设计实现【2】---storm篇
承接之前的博:亿级流量场景下,大型缓存架构设计实现续写本博客: ****************** start: 接下来,我们是要讲解商品详情页缓存架构,缓存预热和解决方案,缓存预热可能导致整个系 ...
Hadoop storm大数据分析知识体系结构
最近工作工作有用到hadoop 和storm,最近看到一个网站上例句的hadoop 和storm的知识体系.所以列出来供大家了解和学习.来自哪个网站就不写了以免以为我做广告额. 目录结构知识点还是挺全 ...
Storm系列二： Storm拓扑设计
Storm系列二: Storm拓扑设计在本篇中,我们就来根据一个案例,看看如何去设计一个拓扑, 如何分解问题以适应Storm架构,同时对Storm拓扑内部的并行机制会有一个基本的了解. 本章代码都在 ...
mysql常见知识点总结
mysql常见知识点总结参考: http://www.cnblogs.com/hongfei/archive/2012/10/20/2732516.html https://www.cnblogs. ...
牛客网Java刷题知识点之Java 集合框架的构成、集合框架中的迭代器Iterator、集合框架中的集合接口Collection（List和Set）、集合框架中的Map集合
不多说,直接上干货! 集合框架中包含了大量集合接口.这些接口的实现类和操作它们的算法. 集合容器因为内部的数据结构不同,有多种具体容器. 不断的向上抽取,就形成了集合框架. Map是一次添加一对元素. ...

随机推荐

GitHub for Windows离线安装包
国内安装github客户端,真的很痛!! 偶然找到了离线安装包,感谢作者的资源分享!!! 地址:http://download.csdn.net/download/lyg468088/8723039? ...
二路归并算法的java实现
“归并”的含义是将两个或者两个以上的有序表组合成一个新的有序表. 假设待排序表含有n个元素,则可以看成是n个有序的子表,每个子表的长度为1,然后两两归并,得到(n/2)或者(n/2+1)个长度为2或1 ...
Android为TV端助力 Intent匹配action,category和data原则
1.当你在androidmanifest里面定义了一个或多个action时你使用隐式意图其他activity或者service时,规定你隐式里面的action必须匹配XML中定义的action,可以 ...
Android开发学习之RecyclerView
1.在app/build.gradle中添加RecyclerView依赖 implementation 'com.android.support:recyclerview-v7:28.0.0' 注意依 ...
git 入门教程之版本控制
版本控制我们知道 git 是分布式版本控制系统,所以称被控制对象是版本本身没错,但是从git 命令中发现,并没有版本这个名词,有的只是commit,所以前几节我一直称其为提交. 为了避免后续教程引发 ...
MySQL优化技巧【持续更新】
前言应用程序或web网页有时慢的像蜗牛爬似的,可能是网络原因,可能是系统架构原因,还有可能是数据库原因.那么如何提高数据库SQL语句执行速度呢?下面是积累的一些优化技巧,望对君有用. 正文 1.比较 ...
SQL Server OPTION (OPTIMIZE FOR UNKNOWN) 测试总结
关于SQL Server的查询提示OPTION (OPTIMIZE FOR UNKNOWN) ,它是解决参数嗅探的方法之一. 而且对应的SQL语句会缓存,不用每次都重编译.关键在于它的执行计划的准 ...
图文并茂 RAID 技术全解 – RAID0、RAID1、RAID5、RAID10
RAID 技术相信大家都有接触过,尤其是服务器运维人员,RAID 概念很多,有时候会概念混淆.这篇文章为网络转载,写得相当不错,它对 RAID 技术的概念特征.基本原理.关键技术.各种等级和发展现状进 ...
在CentOS上配置SAMBA共享目录(转载)
在CentOS上配置SAMBA共享目录 From: https://blog.csdn.net/qiumei1101381170/article/details/53265341 2016年11月21 ...
AspNet MVC中使用Hangfire执行定时任务
Hangfire在Aspnet中执行定时任务: 第一步: NuGet中加入Hangfire包第二步: 添加Owin的自启动第三步.Hangfire的后台控制仪表盘默认情况下只能本地访问,外网访问需 ...