Storm - 大数据Big Data实时处理架构

什么是Storm？

Storm是：
• 快速且可扩展伸缩
• 容错
• 确保消息能够被处理
• 易于设置和操作
• 开源的分布式实时计算系统
- 最初由Nathan Marz开发
- 使用Java 和 Clojure 编写

Storm和Hadoop主要区别是实时和批处理的区别：

Storm概念组成：Spout 和Bolt组成Topology。

Tuple是Storm的数据模型，如['jdon',12346]

多个Tuple组成事件流：

Spout是读取需要分析处理的数据源，然后转为Tuples，这些数据源可以是Web日志、 API调用、数据库等等。Spout相当于事件流的生产者。

Bolt 处理Tuples然后再创建新的Tuples流，Bolt相当于事件流的消费者。

Bolt 作为真正业务处理者，主要实现大数据处理的核心功能，比如转换数据，应用相应过滤器，计算和聚合数据(比如统计总和等等) 。

以Twitter的某个Tweet为案例，看看Storm如何处理：

这些tweett贴内容是：“No Small Cell Lung #Cancer(没有小细胞肺癌＃癌症)” "An #OnCology Consult...."

这些贴被Spout读取以后，产生Tuple，字段名是tweet，内容是"No Small Cell Lung #Cancer"，格式类似：['No Small Cell Lung #Cancer',133221]。

然后进入被流消费者Bolt进行处理，第一个Bolt是SplitSentence，将tuple内容进行分离，结果成为：一个个单词："No" "Small" "Cell" "Lung" "#Cancer" ；然后经过第二个Bolt进行过滤HashTagFilter处理，Hash标签是单词中用#标注的，也就是Cancer；再经过HasTagCount计数，可以本地内存缓存这个计数结果，最后通过PrinterBolt打印出标签单词统计结果。

我们使用Stom所要做的就是编制Spout和Bolt代码：

public class RandomSentenceSpout extends BaseRichSpout {
　　SpoutOutputCollector collector;
　　Random random;

　　//读入外部数据
　　public void open(Map conf, TopologyContext context, SpoutOutputCollector collector) {
　　　　this.collector = collector;
　　　　random = new Random();
　　}
　　//产生Tuple
　　 public void nextTuple() {
　　　　String[] sentences = new String[] {
　　　　　　"No Small Cell Lung #Cancer",
　　　　　　"An #OnCology Consultant apple a day keeps the doctor away",
　　　　　　"four score and seven years ago",
　　　　　　"snow white and the seven dwarfs",
　　　　　　"i am at two with nature"
　　　　};
　　　　String tweet = sentences[random.nextInt(sentences.length)];
　　　　//定义字段名"tweet" 的值
　　　　collector.emit(new Values(tweet));

　　}

　　// 定义字段名"tweet"

　　public void declareOutputFields(OutputFieldsDeclarer declarer) {
　　　　declarer.declare(new Fields("tweet"));
　　}
　　@Override
　　public void ack(Object msgId) {}
　　@Override
　　public void fail(Object msgId) {}
}

下面是Bolt的代码编写：

public class SplitSentenceBolt extends BaseRichBolt {
　　OutputCollector collector;

　　@Override
　　public void prepare(Map stormConf, TopologyContext context, OutputCollector collector) {
　　　　this.collector = collector;
　　}
　　@Override 消费者激活主要方法：分离成单个单词
　　public void execute(Tuple input) {
　　　　for (String s : input.getString(0).split("\\s")) {
　　　　　　collector.emit(new Values(s));
　　　　}
　　}
　　@Override 定义新的字段名
　　public void declareOutputFields(OutputFieldsDeclarer declarer) {
　　　　declarer.declare(new Fields("word"));
　　}

最后是装配运行Spout和Bolt的客户端调用代码：

public class WordCountTopology {
　　public static void main(String[] args) throws Exception {
　　　　TopologyBuilder builder = new TopologyBuilder();
　　　　builder.setSpout("tweet", new RandomSentenceSpout(), 2);
　　　　builder.setBolt("split", new SplitSentenceBolt(), 4)
　　　　　　.shuffleGrouping("tweet")
　　　　　　.setNumTasks(8);
　　　　builder.setBolt("count", new WordCountBolt(), 6)
　　　　　　.fieldsGrouping("split", new Fields("word"));
　　　　..设置多个Bolt

　　　　Config config = new Config();
　　　　config.setNumWorkers(4);
　　　　
　　　　StormSubmitter.submitTopology("wordcount", config, builder.createTopology());

// Local testing
//LocalCluster cluster = new LocalCluster();
// cluster.submitTopology("wordcount", config, builder.createTopology());
//Thread.sleep(10000);
//cluster.shutdown();
}
}

在这个代码中定义了一些参数比如Works的数目是4，其含义在后面详细分析。

下面我们要将上面这段代码发布部署到Storm中，首先了解Storm物理架构图：

Nimbus是一个主后台处理器，主要负责：
1.发布分发代码
2.分配任务
3.监控失败。

Supervisor是负责当前这个节点的后台工作处理器的监听。

Work类似Java的线程，采取JDK的Executor 。

下面开始将我们的代码部署到这个网络拓扑中：

将代码Jar包上传到Nimbus的inbox，包括所有的依赖包，然后提交。

Nimbus将保存在本地文件系统，然后开始配置网络拓扑，分配开始拓扑。

见下图：

Nimbus服务器将拓扑Jar 配置和结构下载到 Supervisor，负载平衡ZooKeeper分配某个特定的Supervisor服务器，而Supervisor开始基于配置分配Work，Work调用JDK的Executor启动线程，开始任务处理。

下面是我们代码对拓扑分配的参数示意图：

Executor启动的线程数目是12个，组件的实例是16个，那么如何在实际服务器中分配呢？如下图：

图中RsSpout代表我们的代码中RandomSentenceSpout；SplitSentenceBolt简写为SSbolt；

http://www.jdon.com/bigdata/storm.html

Storm和Hadoop 区别的更多相关文章

Storm与Hadoop的角色和组件比较
Storm与Hadoop的角色和组件比较 Storm 集群和 Hadoop 集群表面上看很类似.但是 Hadoop 上运行的是 MapReduce 作业,而在 Storm 上运行的是拓扑 Topolo ...
Storm概念学习系列之Storm与Hadoop的角色和组件比较
不多说,直接上干货! Storm与Hadoop的角色和组件比较 Storm 集群和 Hadoop 集群表面上看很类似.但是 Hadoop 上运行的是 MapReduce 作业,而在 Storm 上运行 ...
Storm与Spark区别
Storm擅长于动态处理大量实时生产的小数据块,概念上是将小数据量的数据源源不断传给过程: Spark擅长对现有的数据全集做处理,概念是将过程传给大数据量的数据. 二者设计思路相反.Storm侧重于处 ...
spark、storm与Hadoop
1. Storm是什么,怎么做,如何做的更好?Storm是一个开源的分布式实时计算系统,它可以简单.可靠地处理大量的数据流.Storm有很多应用场景,如实时分析.在线机器学习.持续计算.分布式RPC. ...
storm与hadoop的对照
hadoop 是实现了 mapreduce 的思想,将数据切片计算来处理大量的离线数据. hadoop处理的数据必须是已经存放在 hdfs 上或者类似 hbase 的数据库中.所以 hadoop ...
spark与Hadoop区别
2分钟读懂Hadoop和Spark的异同 2016.01.25 11:15:59 来源:51cto作者:51cto ( 0 条评论 ) 谈到大数据,相信大家对Hadoop和Apache Spark ...
（第8篇）实时可靠的开源分布式实时计算系统——Storm
摘要: 在Hadoop生态圈中,针对大数据进行批量计算时,通常需要一个或者多个MapReduce作业来完成,但这种批量计算方式是满足不了对实时性要求高的场景.那Storm是怎么做到的呢? 博主福利给 ...
hadoop、storm和spark的区别、比较
一.hadoop.Storm该选哪一个? 为了区别hadoop和Storm,该部分将回答如下问题:1.hadoop.Storm各是什么运算2.Storm为什么被称之为流式计算系统3.hadoop适合什 ...
hadoop/storm以及hive/hbase/pig区别整理
STORM与HADOOP的比较对于一堆时刻在增长的数据,如果要统计,可以采取什么方法呢? 等数据增长到一定程度的时候,跑一个统计程序进行统计.适用于实时性要求不高的场景.如将数据导到HDFS,再运行 ...

随机推荐

Flutter——BottomNavigationBar组件（底部导航栏组件）
BottomNavigationBar常用的属性: 属性名说明 items List<BottomNavigationBarItem> 底部导航条按钮集合 iconSize icon c ...
Java字节码方法表与属性表深度剖析
方法表: 在上一次咱们已经分析到了字段信息了,如下: 紧接着就是方法相关的信息了: 而它展开之后的结构为: 所以往后数2个字节,看一下方法的总数: 3个方法,可咱们只定义了两个方法呀: 因为编译器会为 ...
BCB 编写服务程序的一个注意事项
BCB编写服务,install报错的一个问题今天编写了一个服务,最后INSTALL 的时候报错,如图: 经过近1小时的比较(俺过去写例子),居然无意中设置了一个属性 ...
基于 es6 的 javascript 实用方法
一.求数字数组的平均数 - 使用数组的 reduce() 方法将每个值添加到累加器,初始值为0,总和除以数组长度. const average = arr => arr.reduce((acc ...
分享一波目前写的最强的autohotkey 插件
支持各种软件快速切换,补全括号,代码等!!!!!!!! ;这种全局定义要写在所有代码的前面才能让所有代码起作用. SetCapsLockState , AlwaysOff SetNumlockStat ...
部署logstash节点
.部署Logstash节点 1.查看系统环境: [root@Logstash ~]# hostname Logstash [root@Logstash ~]# cat /etc/redhat-rele ...
Cookie操作、ASP.Net文件上传HttpPostedFile
概述 Cookie用来保存客户浏览器请求服务器页面的请求信息. 我们可以存放非敏感的用户信息,保存时间可以根据需要设置.如果没有设置Cookie失效日期,它的生命周期保存到关闭浏览器为止,Cookie ...
洛谷P1144 最短路计数【堆优化dijkstra】
题目:https://www.luogu.org/problemnew/show/P1144 题意:问1到各个节点的最短路有多少条. 思路:如果松弛的时候发现是相等的,说明可以经过该点的最短路径到达当 ...
【转】解决 canvas 在高清屏中绘制模糊的问题
来源: http://www.css88.com/archives/9297 使用 canvas 绘制图片或者是文字在 Retina 屏中会非常模糊.如图: 因为 canvas 不是矢量图,而是像图片 ...
Python 8--异常

Storm和Hadoop 区别

Storm - 大数据Big Data实时处理架构

什么是Storm？

Storm和Hadoop 区别的更多相关文章

随机推荐

热门专题