前言：阅读笔记

storm和hadoop集群非常像。hadoop执行mr。storm执行topologies。

mr和topologies最关键的不同点是：mr执行终于会结束，而topologies永远执行直到你kill。

storm集群有两种节点：master和worker。

master执行一个后台进程Nimbus，和hadoop的jobtracker相似。

Nimbus负责在集群中分发代码。为工作节点分配任务，并监控故障。

worker执行一个后台进程Supervisor。

supervisor监听分配来的任务，启动和停止worker进程去处理nimbus分配来的任务。

每一个worker进程执行拓扑的一个子集；一个执行的拓扑结构由非常多分布在不同机器的worker进程构成。

全部nimbus和supervisor之间的协调工作是有zk集群来做的。

此外。nimbus和supervisor是fail-fast和stateless；全部状态保存在zk或者本地磁盘。

守护进程能够是无状态的并且失效或重新启动时不会影响整个系统的健康。

执行storm

storm jar all-my-code.jar backtype.storm.MyTopology arg1 arg2

storm jar负责连接nimbus而且上传jar。

原始主要的storm提供了spouts和bolts做流转换。

spouts和bolts是执行应用逻辑要实现的接口。

spout是流的源。读进数据并以流的形式发送出去；

bolt消费输入的流，处理或者以新的流发送出去。

watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvc2ltb25jaGk=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center" alt="">

Storm会自己主动又一次分配失败的任务，而且storm保证不会有数据丢失。即使机器宕机

watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvc2ltb25jaGk=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center" alt="">

下载安装

http://storm.apache.org/downloads.html

1、依赖安装

yum install uuid -y

yum install e2fsprogs -y

yum install libuuid*

yum install libtool -y

yum install *c++* -y

yum install git -y

2、zk集群

http://blog.csdn.net/simonchi/article/details/43019401

3、zeromq&jzmq

tar -xzvf zeromq-4.0.5.tar.gz

./autogen.sh

./configure && make && make install

jzmq

git clone git://github.com/nathanmarz/jzmq.git

./autogen.sh

./configure && make && make install

4、python

./configure

make

make install

rm -f /usr/bin/python

ln /usr/local/bin/python3.4 /usr/bin/python

python -V

vi /usr/bin/yum

#!/usr/bin/python 改为 #!/usr/bin/python2.4

配置执行

storm.yaml

storm.zookeeper.servers:

- 192.168.11.176

- 192.168.11.177

- 192.168.11.178

storm.zookeeper.port: 2181

nimbus.host: "192.168.11.176"

storm.local.dir: "/home/storm/workdir"

supervisor.slots.ports:

- 6700

- 6701

- 6702

- 6703

1、Nimbus: 在Storm主控节点上执行"bin/storm nimbus >/dev/null 2>&1 &"启动Nimbus后台程序，并放到后台执行。

2、Supervisor: 在Storm各个工作节点上执行"bin/storm supervisor >/dev/null 2>&1 &"启动Supervisor后台程序，并放到后台执行；

3、UI: 在Storm主控节点上执行"bin/storm ui >/dev/null 2>&1 &"启动UI后台程序。并放到后台执行，启动后能够通过http://{nimbus host}:8080观察集群的worker资源使用情况、Topologies的执行状态等信息。

watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvc2ltb25jaGk=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center" alt="">

单词计数程序

Spout

package com.cmcc.chiwei.storm;

import java.io.BufferedReader;

import java.io.FileNotFoundException;

import java.io.FileReader;

import java.util.Map;

import backtype.storm.spout.SpoutOutputCollector;

import backtype.storm.task.TopologyContext;

import backtype.storm.topology.OutputFieldsDeclarer;

import backtype.storm.topology.base.BaseRichSpout;

import backtype.storm.tuple.Fields;

import backtype.storm.tuple.Values;

public class WordReader extends BaseRichSpout {

	private static final long serialVersionUID = 1L;

	private SpoutOutputCollector collector;

	private FileReader fileReader;

	private boolean completed = false;

	public boolean isDistributed() {

		return false;

	}

	public void ack(Object msgId) {

		System.out.println("OK:"+msgId);

	}

	public void close() {}

	public void fail(Object msgId) {

		System.out.println("FAIL:"+msgId);

	}

	/**

	 * The only thing that the methods will do It is emit each

	 * file line

	 */

	public void nextTuple() {

		if(completed){

			try {

				Thread.sleep(1000);

			} catch (InterruptedException e) {

				//Do nothing

			}

			return;

		}

		String str;

		//Open the reader

		BufferedReader reader = new BufferedReader(fileReader);

		try{

			//Read all lines

			while((str = reader.readLine()) != null){

				/**

				 * By each line emmit a new value with the line as a their

				 */

				this.collector.emit(new Values(str),str);

			}

		}catch(Exception e){

			throw new RuntimeException("Error reading tuple",e);

		}finally{

			completed = true;

		}

	}

	/**

	 * We will create the file and get the collector object

	 */

	public void open(Map conf, TopologyContext context,

			SpoutOutputCollector collector) {

		try {

			this.fileReader = new FileReader(conf.get("wordsFile").toString());

		} catch (FileNotFoundException e) {

			throw new RuntimeException("Error reading file ["+conf.get("wordFile")+"]");

		}

		this.collector = collector;

	}

	/**

	 * Declare the output field "word"

	 */

	public void declareOutputFields(OutputFieldsDeclarer declarer) {

		declarer.declare(new Fields("line"));

	}

}

Bolt1

package com.cmcc.chiwei.storm;

import backtype.storm.topology.BasicOutputCollector;

import backtype.storm.topology.OutputFieldsDeclarer;

import backtype.storm.topology.base.BaseBasicBolt;

import backtype.storm.tuple.Fields;

import backtype.storm.tuple.Tuple;

import backtype.storm.tuple.Values;

public class WordNormalizer extends BaseBasicBolt {

	private static final long serialVersionUID = 1L;

	public void cleanup() {}

	/**

	 * The bolt will receive the line from the

	 * words file and process it to Normalize this line

	 *

	 * The normalize will be put the words in lower case

	 * and split the line to get all words in this

	 */

	public void execute(Tuple input, BasicOutputCollector collector) {

        String sentence = input.getString(0);

        String[] words = sentence.split(" ");

        for(String word : words){

            word = word.trim();

            if(!word.isEmpty()){

                word = word.toLowerCase();

                collector.emit(new Values(word));

            }

        }

	}

	/**

	 * The bolt will only emit the field "word"

	 */

	public void declareOutputFields(OutputFieldsDeclarer declarer) {

		declarer.declare(new Fields("word"));

	}

}

Bolt2

package com.cmcc.chiwei.storm;

import java.util.HashMap;

import java.util.Map;

import backtype.storm.task.TopologyContext;

import backtype.storm.topology.BasicOutputCollector;

import backtype.storm.topology.OutputFieldsDeclarer;

import backtype.storm.topology.base.BaseBasicBolt;

import backtype.storm.tuple.Tuple;

public class WordCounter extends BaseBasicBolt {

	private static final long serialVersionUID = 1L;

	Integer id;

	String name;

	Map<String, Integer> counters;

	/**

	 * At the end of the spout (when the cluster is shutdown

	 * We will show the word counters

	 */

	@Override

	public void cleanup() {

		System.out.println("-- Word Counter ["+name+"-"+id+"] --");

		for(Map.Entry<String, Integer> entry : counters.entrySet()){

			System.out.println(entry.getKey()+": "+entry.getValue());

		}

	}

	/**

	 * On create

	 */

	@Override

	public void prepare(Map stormConf, TopologyContext context) {

		this.counters = new HashMap<String, Integer>();

		this.name = context.getThisComponentId();

		this.id = context.getThisTaskId();

	}

	public void declareOutputFields(OutputFieldsDeclarer declarer) {}

	public void execute(Tuple input, BasicOutputCollector collector) {

		String str = input.getString(0);

		if(!counters.containsKey(str)){

			counters.put(str, 1);

		}else{

			Integer c = counters.get(str) + 1;

			counters.put(str, c);

		}

	}

}

Topology

package com.cmcc.chiwei.storm;

import backtype.storm.Config;

import backtype.storm.LocalCluster;

import backtype.storm.topology.TopologyBuilder;

import backtype.storm.tuple.Fields;

public class TopologyMain {

	public static void main(String[] args) throws InterruptedException {

        //Topology创建拓扑，安排storm各个节点以及它们交换数据的方式

		TopologyBuilder builder = new TopologyBuilder();

		builder.setSpout("word-reader",new WordReader());

		builder.setBolt("word-normalizer", new WordNormalizer())

			.shuffleGrouping("word-reader");

		builder.setBolt("word-counter", new WordCounter(),1)

			.fieldsGrouping("word-normalizer", new Fields("word"));

        //Configuration

		Config conf = new Config();

		conf.put("wordsFile", args[0]);

		conf.setDebug(false);

        //Topology run

		conf.put(Config.TOPOLOGY_MAX_SPOUT_PENDING, 1);

		LocalCluster cluster = new LocalCluster();

		cluster.submitTopology("Getting-Started-Topology", conf, builder.createTopology());

		Thread.sleep(2000);

		cluster.shutdown();

	}

}

words.txt

hello

world

storm flume hadoop hdfs

what's wrong flume ?

what's up hdfs ?

Hi,storm,what are you doing ?

执行结果

OK:hello

OK:world

OK:storm flume hadoop hdfs

OK:what's wrong flume ?

OK:what's up hdfs ?

OK:Hi,storm,what are you doing ?

-- Word Counter [word-counter-2] --

what's: 2

flume: 2

hdfs: 2

you: 1

storm: 1

up: 1

hello: 1

hadoop: 1

hi,storm,what: 1

are: 1

doing: 1

wrong: 1

?

: 3

world: 1

分析内容：

spout

读取原始数据，为bolt提供数据。

bolt

从spout或其他bolt接收数据并处理。处理结果可作为其他bolt的数据源或终于结果。

nimbus

主节点的守护进程。负责为工作节点分发任务。

topology

拓扑结构。storm的一个任务单元。

define fields定义域，由spout和bolt提供。被bolt接收。

一个storm集群就是在一连串的bolt之间转换spout传过来的数据。

如：

spout读到一行文本，文本行传给一个bolt。按单词分割后传给还有一个bolt，第二个bolt做计数累加。

Spout

open --> nextTuple

Bolt1

declareOutputFields --> execute

Bolt2

prepare --> execute --> cleanup

更具体的内容，将在兴许慢慢解说，我也在研究中。

。。

望各位不吝不吝赐教！。

【Storm】storm安装、配置、使用以及Storm单词计数程序的实例分析的更多相关文章

Hadoop分布环境搭建步骤,及自带MapReduce单词计数程序实现
Hadoop分布环境搭建步骤: 1.软硬件环境 CentOS 7.2 64 位 JDK- 1.8 Hadoo p- 2.7.4 2.安装SSH sudo yum install openssh-cli ...
第一章 flex单词计数程序
学习Flex&Bison目标, 读懂SQLite中SQL解析部分代码 Flex&Bison简介Flex做词法分析Bison做语法分析第一个Flex程序, wc.fl, 单词计数程序 ...
ubuntu14.04LTS 下storm单机版安装配置
1．下载storm 的安装文件 http://www.apache.org/dyn/closer.cgi/incubator/storm/apache-storm-0.9.2-incubating/a ...
storm的安装配置
一.安装Zookeeper 1.设置.profile文件: export ZOOKEEPER_HOME=/home/hadoop/streamdata/zookeeper-3.4.5-cdh4.5.0 ...
三：Storm设计一个Topology用来统计单词的TopN的实例
Storm的单词统计设计一:Storm的wordCount和Hadoop的wordCount实例对比
storm单机版安装配置
1,install zeromq 期间可能出现:configure: error: cannot link with -luuid, install uuid-dev. 因此可以先安装 sudo ap ...
asp.Net Core免费开源分布式异常日志收集框架Exceptionless安装配置以及简单使用图文教程
最近在学习张善友老师的NanoFabric 框架的时了解到Exceptionless : https://exceptionless.com/ !因此学习了一下这个开源框架!下面对Exceptionl ...
C#实现多级子目录Zip压缩解压实例 NET4.6下的UTC时间转换 [译]ASP.NET Core Web API 中使用Oracle数据库和Dapper看这篇就够了 asp.Net Core免费开源分布式异常日志收集框架Exceptionless安装配置以及简单使用图文教程 asp.net core异步进行新增操作并且需要判断某些字段是否重复的三种解决方案 .NET Core开发日志
C#实现多级子目录Zip压缩解压实例参考 https://blog.csdn.net/lki_suidongdong/article/details/20942977 重点: 实现多级子目录的压缩, ...
【转】asp.Net Core免费开源分布式异常日志收集框架Exceptionless安装配置以及简单使用图文教程
最近在学习张善友老师的NanoFabric 框架的时了解到Exceptionless : https://exceptionless.com/ !因此学习了一下这个开源框架!下面对Exceptionl ...

随机推荐

CSS--浏览器CSS Hack 收集
所谓的Hack就是只有特定浏览器才能识别这段hack代码.Hack 不是什么好东西,除非没有办法,我们尽量还是不要用着玩意. 下面是各个浏览器的CSS Hack 列表. Firefox 浏览器 @-m ...
linux下sh语法（转载）
介绍: 1 开头程序必须以下面的行开始(必须方在文件的第一行): #!/bin/sh 符号#!用来告诉系统它后面的参数是用来执行该文件的程序. 在这个例子中我们使用/bin/sh来执行程序. 当编写 ...
Docker 探索安装WordPress+Mysql8.0
拉取MYSQL,注意默认是8.0版本,连接加密方式有变化 docker pull mysql 运行MYSQL docker run --name wordpress-mysql -p 3306:330 ...
IDA逆向常用宏定义
/* This file contains definitions used by the Hex-Rays decompiler output. It has type definitions an ...
【寒假集训系列DAY.1】
Problem A. String Master(master.c/cpp/pas) 题目描述所谓最长公共子串,比如串 A:“abcde”,串 B:“jcdkl”,则它们的最长公共子串为串 “cd” ...
Oracle 生成数据字典
SELECT ROWNUM 序号,A.COLUMN_NAME AS "字段名称",B.comments AS "字段描述", A.DATA_TYPE as 字段 ...
【java并发】（1）深入理解volatile关键字
volatile这个关键字可能很多朋友都听说过,或许也都用过.在Java 5之前,它是一个备受争议的关键字,因为在程序中使用它往往会导致出人意料的结果.在Java 5之后,volatile关键字才得以 ...
SDOI 2018 round2游记
Day 0 早上起来从北京到济南住宿环境不错不过比赛环境怎么这么low啊而且我在最偏僻的考场中最偏僻的角落里身边居然是个妹子?! Day1 7:40到的考试地点发现诸位大佬已经打完板子了or ...
华为荣耀等手机解锁BootLoader
下载工具按提示操作即可链接:https://pan.baidu.com/s/1qZezd1q 密码:8pad 备用链接:https://pan.baidu.com/s/1nwv0heD
给数组增加remove函数
//给数组增加indexOf函数Array.prototype.indexOf = function(val) { for (var i = 0; i < this.length; i++) { ...

【Storm】storm安装、配置、使用以及Storm单词计数程序的实例分析

前言：阅读笔记

下载安装

1、依赖安装

2、zk集群

3、zeromq&jzmq

4、python

配置执行

单词计数程序

Spout

Bolt1

Bolt2

Topology

words.txt

执行结果

【Storm】storm安装、配置、使用以及Storm单词计数程序的实例分析的更多相关文章

随机推荐

热门专题