JStorm第一个程序WordCount详解

一、Strom基本知识（回顾）

1，首先明确Storm各个组件的作用，包括Nimbus,Supervisor,Spout,Bolt,Task,Worker,Tuple

nimbus是整个storm任务的管理者，并不实际进行工作。负责在集群中分发代码，对节点分配任务，并监视主机故障。
supervisor是实际进行工作的节点，负责监听工作节点上已经分配的主机作业，启动和停止Nimbus已经分配的工作进程。
Worker是具体处理Spout/Bolt逻辑的进程，worker数量由拓扑中的conf.setNumWorkers来定义，storm会在每个Worker上均匀分配任务，一个Worker只能执行一个topology，但是可以执行其中的多个任务线程。
一个worker是一个进程，被启动的时候表现为一个JVM进程（内存更改需要配置storm.yaml里面的worker.childopts: "-Xmx2048m"参数），里面可以同时运行多个线程，这些线程就是task。
Tuple是spout与bolt、bolt与bolt之间传递消息（流）的基本单元，对于Storm来说是一个无边界的链表，每个值要事先声明它的域（field）
task是spout和bolt执行的最小单元。
下面的结构图显示了各个component之间的关系

图片来自：http://www.cnblogs.com/foreach-break/p/storm_worker_executor_spout_bolt_simbus_supervisor_mk-assignments.html

参考：http://blog.csdn.net/cuihaolong/article/details/52652686（storm各个节点介绍和容错机制）

2，一个简单的storm程序的基本流程是：spout作为数据源（可以来自hdfs，hbase等，也可以自发产生数据，比如wordcount这个例子）传送给bolt，bolt对数据进行处理，传给其它bolt或者直接输出。他们之间传送的数据是Tuple,可以成为数据元组。

3，Storm运行模式：

本地模式(Local Mode)：即Topology（相当于一个任务，后续会详细讲解）运行在本地机器的单一JVM上，这个模式主要用来开发、调试。
远程模式(Remote Mode):在这个模式，我们把我们的Topology提交到集群，在这个模式中，Storm的所有组件都是线程安全的，因为它们都会运行在不同的Jvm或物理机器上，这个模式就是正式的生产模式。

二、WordCount详解

程序描述

spout随机发送一个准备好的字符串数组里面的一个字符串（sentence）
第一层SplitBolt，负责对spout发过来的数据（sentence）进行split,分解成独立的单词，并按照一定的规则发往下一层bolt处理
第二层CountBolt，接收第一层bolt传过来的数据，并对各个单词进行数量计算

程序流程

spout数据源
bolt1进行split操作
bolt2进行count操作
Topolgy运行程序

0，WordCountTopology类：创建拓扑，运行程序

重要方法和参数解释：

setSpout,setBolt,shuffleGrouping——见代码注释和之后的Grouping方式介绍，
setNumWorkers——设置worker数量，每个worker占用一个端口（storm.yaml里面的supervisor.slots.ports配置）
setNumTasks——设置每个executor跑多少个task（本实例中没有配置这个参数，jstorm默认每个executor跑一个task[spout/bolt]）
setMaxTaskParallelism——设置此拓扑中组件允许的最大并行度。（此配置通常用于测试以限制所生成的线程数）

 package act.chenkh.study.jstormPlay;

 import java.io.File;

 import backtype.storm.Config;

 import backtype.storm.LocalCluster;

 import backtype.storm.StormSubmitter;

 import backtype.storm.topology.TopologyBuilder;

 import backtype.storm.tuple.Fields;

 public class WordCountTopology {

     public static void main(String[] args) throws Exception {

         /**第一步，设计一个Topolgy*/

         TopologyBuilder builder = new TopologyBuilder();

         /*

          * 设置spout和bolt,完整参数为

          * 1,spout的id(即name)

          * 2,spout对象

          * 3,executor数量即并发数，也就是设置多少个executor来执行spout/bolt(此项没有默认null)

          */

         //setSpout

         builder.setSpout("sentence-spout",new RandomSentenceSpout(),1);

         //setBolt:SplitBolt的grouping策略是上层随机分发，CountBolt的grouping策略是按照上层字段分发

         //如果想要从多个Bolt获取数据，可以继续设置grouping

         builder.setBolt("split-bolt", new SplitBolt(),1)

             .shuffleGrouping("sentence-spout");

         builder.setBolt("count-bolt", new CountBolt(),1)

             .fieldsGrouping("split-bolt", new Fields("word"))

             .fieldsGrouping("sentence-spout",new Fields("word"));

         /**第二步，进行基本配置*/

         Config conf = new Config();

         //作用和影响？？？？？？？？？？？

         conf.setDebug(true);

         if (args != null && args.length > 0) {

             conf.setNumWorkers(1);

             StormSubmitter.submitTopology(args[0], conf, builder.createTopology());

             }

         else {

             /*

              * run in local cluster, for test in eclipse.

              */

             conf.setMaxTaskParallelism(3);

             LocalCluster cluster = new LocalCluster();

             cluster.submitTopology("Getting-Started-Toplogie", conf, builder.createTopology());

             Thread.sleep(Integer.MAX_VALUE);

             cluster.shutdown();

         }

     }

 }

1，RandomSentenceSpout类：产生数据

重要方法和参数解释：

open——spout初始化调用
nextTuple——系统不断调用
declareOutputFields——声明输出tuple包含哪些字段

 package act.chenkh.study.jstormPlay;

 import java.util.Map;

 import java.util.Random;

 import org.apache.log4j.Logger;

 import backtype.storm.spout.SpoutOutputCollector;

 import backtype.storm.task.TopologyContext;

 import backtype.storm.topology.IRichSpout;

 import backtype.storm.topology.OutputFieldsDeclarer;

 import backtype.storm.tuple.Fields;

 import backtype.storm.tuple.Values;

 import backtype.storm.utils.Time;

 import backtype.storm.utils.Utils;

 /*

  * RandomSentenceSpout实现了IRichSpout接口

  * Spout需要实现的接口可以是：

  *    1,IRichSpout：最基本的Spout,继承自ISpout, IComponent,沒有任何特殊方法（一般用这个）

  *    2,IControlSpout:继承自IComponent,包括open，close，activate，deactivate，nextTuple，ack(Object msgId)，fail等方法

  */

 public class RandomSentenceSpout implements IRichSpout {

     /**

      *

      */

     private static final long serialVersionUID = 4058847280819269954L;

     private static final Logger logger = Logger.getLogger(RandomSentenceSpout.class);

     SpoutOutputCollector _collector;

     Random _rand;

     String component;

     /*

      * Spout初始化的时候调用

      */

     public void open(Map conf, TopologyContext context, SpoutOutputCollector collector){

         _collector = collector;

         _rand = new Random();

         component = context.getThisComponentId();

     }

     /*

      * 系统框架会不断调用

      */

     public void nextTuple() {

         String[] sentences = new String[] { "Hello world! This is my first programme of JStorm",

                 "Hello JStorm,Nice to meet you!", "Hi JStorm, do you have a really good proformance",

                 "Goodbye JStorm,see you tomorrow" };

         String sentence = sentences[_rand.nextInt(sentences.length)];

         _collector.emit(new Values(sentence), Time.currentTimeSecs());

         Utils.sleep(1000);

     }

     @Override

     public void ack(Object arg0) {

         logger.debug("ACK!");

     }

     public void activate() {

         logger.debug("ACTIVE!");

     }

     public void close() {

     }

     public void deactivate() {

     }

     public void fail(Object arg0) {

         logger.debug("FAILED!");

     }

     /*

      * 声明框架有哪些输出的字段

      */

     public void declareOutputFields(OutputFieldsDeclarer declarer) {

         declarer.declare(new Fields("word"));

     }

     public Map<String, Object> getComponentConfiguration() {

         return null;

     }

 }

2，SplitBolt类：接收上层tuple,进行split,分发给下一层

重要方法和参数解释：

cleanup,execute,prepare,declareOutputFields——见代码注释

 package act.chenkh.study.jstormPlay;

 import java.util.Map;

 //import org.slf4j.Logger;

 //import org.slf4j.LoggerFactory;

 import org.apache.log4j.Logger;

 import backtype.storm.task.TopologyContext;

 import backtype.storm.topology.BasicOutputCollector;

 import backtype.storm.topology.OutputFieldsDeclarer;

 import backtype.storm.topology.base.BaseBasicBolt;

 import backtype.storm.tuple.Fields;

 import backtype.storm.tuple.Tuple;

 import backtype.storm.tuple.Values;

 /*

  *

  * IBasicBolt:继承自IComponent,包括prepare,execut,cleanup等方法

  */

 public class SplitBolt extends BaseBasicBolt {

     /**

      *

      */

     private static final long serialVersionUID = 7104767103420386784L;

     private static final Logger logger = Logger.getLogger(SplitBolt.class);

     String component;

     /* cleanup方法在bolt被关闭的时候调用， 它应该清理所有被打开的资源。（基本只能在local mode使用）

      * 但是集群不保证这个方法一定会被执行。比如执行task的机器down掉了，那么根本就没有办法来调用那个方法。

      * cleanup设计的时候是被用来在local mode的时候才被调用(也就是说在一个进程里面模拟整个storm集群),

      * 并且你想在关闭一些topology的时候避免资源泄漏。

      * （非 Javadoc）

      * @see backtype.storm.topology.base.BaseBasicBolt#cleanup()

      */

     public void cleanup() {

     }

     //接收消息之后被调用的方法

     public void execute(Tuple input,BasicOutputCollector collector) {

         String sentence = input.getString(0);

         String[] words = sentence.split("[,|\\s+]");

         for(String word : words){

             word = word.trim();

             if(!word.isEmpty()){

                 word = word.toLowerCase();

                 collector.emit(new Values(word));

             }

         }

     }

     /*

      * prepare方法在worker初始化task的时候调用.

      *

      * prepare方法提供给bolt一个Outputcollector用来发射tuple。

      * Bolt可以在任何时候发射tuple — 在prepare, execute或者cleanup方法里面, 或者甚至在另一个线程里面异步发射。

      * 这里prepare方法只是简单地把OutputCollector作为一个类字段保存下来给后面execute方法 使用。

      */

     public void prepare(Map stromConf, TopologyContext context) {

         component = context.getThisComponentId();

     }

     /*

      * declearOutputFields方法仅在有新的topology提交到服务器,

      * 用来决定输出内容流的格式(相当于定义spout/bolt之间传输stream的name:value格式),

      * 在topology执行的过程中并不会被调用.

      * （非 Javadoc）

      * @see backtype.storm.topology.IComponent#declareOutputFields(backtype.storm.topology.OutputFieldsDeclarer)

      */

     public void declareOutputFields(OutputFieldsDeclarer declarer) {

         declarer.declare(new Fields("word"));

     }

 }

3，CountBolt类：接收上层tuple,进行count,展示输出

 package act.chenkh.study.jstormPlay;

 import java.util.HashMap;

 import java.util.Map;

 import org.apache.log4j.Logger;

 import com.alibaba.jstorm.callback.AsyncLoopThread;

 import com.alibaba.jstorm.callback.RunnableCallback;

 import backtype.storm.task.TopologyContext;

 import backtype.storm.topology.BasicOutputCollector;

 import backtype.storm.topology.OutputFieldsDeclarer;

 import backtype.storm.topology.base.BaseBasicBolt;

 import backtype.storm.tuple.Fields;

 import backtype.storm.tuple.Tuple;

 import clojure.inspector__init;

 public class CountBolt extends BaseBasicBolt {

     Integer id;

     String name;

     Map<String, Integer> counters;

     String component;

     private static final Logger LOG = Logger.getLogger(CountBolt.class);

     private AsyncLoopThread statThread;

     /**

      * On create

      */

     @Override

     public void prepare(Map stormConf, TopologyContext context) {

         this.counters = new HashMap<String, Integer>();

         this.name = context.getThisComponentId();

         this.id = context.getThisTaskId();

         this.statThread = new AsyncLoopThread(new statRunnable());

         LOG.info(stormConf.get("abc")+"!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!");

         component = context.getThisComponentId();

     }  

     public void declareOutputFields(OutputFieldsDeclarer declarer) {

          declarer.declare(new Fields("word","count"));

          // declarer.declareStream("coord-"+"word-counter", new Fields("epoch","ebagNum"));

          // LOG.info("set stream coord-"+component);

     }  

     //接收消息之后被调用的方法

     public void execute(Tuple input, BasicOutputCollector collector) {

 //        String str = input.getString(0);

         String str = input.getStringByField("word");

         if(!counters.containsKey(str)){

             counters.put(str, 1);

         }else{

             Integer c = counters.get(str) + 1;

             counters.put(str, c);

         }

     }

     class statRunnable extends RunnableCallback {

         @Override

         public void run() {

             while(true){

                 try {

                     Thread.sleep(10000);

                 } catch (InterruptedException e) {

                 }

                 LOG.info("\n-- Word Counter ["+name+"-"+id+"] --");

                 for(Map.Entry<String, Integer> entry : counters.entrySet()){

                     LOG.info(entry.getKey()+": "+entry.getValue());

                 }

                 LOG.info("");

             }

         }

     }

 }

参考：http://fireinwind.iteye.com/blog/2153699（第一个Storm应用）

三、Grouping的几种方式

四、Bolt的声明周期

1、在定义Topology实例过程中，定义好Spout实例和Bolt实例
2、在提交Topology实例给Nimbus的过程中，会调用TopologyBuilder实例的createTopology()方法，以获取定义的Topology实例。在运行createTopology()方法的过程中，会去调用Spout和Bolt实例上的declareOutputFields()方法和getComponentConfiguration()方法，declareOutputFields()方法配置Spout和Bolt实例的输出，getComponentConfiguration()方法输出特定于Spout和Bolt实例的配置参数值对。Storm会将以上过程中得到的实例，输出配置和配置参数值对等数据序列化，然后传递给Nimbus。
3、在Worker Node上运行的thread，从Nimbus上复制序列化后得到的字节码文件，从中反序列化得到Spout和Bolt实例，实例的输出配置和实例的配置参数值对等数据，在thread中Spout和Bolt实例的declareOutputFields()和getComponentConfiguration()不会再运行。
4、在thread中，反序列化得到一个Bolt实例后，它会先运行Bolt实例的prepare()方法，在这个方法调用中，需要传入一个OutputCollector实例，后面使用该OutputCollector实例输出Tuple
5、接下来在该thread中按照配置数量建立task集合，然后在每个task中就会循环调用thread所持有Bolt实例的execute()方法
6、在关闭一个thread时，thread所持有的Bolt实例会调用cleanup()方法
不过如果是强制关闭，这个cleanup()方法有可能不会被调用到

五、Stream里面的Tuple

1，Stream是storm里面的关键抽象。一个stream是一个没有边界的tuple序列。

storm提供一些原语来分布式地、可靠地把一个stream传输进一个新的stream。比如：你可以把一个tweets流传输到热门话题的流。

storm提供的最基本的处理stream的原语是spout和bolt。你可以实现Spout和Bolt对应的接口以处理你的应用的逻辑。

spout的流的源头。比如一个spout可能从Kestrel队列里面读取消息并且把这些消息发射成一个流。又比如一个spout可以调用twitter的一个api并且把返回的tweets发射成一个流。

通常Spout会从外部数据源（队列、数据库等）读取数据，然后封装成Tuple形式，之后发送到Stream中。Spout是一个主动的角色，在接口内部有个nextTuple函数，Storm框架会不停的调用该函数。

bolt可以接收任意多个输入stream，作一些处理，有些bolt可能还会发射一些新的stream。一些复杂的流转换，比如从一些tweet里面计算出热门话题，需要多个步骤，从而也就需要多个bolt。 Bolt可以做任何事情: 运行函数，过滤tuple, 做一些聚合，做一些合并以及访问数据库等等。

Bolt处理输入的Stream，并产生新的输出Stream。Bolt可以执行过滤、函数操作、Join、操作数据库等任何操作。Bolt是一个被动的角色，其接口中有一个execute(Tuple input)方法，在接收到消息之后会调用此函数，用户可以在此方法中执行自己的处理逻辑。

spout和bolt所组成一个网络会被打包成topology， topology是storm里面最高一级的抽象（类似 Job），你可以把topology提交给storm的集群来运行。

参考：http://www.cnblogs.com/wuxiang/p/5629138.html（Storm入门原理介绍）

2，Tuple: 消息传递的基本单位。

在spout发送的时候，函数原型

 public List<Integer> emit(List<Object> tuple, Object messageId) {

         return emit(Utils.DEFAULT_STREAM_ID, tuple, messageId);

     }

这里的tuple, 实际上是List<Object> 对象，返回的是 List<Integer> 是要发送的tast的IdsList

在bolt接收的时候, 变成一个Tuple对象, 结构应该也是一个list， List<Field1, value1, Field2, value2..>这样的一个结构， FieldList ValueList, 我们根据对应的fieldname就可以取出对应的getIntegerByField方法

JStorm第一个程序WordCount详解的更多相关文章

(转载)Hadoop示例程序WordCount详解
最近在学习云计算,研究Haddop框架,费了一整天时间将Hadoop在Linux下完全运行起来,看到官方的map-reduce的demo程序WordCount,仔细研究了一下,算做入门了. 其实Wor ...
Hadoop示例程序WordCount详解及实例（转）
1.图解MapReduce 2.简历过程: Input: Hello World Bye World Hello Hadoop Bye Hadoop Bye Hadoop Hello Hadoop M ...
struts2第一个程序的详解（配图）
首先我们在struts2中要写上一个action <packagename="fish"namespace="/test"extends="st ...
VS2010开发程序打包详解
VS2010开发程序打包详解转自:http://blog.sina.com.cn/s/blog_473b385101019ufr.html 首先打开已经完成的工程,如图: 下面开始制作安装程序包. ...
嵌入式Linux应用程序开发详解------（创建守护进程）
嵌入式Linux应用程序开发详解华清远见本文只是阅读文摘. 创建一个守护进程的步骤: 1.创建一个子进程,然后退出父进程: 2.在子进程中使用创建新会话---setsid(): 3.改变当前工作目 ...
Linux Bash命令关于程序调试详解
转载:http://os.51cto.com/art/201006/207230.htm 参考:<Linux shell 脚本攻略>Page22-23 Linux bash程序在程序员的使 ...
一个简单的C语言程序（详解）
C Primer Plus之一个简单的C语言程序(详解) #include <stdio.h> int main(void) //一个简单的 C程序 { int num; //定义一个名为 ...
入木三分学网络第一篇--VRRP协议详解第一篇（转）
因为keepalived使用了VRRP协议,所有有必要熟悉一下. 虚拟路由冗余协议(Virtual Router Redundancy Protocol,简称VRRP)是解决局域网中配置静态网关时,静 ...
hadoop集群配置方法---mapreduce应用：xml解析+wordcount详解---yarn配置项解析
注:以下链接均为近期hadoop集群搭建及mapreduce应用开发查找到的资料.使用hadoop2.6.0,其中hadoop集群配置过程下面的文章都有部分参考. hadoop集群配置方法: ---- ...

随机推荐

iOS-Gdata XML解析配置和简单使用
简单介绍使用废话少说直接上图就能看明白... 导入libxml2,使用第三方AFNetworking网络请求,第三方XML解析GData GData需要的配置 Build Settings 里搜索,添 ...
Pylot压力测试（linux）
Pylot需要python2.5以上的版本,打开以后选择对应你的系统的版本,下载好之后双击安装. centOS5.5 系统版本python版本是2.4.3,所以要下载个2.5以上的. 1.下载Pyth ...
2015GitWebRTC编译实录12
2015.07.20 libjingle_peerconnection 编译通过[1382/1600 ] CXX obj/talk/app /webrtc/libjingle_peerconnecti ...
jq获取当前点击的li是ul中的第几个？
<script> var navulsize = $('.navul li').size(); var navulwidth = $('.navul li').wid ...
关于只针对ie7浏览器的css问题
如代码: .centerDiv .search_k2{ margin-left: 18px; *margin-left: 9px; margin-top: 10px; height: 40px;} 中 ...
setsockopt 设置 SO_LINGER 选项
setsockopt 设置 SO_LINGER 选项最近和后台的server通信 server发现在读数据的时候客户端已经关闭连接 ,也就是没有等服务器读完数据,客户端已经fclose了, 联 ...
【转】关于.net framework4.0以及4.5安装失败，“安装时发生严重错误”……
也不知道管不管用,先记着今天忽然想装一个vs2010,然后装了好几遍,每次都在安装.net4.0的时候失败.好吧,我自己手动装行么.于是手动去装.net 4.0. 结果在还是返回"安装时发 ...
Apache Shiro系列教程之二：十分钟上手Shiro
在本教程中,我们会写一个简单的.仅仅输出一些内容命令行程序,从而对Shiro有一个大体的感觉. 一.准备工作本教程需要Java1.5+,并且我们用Maven生成项目,当然Maven不是必须的,你也可 ...
Stencil Buffer
刚在草稿箱里发现了这篇充满特色的好日志.发表之. ------------------吃货的分割线---------------------------------------- Stencil Bu ...
SQL2005 遍历表插入
/* sql2005遍历表(方法1) insert into 数据表(userid,adddate) values((select userid from 用户表),date); */ /*sql20 ...

JStorm第一个程序WordCount详解

JStorm第一个程序WordCount详解的更多相关文章

随机推荐

热门专题