Storm实现单词统计代码

 import java.io.File;

 import java.io.IOException;

 import java.util.Collection;

 import java.util.HashMap;

 import java.util.List;

 import java.util.Map;

 import java.util.Map.Entry;

 import org.apache.commons.io.FileUtils;

 import backtype.storm.Config;

 import backtype.storm.LocalCluster;

 import backtype.storm.spout.SpoutOutputCollector;

 import backtype.storm.task.OutputCollector;

 import backtype.storm.task.TopologyContext;

 import backtype.storm.topology.OutputFieldsDeclarer;

 import backtype.storm.topology.TopologyBuilder;

 import backtype.storm.topology.base.BaseRichBolt;

 import backtype.storm.topology.base.BaseRichSpout;

 import backtype.storm.tuple.Fields;

 import backtype.storm.tuple.Tuple;

 import backtype.storm.tuple.Values;

 import backtype.storm.utils.Utils;

 /**

  * 单词计数

  * 监控d:\\test目录下面的文件，统计单词出现的总次数

  * 当有新文件出现的时候，也要能解析出来

  *

  * @author Administrator

  *

  */

 public class LocalTopologyWordCount {

     /**

      * spout需要继承baserichspout，实现未实现的方法

      * @author Administrator

      *

      */

     public static class DataSourceSpout extends BaseRichSpout{

         private Map conf;

         private TopologyContext context;

         private SpoutOutputCollector collector;

         /**

          * 初始化方法，只会执行一次

          * 在这里面可以写一个初始化的代码

          * Map conf：其实里面保存的是topology的一些配置信息

          * TopologyContext context：topology的上下文，类似于servletcontext

          * SpoutOutputCollector collector：发射器，负责向外发射数据(tuple)

          */

         @Override

         public void open(Map conf, TopologyContext context,

                 SpoutOutputCollector collector) {

             this.conf = conf;

             this.context = context;

             this.collector = collector;

         }

         /**

          * 这个方法是spout中最重要的方法，

          * 这个方法会被storm框架循环调用，可以理解为这个方法是在一个while循环之内

          * 每调用一次，会向外发射一条数据

          */

         @Override

         public void nextTuple() {

             //获取指定目录下面的新文件，

             Collection<File> listFiles = FileUtils.listFiles(new File("d:\\test"), new String[]{"txt"}, true);

             //分别读取每个文件

             for (File file : listFiles) {

                 try {

                     List<String> readLines = FileUtils.readLines(file);

                     for (String line : readLines) {

                         //把每一行封装成一个tuple，发射出去

                         this.collector.emit(new Values(line));

                     }

                     FileUtils.moveFile(file, new File(file.getAbsolutePath()+System.currentTimeMillis()));//给文件该名字,否则会一直处理这个文件.

                 } catch (IOException e) {

                     e.printStackTrace();

                 }

             }

         }

         /**

          * 声明输出字段

          */

         @Override

         public void declareOutputFields(OutputFieldsDeclarer declarer) {

             //给values中的数据起个名字，方便后面的bolt从这个values中取数据

             //fields中定义的参数和values中传递的数值是一一对应的

             declarer.declare(new Fields("line"));

         }

     }

     /**

      * 自定义bolt需要实现baserichbolt

      * @author Administrator

      *

      */

     public static class SplitBolt extends BaseRichBolt{

         private Map stormConf;

         private TopologyContext context;

         private OutputCollector collector;

         /**

          * 和spout中的open方法意义一样

          */

         @Override

         public void prepare(Map stormConf, TopologyContext context,

                 OutputCollector collector) {

             this.stormConf = stormConf;

             this.context = context;

             this.collector = collector;

         }

         /**

          * 是bolt中最重要的方法，当spout发射一个tuple出来，execute也会被调用，需要对spout发射出来的tuple进行处理

          */

         @Override

         public void execute(Tuple input) {

             //获取每一行数据进行切割

             String line = input.getStringByField("line");

             String[] splits = line.split("\t");

             //把切割出来的单词一个一个发射出去

             for (String word : splits) {

                 this.collector.emit(new Values(word));

             }

         }

         //在这没必要定义了，因为execute方法中没有向外发射tuple，所以就不需要声明了。

         //如果nextTuple或者execute方法中向外发射了tuple，那么declareOutputFields必须要声明，否则不需要声明

         /**

          * 声明输出字段

          */

         @Override

         public void declareOutputFields(OutputFieldsDeclarer declarer) {

             declarer.declare(new Fields("word"));

         }

     }

     /**

      * 自定义bolt需要实现baserichbolt

      * @author Administrator

      *

      */

     public static class CountBolt extends BaseRichBolt{

         private Map stormConf;

         private TopologyContext context;

         private OutputCollector collector;

         /**

          * 和spout中的open方法意义一样

          */

         @Override

         public void prepare(Map stormConf, TopologyContext context,

                 OutputCollector collector) {

             this.stormConf = stormConf;

             this.context = context;

             this.collector = collector;

         }

         HashMap<String, Integer> hashMap = new HashMap<String, Integer>();

         /**

          * 是bolt中最重要的方法，当spout发射一个tuple出来，execute也会被调用，需要对spout发射出来的tuple进行处理

          */

         @Override

         public void execute(Tuple input) {

             //获取每一个单词

             String word = input.getStringByField("word");

             //在map中进行统计

             Integer integer = hashMap.get(word);

             if(integer==null){

                 integer=0;

             }

             integer++;

             hashMap.put(word, integer);

             //把这个统计结果打印到控制台

             Utils.sleep(1000);

             System.out.println("=========================================");

             for (Entry<String, Integer> entry : hashMap.entrySet()) {

                 System.out.println(entry);

             }

         }

         //在这没必要定义了，因为execute方法中没有向外发射tuple，所以就不需要声明了。

         //如果nextTuple或者execute方法中向外发射了tuple，那么declareOutputFields必须要声明，否则不需要声明

         /**

          * 声明输出字段

          */

         @Override

         public void declareOutputFields(OutputFieldsDeclarer declarer) {

         }

     }

     /**

      * 注意：在组装topology的时候，组件的id在定义的时候，名称不能以__开头。__是系统保留的

      * @param args

      */

     public static void main(String[] args) {

         //组装topology

         TopologyBuilder topologyBuilder = new TopologyBuilder();

         topologyBuilder.setSpout("spout1", new DataSourceSpout());

         //.shuffleGrouping("spout1"); 表示让MyBolt接收MySpout发射出来的tuple

         topologyBuilder.setBolt("bolt1", new SplitBolt()).shuffleGrouping("spout1");

         topologyBuilder.setBolt("bolt2", new CountBolt()).shuffleGrouping("bolt1");

         //创建本地storm集群

         LocalCluster localCluster = new LocalCluster();

         localCluster.submitTopology("wordCountTopology", new Config(), topologyBuilder.createTopology());

     }

 }

Storm实现单词统计代码的更多相关文章

Strom实现单词统计代码
import java.io.File; import java.io.IOException; import java.util.Collection; import java.util.HashM ...
Storm基础概念与单词统计示例
Storm基本概念 Storm是一个分布式的.可靠地.容错的数据流处理系统.Storm分布式计算结构称为Topology(拓扑)结构,顾名思义,与拓扑图十分类似.该拓扑图主要由数据流Stream.数据 ...
使用Storm进行词频统计
词频统计 1.需求:读取指定目录的数据,并且实现单词计数功能 2.实现方案: Spout用于读取指定文件夹(目录),读取文件,将文件的每一行发射到Bolt SplitBolt用于接收Spout发射过来 ...
MapReduce 单词统计案例编程
MapReduce 单词统计案例编程一.在Linux环境安装Eclipse软件 1. 解压tar包下载安装包eclipse-jee-kepler-SR1-linux-gtk-x86_64.ta ...
2、 Spark Streaming方式从socket中获取数据进行简单单词统计
Spark 1.5.2 Spark Streaming 学习笔记和编程练习 Overview 概述 Spark Streaming is an extension of the core Spark ...
scala基本语法和单词统计
scala 基本语法 1.声明变量 (1)val i = 1 使用val声明的变量值是不可变的,相当于java里final修饰的变量,推荐使用. (2)var i = "hello" ...
java课程课后作业190502之单词统计续集
第1步:输出单个文件中的前 N 个最常出现的英语单词. 功能1:输出文件中所有不重复的单词,按照出现次数由多到少排列,出现次数同样多的,以字典序排列. 功能2: 指定文件目录,对目录下每一个文件执行统 ...
Spark入门（三）--Spark经典的单词统计
spark经典之单词统计准备数据既然要统计单词我们就需要一个包含一定数量的文本,我们这里选择了英文原著<GoneWithTheWind>(<飘>)的文本来做一个数据统计,看 ...
java源码——文件读写和单词统计
本文要解决的问题:"键盘输入一段英语语句,将这段话写入content.txt中,然后输出这段话,并且统计语句中英文单词的数目以及各个单词出现的次数." 分析问题知,核心是文件读写和 ...

随机推荐

Fiddler实战深入研究(二)[转载]
Fiddler实战深入研究(二) 阅读目录 Fiddler不能捕获chrome的session的设置理解数据包统计请求重定向(AutoResponder) Composer选项卡 Filters选 ...
gj7 对象引用、可变性和垃圾回收
7.1 python变量到底是什么 #python和java中的变量本质不一样,python的变量实质上是一个指针 int str, 便利贴 a = 1 a = "abc" #1. ...
html转jsp部分css不可用
解决方法 <%String path = request.getContextPath();String basePath = request.getScheme()+"://&quo ...
hibernate hql where语句拼接工具类
package com.zhaoshijie.tree.other; /** * hibernate HQL WHERE语句工具类 * * @author 赵士杰 * */public class H ...
nexus 下载及安装
一.下载 nexus maven http://www.sonatype.org/ http://www.sonatype.org/nexus/ http://www.sonatype.org/nex ...
挂载镜像SD卡的FAT32文件系统分区到Linux中
首先使用fdisk –l命令查看sd卡的分区息可以看到,sd卡有三个分区,第一个分区是FAT32系统,主要存放内核img文件和dtb文件,第二个分区是Linux系统分区,第三个分区格式未知,实际是U ...
99 Times--Kate Voegele
歌手 Kate Voegele 是美国俄亥俄州的一位年轻创作型歌手,她会唱歌.会写歌.特别擅长弹吉他.还会弹钢琴.她是美国新生代歌手中的佼佼者. 99 Times--Kate Voegele S ...
Eclipse代码提示功能设置
1. 解决实例化时自动补全不必要的单词问题 2. 以MyEclipse 6.5重新配图鉴于网上的批评之声甚大,我只想说明我的想法:这样的增强代码提示,最终是用来辅助我们 ...
ORACLE报表触发器
http://www.cnblogs.com/quanweiru/archive/2012/09/26/2704308.html 触发器一.报表触发器(report trigger)报表触发器主要用于 ...
Spring框架事务支持模型的优势
全局事务全局事务支持对多个事务性资源的操作,通常是关系型数据库和消息队列.应用服务器通过JTA管理全局性事务,API非常烦琐.UserTransaction通常需要从JNDI获取,意味着需要与JND ...

Storm实现单词统计代码

Storm实现单词统计代码的更多相关文章

随机推荐

热门专题