Storm- 使用Storm实现词频汇总

需求：读取指定目录的数据，并实现单词计数的功能

实现方案：

　　Spout来读取指定目录的数据，作为后续Bolt处理的input

　　使用一个Bolt把input 的数据，切割分开，我们按照逗号进分割

　　使用一个Bolt来进行最终的单词次数统计操作并输出

拓扑设计：DataSourceSpout ==>SpiltBolt ==>CountBolt

Storm编程注意，Topology，Spout，Bolt等命名不能重复，伤到集群需要注意出现重复命名，会报错的。

package com.imooc.bigdata;

import org.apache.commons.io.FileUtils;

import org.apache.storm.Config;

import org.apache.storm.LocalCluster;

import org.apache.storm.spout.SpoutOutputCollector;

import org.apache.storm.task.OutputCollector;

import org.apache.storm.task.TopologyContext;

import org.apache.storm.topology.OutputFieldsDeclarer;

import org.apache.storm.topology.TopologyBuilder;

import org.apache.storm.topology.base.BaseRichBolt;

import org.apache.storm.topology.base.BaseRichSpout;

import org.apache.storm.tuple.Fields;

import org.apache.storm.tuple.Tuple;

import org.apache.storm.tuple.Values;

import java.io.File;

import java.io.IOException;

import java.util.*;

/**

 * 使用Storm完成词频统计功能

 */

public class LocalWordCountStormTopology {

    public static class DataSourceSpout extends BaseRichSpout{

        private SpoutOutputCollector collector;

        @Override

        public void open(Map conf, TopologyContext context, SpoutOutputCollector collector) {

            this.collector = collector;

        }

        /**

         * 业务逻辑

         * 1） 读取指定目录文件夹下的数据:E:\iso\linux

         * 2） 把每一行的数据发射出去

         */

        @Override

        public void nextTuple() {

            // 获取所有文件

            Collection<File> files = FileUtils.listFiles(new File("E:\\iso\\linux"), new String[]{"txt"}, true);

            for (File file: files){

                try {

                    // 获取文件中的所有内容

                    List<String> lines = FileUtils.readLines(file);

                    // 获取文件中的每行的内容

                    for (String line: lines){

                        // 发射出去

                        this.collector.emit(new Values(line));

                    }

                    // TODO... 数据处理完成之后，改名，否则一直重复执行

                    FileUtils.moveFile(file, new File(file.getAbsolutePath()+System.currentTimeMillis()));

                } catch (IOException e) {

                    e.printStackTrace();

                }

            }

        }

        @Override

        public void declareOutputFields(OutputFieldsDeclarer declarer) {

            declarer.declare(new Fields("line"));

        }

    }

    /**

     * 对数据进行分割

     */

    public static class SplitBolt extends BaseRichBolt{

        private OutputCollector collector;

        @Override

        public void prepare(Map stormConf, TopologyContext context, OutputCollector collector) {

            this.collector = collector;

        }

        /**

         * 业务逻辑：

         *  line： 对line进行分割，按逗号进行分割

         * @param input

         */

        @Override

        public void execute(Tuple input) {

            String line = input.getStringByField("line");

            String[] words = line.split(",");

            for (String word: words){

                this.collector.emit(new Values(word));

            }

        }

        @Override

        public void declareOutputFields(OutputFieldsDeclarer declarer) {

            declarer.declare(new Fields("word"));

        }

    }

    /**

     * 词频汇总Bolt

     */

    public static class WordCountBlot extends BaseRichBolt{

        @Override

        public void prepare(Map stormConf, TopologyContext context, OutputCollector collector) {

        }

        Map<String, Integer> map = new HashMap<String, Integer>();

        /**

         * 业务逻辑：

         * 1）获取每个单词

         * 2）对所有单词进行汇总

         * 3）输出

         * @param input

         */

        @Override

        public void execute(Tuple input) {

            // 1）获取每个单词

            String word = input.getStringByField("word");

            Integer count = map.get(word);

            if (count == null){

                count = 0;

            }

            count ++;

            // 2）对所有单词进行汇总

            map.put(word, count);

            // 3）输出

            System.out.println("~~~~~~~~~~~~~~~~~~~~~~~~~~~");

            Set<Map.Entry<String, Integer>> entries = map.entrySet();

            for (Map.Entry<String, Integer> entry: entries) {

                System.out.println(entry);

            }

        }

        @Override

        public void declareOutputFields(OutputFieldsDeclarer declarer) {

        }

    }

    public static void main(String[] args) {

        // 通过TopologyBuilder根据Spout和Bilt构建Topology

        TopologyBuilder builder = new TopologyBuilder();

        builder.setSpout("DataSourceSpout", new DataSourceSpout());

        builder.setBolt("SplitBolt", new SplitBolt()).shuffleGrouping("DataSourceSpout");

        builder.setBolt("WordCountBlot", new WordCountBlot()).shuffleGrouping("SplitBolt");

        // 创建本地集群

        LocalCluster cluster = new LocalCluster();

        cluster.submitTopology("LocalWordCountStormTopology", new Config(), builder.createTopology());

    }

}

Storm- 使用Storm实现词频汇总的更多相关文章

分布式流式处理框架：storm简介 + Storm术语解释
简介: Storm是一个免费开源.分布式.高容错的实时计算系统.它与其他大数据解决方案的不同之处在于它的处理方式.Hadoop 在本质上是一个批处理系统,数据被引入 Hadoop 文件系统 (HDFS ...
【Storm】storm安装、配置、使用以及Storm单词计数程序的实例分析
前言:阅读笔记 storm和hadoop集群非常像.hadoop执行mr.storm执行topologies. mr和topologies最关键的不同点是:mr执行终于会结束,而topologies永 ...
twitter storm学习 - 安装部署问题汇总
已经碰到的或者将来碰到的关于安装部署方面的问题以及解决方法,先挖个坑 1.提交的topology在admin界面上看emitted始终都是0,查看日志发现有如下错误: worker [ERROR] E ...
Storm Windowing storm滑动窗口简介
Storm Windowing 简介 Storm可同时处理窗口内的所有tuple.窗口可以从时间或数量上来划分,由如下两个因素决定: 窗口的长度,可以是时间间隔或Tuple数量: 滑动间隔(slidi ...
storm学习-storm入门
超好资料: 英文:https://github.com/xetorthio/getting-started-with-storm/blob/master/ch03Topologies.asc 中文:h ...
【Storm】Storm实战之频繁二项集挖掘
一.前言针对大叔据实时处理的入门,除了使用WordCount示例之外,还需要相对更深入点的示例来理解Storm,因此,本篇博文利用Storm实现了频繁项集挖掘的案例,以方便更好的入门Storm. 二 ...
Storm入门-Storm与Spark对比
作为一名程序员通病就是不安分,对业界的技术总要折腾一番,哪怕在最终实际工作中应用到的就那么一点.最近自己准备入门Storm学习,关于流式大数据框架目前比较流行的有Spark和Storm等,在入门之前, ...
【Storm】Storm实战之频繁二项集挖掘（附源码）
一.前言针对大叔据实时处理的入门,除了使用WordCount示例之外,还需要相对更深入点的示例来理解Storm,因此,本篇博文利用Storm实现了频繁项集挖掘的案例,以方便更好的入门Storm. 二 ...
storm之 Storm 工作原理
Storm 工作原理 Storm简介 1.Storm是一套分布式的.可靠的,可容错的用于处理流式数据的系统. 2.Storm也是基于C/S架构来进行工作的,C负责将数据处理的方式的jar(Topolo ...

随机推荐

Windows下UEFI环境的搭建
Windows下UEFI环境的搭建一.环境准备 1. 安装2012及以上VS https://visualstudio.microsoft.com/ 2.下载NASM 2.13.03 http:/ ...
ppm\pgm格式
PGM 是便携式灰度图像格式(portable graymap file format),在黑白超声图像系统中经常使用PGM格式的图像.文件的后缀名为".pgm". PGM格式图像 ...
CyclicBarrier的工作原理及其实例
CyclicBarrier是多线程中一个重要的类,主要用于线程组内部之间的线程的相互等待问题. 1.CyclicBarrier的工作原理 CyclicBarrier大致是可循环利用的屏障,顾名思义,这 ...
java代码连接本地redis数据库
关于redis的介绍在这里就不说了.今天主要讲解,如何连接redis.连接之前.必须要做的几点: 一.安装redis.下载服务和客户端,然后二.启动redis服务. 经过这两步的测通以后.我们只需要 ...
Keil 中 Program Size: Code RO-data RW-data ZI-data 所代表的意思
在Keil中编译工程成功后,在下面的Bulid Ouput窗口中会输出下面这样一段信息: Program Size: Code=6320 RO-data=4864 RW-data=44 ZI-data ...
ASP.NET动态网站制作（16）-- SQL数据库（2）
前言:SQL数据库的第二节课,继续讲解基本的语句及用法. 内容: 1.insert插入语句 insert into Book(bookName,bookPrice,bookAuthor) value ...
Android 禁止状态栏下拉
同学项目用到Android 禁止状态栏下拉,我也迷茫,网上很多资料都不行,最终找到了下面一篇博客,感觉很不错,说的比较详细,供大家参考了 http://blog.csdn.net/u011913612 ...
double,long double及各变量数组内存开销
IEEE754浮点数的表示方法.C语言里对float类型数据的表示范围为-3.4*10^38-+3.4*10^38.double为-1.7*10^-308~1.7*10^308,long double ...
php 写入数据库时Call to a member function bind_param() on a non-object
<?php $servername = "localhost"; $username = "username"; $password = "pa ...
【BZOJ1444】[Jsoi2009]有趣的游戏 AC自动机+概率DP+矩阵乘法
[BZOJ1444][Jsoi2009]有趣的游戏 Description Input 注意是0<=P Output Sample Input Sample Output HINT 30%的 ...

Storm- 使用Storm实现词频汇总

Storm- 使用Storm实现词频汇总的更多相关文章

随机推荐

热门专题