使用storm分别进行计数和词频统计

计数

直接上代码

public class LocalStormSumTopology {

    public static void main(String[] agrs) {

        //Topology是通过build模式创建出来的

        //storm中的所有作业都是通过topology来指定的

        TopologyBuilder builder = new TopologyBuilder();

        //在设置bolt到topology时,需要设置该bolt的上游的spout或者bolt的id,这样topology才知道该bolt的执行顺序,有点类似于单向链表结构,

        //每一个环节持有上一个环节的引用,在bolt这里是持有上一个环节的id,这样同样可以定位到上一个环节

        builder.setSpout("DataSourceSpout", new DataSourceSpout());

        builder.setBolt("TotalBolt", new TotalBolt()).shuffleGrouping("DataSourceSpout");

        //启动一个本地的Storm集群,不需要搭真正的集群,本地集群使用LocalCluster来提交topology,如果是在生产环境上提交topology,那么使用

        //这个类StormSubmitter来代替LocalCluster来提交topology

        LocalCluster cluster = new LocalCluster();

        cluster.submitTopology("LocalStormSumTopology", new Config(), builder.createTopology());

    }

    private static final String NUM = "num";

    /**

     * 发送数据源的spout类,一般是继承BaseRichSpout这个类

     */

    public static class DataSourceSpout extends BaseRichSpout {

        private SpoutOutputCollector mCollector;

        int num;

        /**

         * 在storm开始的开始工作前回调一次,在这里做初始化

         *

         * @param conf      配置参数

         * @param context   上下文

         * @param collector 数据发射器,用来将数据发送到bolt中,类似于rxjava的数据发射器

         */

        public void open(Map conf, TopologyContext context, SpoutOutputCollector collector) {

            this.mCollector = collector;

        }

        /**

         * 这是一个死循环方法,会自动循环调用,这个方法用来发送数据到下游

         */

        public void nextTuple() {

            //将数据发射到bolt中,一般使用Values这个类,传入的是可变参数,底层封装成ArrayList

            mCollector.emit(new Values(++num));

            System.out.println("从spout发射出的数据:" + num);

            Utils.sleep(1000);

        }

        /**

         * 声明从spout中发射的数据的字段名,在bolt阶段可以通过这里预设置的字段名进行取值,类似于安卓中的使用sp传输,

         * 字段名和发送出来的数据一一对应,这样如果下游需要接收多个数据发射源,那么可以通过该字段名来做区别

         *

         * @param declarer

         */

        public void declareOutputFields(OutputFieldsDeclarer declarer) {

            //一般使用Fields来进行封装字段名fields底层封装了ArrayList<String>

            declarer.declare(new Fields(NUM));

        }

        @Override

        public void close() {

            this.mCollector = null;

        }

    }

    public static class TotalBolt extends BaseRichBolt {

        private int sum = 0;

        /**

         * 初始化方法,跟spout中的open方法类似,只会调用一次,在这里做初始化

         *

         * @param stormConf

         * @param context

         * @param collector

         */

        public void prepare(Map stormConf, TopologyContext context, OutputCollector collector) {

        }

        /**

         * 每从上游接收到一个数据,就调用该方法回调过来

         *

         * @param input 用来提取上一个流程传过来的数据

         */

        public void execute(Tuple input) {

            //通过在上游设置的字段名来获取数据

            Integer integerByField = input.getIntegerByField(NUM);

            sum += integerByField;

            System.out.println("累加的结果是:" + sum);

        }

        /**

         * 为往下游发送的数据加上字段名,方面区别数据的来源

         * @param declarer

         */

        public void declareOutputFields(OutputFieldsDeclarer declarer) {

        }

    }

}

词频统计

直接上代码

public class LocalWorldCountStormTopology {

    public static void main(String[] agrs) {

        TopologyBuilder builder = new TopologyBuilder();

        builder.setSpout("DataSourceSpout", new DataSourceSpout());

        builder.setBolt("CountBolt", new CountBolt()).shuffleGrouping("DataSourceSpout");

        LocalCluster cluster = new LocalCluster();

        cluster.submitTopology("LocalWorldCountStormTopology", new Config(), builder.createTopology());

    }

    /**

     * 输出每一行文本的spout

     */

    public static class DataSourceSpout extends BaseRichSpout {

        private SpoutOutputCollector mCollector;

        public void open(Map conf, TopologyContext context, SpoutOutputCollector collector) {

            this.mCollector = collector;

        }

        public void nextTuple() {

            //通过这个方法,可以获取到某一个文件夹下所有符合规定后缀的文件,并且可以设置是否递归获取

            Collection<File> files = FileUtils.listFiles(new File("/Users/teng/Downloads"), new String[]{"txt"}, true);

            try {

                for (File file : files) {

                    //因为下一步还需要做切割,因此需要先将文件一行一行取出来,放在String集合中

                    List<String> lines = FileUtils.readLines(file);

                    for (String line : lines) {

                        //使用,进行分割

                        String[] split = line.split(",");

                        //发射单词出去

                        for (String s : split) {

                            mCollector.emit(new Values(s));

                        }

                    }

                //执行完成一次之后,需要修改文件名,这样就不用一直执行

                FileUtils.moveFile(file, new File(file.getAbsolutePath()+System.currentTimeMillis()));

                }

            } catch (IOException e) {

                e.printStackTrace();

            }

        }

        public void declareOutputFields(OutputFieldsDeclarer declarer) {

            //定义数据的字段名

            declarer.declare(new Fields("word"));

        }

    }

    /**

     * 统计词频的bolt

     */

    public static class CountBolt extends BaseRichBolt {

        private Map<String, Integer> map = new HashMap<String, Integer>();

        public void prepare(Map stormConf, TopologyContext context, OutputCollector collector) {

        }

        public void execute(Tuple input) {

            String word = input.getStringByField("word");

            Integer num = map.get(word);

            if (num == null) {

                num = 1;

            } else {

                num++;

            }

            map.put(word, num);

            System.out.println("~~~~~~~~~");

            Set<Map.Entry<String, Integer>> entries = map.entrySet();

            for (Map.Entry<String, Integer> entry : entries) {

                System.out.println(entry.getKey() + "出现的次数为:" + entry.getValue());

            }

        }

        public void declareOutputFields(OutputFieldsDeclarer declarer) {

        }

    }

}

使用storm分别进行计数和词频统计的更多相关文章

使用Storm进行词频统计
词频统计 1.需求:读取指定目录的数据,并且实现单词计数功能 2.实现方案: Spout用于读取指定文件夹(目录),读取文件,将文件的每一行发射到Bolt SplitBolt用于接收Spout发射过来 ...
python瓦登尔湖词频统计
#瓦登尔湖词频统计: import string path = 'D:/python3/Walden.txt' with open(path,'r',encoding= 'utf-8') as tex ...
c#词频统计命令行程序
这里将用c#写一个关于词频统计的命令行程序. 预计时间分配:输入处理3h.词条排序打印2h.测试3h. 实际时间分配:输入处理1h.词条排序打印2h.测试3h.程序改进优化6h. 下面将讲解程序的完成 ...
词频统计 SPEC 20160911
本文档随时可能修改,并且没有另行通知. 请确保每一次在开始修改你的代码前,读标题中的日期,如果晚于你上次阅读, 请重读一次. 老五在寝室吹牛他熟读过<鲁滨逊漂流记>,在女生面前吹牛热爱&l ...
软工结对项目之词频统计update
队友胡展瑞 031602215 作业页面 GitHub 具体分工 111500206 赵畅:负责WordCount的升级,添加新的命令行参数支持(自定义输入输出文件,权重词频统计,词组统计等所有新功 ...
HW—词频统计
第一次个人作业——词频统计第一次做这种大作业,明显感觉陌生,各种规范和技能也是第一次使用,希望自己好运. 目录:一.基本要求二.需求分析及时间估计三.实现思路及过程四.测试用例.时间性能分析及 ...
Hadoop基础学习（一）分析、编写并执行WordCount词频统计程序
版权声明:本文为博主原创文章,未经博主同意不得转载. https://blog.csdn.net/jiq408694711/article/details/34181439 前面已经在我的Ubuntu ...
python复合数据类型以及英文词频统计
这个作业的要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/2753. 1.列表,元组,字典,集合分别如何增删改查及遍历. 列 ...
作业3-个人项目<词频统计>
上了一天的课,现在终于可以静下来更新我的博客了. 越来越发现,写博客是一种享受.来看看这次小林老师的“作战任务”. 词频统计单词: 包含有4个或4个以上的字 ...

随机推荐

OpenSSL 中DES-ECB 加密使用注意事项
参考:http://blog.csdn.net/cparent/article/details/40652051DES加密算法作为一个过时的东西,使用的项目已经很少了.最近在调试与服务器端进行DES加 ...
IDA学习笔记函数调用约定
stdcall和cdecl: stdcall和cdecl 压栈方向都是从右到左区别在于c约定是调用方在函数返回后add esp,n指令清除堆栈中的参数,而stdcall在被调函数内使用ret n来清 ...
使用域账号统一管理cisco网络设备
1.思科设备和微软系统整合的背景: 公司内部有一定数量的客户端,为了实现统一化,在管理内部部署了域架构,这样可以通过组策略对客户端进行批量化管理,提高了管理的效率. 同样公司内部有一定数量的网络设备( ...
springmvc log4j 配置
web.xml 增加 <context-param> <param-name>log4jConfigLocation</param-name> <param- ...
sql server两个时间段内，求出周末的量
公司有个表记录了出差(加班)的初始时间和截止时间,现在要计算出加班时间,之前的设计并没有考虑到这部分,因此本人通过sql重新计算周末数表formmain starttime endtime 使用游标 ...
JAVAEE——BOS物流项目07：WebService入门、apache CXF入门、基于CXF发布CRM服务
1 学习计划 1.WebService入门 n 什么是WebService n 调用网络上的WebService服务 n SOAP和WSDL概念 n 基于JDK1.7发布一个简单的WebService ...
各种语系的unicode对应以及local编码方式
链接:http://www.doc88.com/p-801578373970.html 一.英文 Unicode范围: 0041-005A, 0061-007A (若含数字与符号,则为0021-007 ...
elasticsearch red status fix 红色状态修复
问题描述: spring cloud项目有用到elasticsearch,启动时进行健康校验,发现es一直是down的,导致在eureka显示也是down 问题定位:查看actuator源码发现,如果 ...
Java三大特性(封装,继承,多态)
Java中有三大特性,分别是封装继承多态,其理念十分抽象,并且是层层深入式的. 一.封装概念:封装,即隐藏对象的属性和实现细节,仅对外公开接口,控制在程序中属性的读和修改的访问级别:将抽象得到的数据 ...
Jmeter简单介绍与搭配Jenkins实现自动化
Jmeter简介 Apache JMeter 是 Apache 组织开发的基于 Java 的压力测试工具.用于对软件做压力测试,它最初被设计用于 Web应用测试,但后来扩展到其他测试领域. 它可以用于 ...

使用storm分别进行计数和词频统计

计数

词频统计

使用storm分别进行计数和词频统计的更多相关文章

随机推荐

热门专题