strom：实时的WordCount

集采单词

package wordcount;

import java.io.File;

import java.io.IOException;

import java.util.Collection;

import java.util.List;

import java.util.Map;

import org.apache.commons.io.FileUtils;

import backtype.storm.spout.SpoutOutputCollector;

import backtype.storm.task.TopologyContext;

import backtype.storm.topology.OutputFieldsDeclarer;

import backtype.storm.topology.base.BaseRichSpout;

import backtype.storm.tuple.Fields;

import backtype.storm.tuple.Values;

/**

* @ClassName: DataSourceSpout

* @Description: TODO

* @author cheng

* @date 2017年12月12日 下午2:06:32

*收集数据源

*/

public class DataSourceSpout extends BaseRichSpout{

    private Map conf;

    private TopologyContext context;

    private SpoutOutputCollector collector;

    /* (non-Javadoc)

     * 运行时调用一次，初始化

     * conf获取配置参数，

     * collector：spout收集数据发送给blot

     */

    public void open(Map conf, TopologyContext context, SpoutOutputCollector collector) {

        this.collector=collector;

        this.conf=conf;

        this.context=context;

    }

//    读文件

    public void nextTuple() {

//        参数：目录位置，文件后缀，是否递归

        Collection<File> files = FileUtils.listFiles(new File("F:/安装/java工程/StormTest/data"),

                new String[]{"txt"},true);

//        Collection<File> files = FileUtils.listFiles(new File("/home/neworigin/Desktop/data"),

//                new String[]{"txt"},true);

//        遍历文件内容

        for(File file:files)

        {

            //按行来读

            try {

//                将读取的每行存放在List中

                List<String> lines = FileUtils.readLines(file);

//                把一行数据发送出去

                for(String line:lines)

                {

                    this.collector.emit(new Values(line));

                }

                Thread.sleep(1000);

//                防止文件被重复读，将读过的文件改名

                FileUtils.moveFile(file, new File(file.getAbsolutePath()+System.currentTimeMillis()));

            } catch (IOException e) {

                e.printStackTrace();

            } catch (InterruptedException e) {

                // TODO Auto-generated catch block

                e.printStackTrace();

            }

        }

    }

//声明输出的内容，告知blot，spout输出的内容

    public void declareOutputFields(OutputFieldsDeclarer declarer) {

        declarer.declare(new Fields("line"));//通过字段名称来获取字段内容

    }

    @Override

    public void close() {

        System.out.println("read close");

    }

}

处理单词（按空格拆分）

package wordcount;

import java.util.Map;

import backtype.storm.spout.SpoutOutputCollector;

import backtype.storm.task.OutputCollector;

import backtype.storm.task.TopologyContext;

import backtype.storm.topology.OutputFieldsDeclarer;

import backtype.storm.topology.base.BaseRichBolt;

import backtype.storm.tuple.Fields;

import backtype.storm.tuple.Tuple;

import backtype.storm.tuple.Values;

/**

* @ClassName: SplitBolt

* @Description: TODO

* @author cheng

* @date 2017年12月12日 下午2:28:25

*切分采集的数据

*/

public class SplitBolt extends BaseRichBolt{

    private Map conf;

    private TopologyContext context;

    private OutputCollector collector;

//调用一次，进行初始化

    public void prepare(Map conf, TopologyContext context, OutputCollector collector) {

        this.collector=collector;

        this.context=context;

        this.conf=conf;

    }

//    处理数据

    public void execute(Tuple input) {

//        根据字段获取每一行数据

        String line=input.getStringByField("line");

        String[] words = line.split(" ");

        for(String word:words )

        {

            //传递给下一个bolt

            this.collector.emit(new Values(word));

        }

    }

//声明输出的内容，告知下一个bolt这里输出的是什么

//    如果是最后一个bolt就不用声明字段名称

    public void declareOutputFields(OutputFieldsDeclarer declarer) {

        declarer.declare(new Fields("words"));

    }

}

对单词计数

package wordcount;

import java.util.HashMap;

import java.util.Map;

import backtype.storm.task.OutputCollector;

import backtype.storm.task.TopologyContext;

import backtype.storm.topology.OutputFieldsDeclarer;

import backtype.storm.topology.base.BaseRichBolt;

import backtype.storm.tuple.Tuple;

public class CountBolt extends BaseRichBolt{

    private Map conf;

    private TopologyContext context;

    private OutputCollector collector;

//调用一次，进行初始化

    public void prepare(Map conf, TopologyContext context, OutputCollector collector) {

        this.collector=collector;

        this.context=context;

        this.conf=conf;

    }

    int testnum=0;

    int i=0;

HashMap<String,Integer> hashmap=new HashMap<String,Integer>();

    public void execute(Tuple input) {

//        获取每一个单词

        String word = input.getStringByField("words");

//        对所有单词进行汇总

        Integer num = hashmap.get(word);//根据key来获取value

        if(num==null)

        {

            num=0;

        }

        num++;

        hashmap.put(word, num);

//        System.out.println("---------"+testnum++);

//        遍历map，输出键值对

        System.out.println("执行countBolt的exec"+i++);

        for(Map.Entry<String, Integer> entry:hashmap.entrySet())

        {

            System.out.println("word="+entry.getKey()+":number="+entry.getValue()+"---------"+testnum++);

        }

    }

//最后一个bolt，不用声明

    public void declareOutputFields(OutputFieldsDeclarer declarer) {

    }

}

联合运行

package wordcount;

import backtype.storm.Config;

import backtype.storm.LocalCluster;

import backtype.storm.StormSubmitter;

import backtype.storm.generated.AlreadyAliveException;

import backtype.storm.generated.InvalidTopologyException;

import backtype.storm.topology.BoltDeclarer;

import backtype.storm.topology.TopologyBuilder;

import backtype.storm.tuple.Fields;

import clojure.main;

public class WordCount {

    public static void main(String[] args) throws InterruptedException, AlreadyAliveException, InvalidTopologyException {

        TopologyBuilder builder=new TopologyBuilder();

        builder.setSpout("spout_id", new DataSourceSpout(),4);//默认只有一个，给个4设置并发度（多线程执行），还以在最后面设置numtask（task的数量，默认每个executor执行已task）

        builder.setBolt("bolt_1", new SplitBolt()).shuffleGrouping("spout_id");//因为有多个bolt需要指定上一个步骤

        BoltDeclarer declarer = builder.setBolt("bolt_2", new CountBolt()).fieldsGrouping("bolt_1",new Fields("words"));//指定上一个bolt并按words相同的bolt分到同一个task

//        设置在本地运行

        LocalCluster cluster = new LocalCluster();

        Config config = new Config();

        config.setNumWorkers(2);//设置worker的数量

        cluster.submitTopology("topology", config, builder.createTopology());

    }

}

strom：实时的WordCount的更多相关文章

Spark练习之通过Spark Streaming实时计算wordcount程序
Spark练习之通过Spark Streaming实时计算wordcount程序 Java版本 Scala版本 pom.xml Java版本 import org.apache.spark.Spark ...
50、Spark Streaming实时wordcount程序开发
一.java版本 package cn.spark.study.streaming; import java.util.Arrays; import org.apache.spark.SparkCon ...
Flink简介及使用
一.Flink概述官网:https://flink.apache.org/ mapreduce-->maxcompute HBase-->部门 quickBI DataV Hive--& ...
Flink+kafka实现Wordcount实时计算
1. Flink Flink介绍: Flink 是一个针对流数据和批数据的分布式处理引擎.它主要是由 Java 代码实现.目前主要还是依靠开源社区的贡献而发展.对 Flink 而言,其所要处理的主要场 ...
55、Spark Streaming:updateStateByKey以及基于缓存的实时wordcount程序
一.updateStateByKey 1.概述 SparkStreaming 7*24 小时不间断的运行,有时需要管理一些状态,比如wordCount,每个batch的数据不是独立的而是需要累加的,这 ...
52、Spark Streaming之输入DStream之基础数据源以及基于HDFS的实时wordcount程序
一.概述 1.Socket:之前的wordcount例子,已经演示过了,StreamingContext.socketTextStream() 2.HDFS文件基于HDFS文件的实时计算,其实就是, ...
输入DStream之基础数据源以及基于HDFS的实时wordcount程序
输入DStream之基础数据源以及基于HDFS的实时wordcount程序一.Java方式二.Scala方式基于HDFS文件的实时计算,其实就是,监控一个HDFS目录,只要其中有新文件出现,就实 ...
开源分布式实时计算引擎 Iveely Computing 之 WordCount 详解(3)
WordCount是很多分布式计算中,最常用的例子,例如Hadoop.Storm,Iveely Computing也不例外.明白了WordCount在Iveely Computing上的运行原理,就很 ...
Hadoop平台提供离线数据和Storm平台提供实时数据流
1.准备工作 2.一个Storm集群的基本组件 3.Topologies 4.Stream 5.数据模型(Data Model) 6.一个简单的Topology 7.流分组策略(Stream grou ...

随机推荐

BZOJ2306: [Ctsc2011]幸福路径
Description 有向图 G有n个顶点 1, 2, -, n,点i 的权值为 w(i).现在有一只蚂蚁,从给定的起点 v0出发,沿着图 G 的边爬行.开始时,它的体力为 1.每爬过一条边,它 ...
Failed to execute goal org.apache.maven.plugins:maven-compiler-plugin:3.1:compile (default-compile) on project ppcloud-common: Compilation failure
本文为博主原创,未经允许不得转载: [INFO] Finished at: 2018-09-19T20:26:05+08:00[INFO] ------------------------------ ...
Javascript 高级程序设计（第3版） - 第01章
2017-05-10 js简介一个叫“不难登”的人发明的.js的流行是因为 ajax 的关系. js分为三个部分: 核心: ECMAScript 文档对象模型: DOM 浏览器对象模型: BOM 核 ...
-第3章 jQuery方法实现下拉菜单显示和隐藏
知识点 jquery 的引入方式本地下载引入在线引入 children 只获取子元素,不获取孙元素 show() 显示. hide() 隐藏. 完整代码 <!-- Author: XiaoW ...
CSS3实现鼠标移动到图片上图片变大（缓慢变大，有过渡效果，放大的过程是有动画过渡的，这个过渡的时间可以自定义）
转载自:http://blog.csdn.net/u014175572/article/details/51535768 CSS3的transform:scale()可以实现按比例放大或者缩小功能. ...
Integer的最大值
来自:https://blog.csdn.net/qq_33611068/article/details/77369050 有这样一道题: 编程测试,遍历 0 到 int所能表示最大的正数,将消耗的时 ...
opencv4.0 cuda10 编译速度太慢
opencv4.0 cuda10 对比不带cuda的时候,编译速度太慢,主要卡在cuda的编译上. 参考http://answers.opencv.org/question/5090/why-open ...
SpringMVC 处理Date类型数据@InitBinder @DateTimeFormat 注解的使用
使用SpringMVC的时候,需要将表单中的日期字符串转换成对应JavaBean的Date类型,而SpringMVC默认不支持这个格式的转换,解决方法有两种,如下: 方法一 . 在需要日期转换的Con ...
ubuntu下安装anaconda
1. 到官网http://continuum.io/downloads下载anaconda. 选择linux64-bit-python2.7 2. 安装anaconda,在终端输入:cd ~/Do ...
<%@page contentType="text/html;charset=gbk"%> 与 <meta http-equiv="Content-Type" content="text/html; charset=GBK">区别
前一个是在服务端起作用,是告诉应用服务器采用何种编码输出JSP文件流, 后一个是在客户端起作用,是告诉浏览器是采用何种编码方式显示HTML页面

strom：实时的WordCount

strom：实时的WordCount的更多相关文章

随机推荐

热门专题