Storm wordcount Read from file

source code:

package stormdemo;

import java.io.BufferedReader;

import java.io.BufferedWriter;

import java.io.FileNotFoundException;

import java.io.FileReader;

import java.io.FileWriter;

import java.io.IOException;

import java.util.HashMap;

import java.util.Map;

import backtype.storm.Config;

import backtype.storm.LocalCluster;

import backtype.storm.StormSubmitter;

import backtype.storm.spout.SpoutOutputCollector;

import backtype.storm.task.TopologyContext;

import backtype.storm.topology.BasicOutputCollector;

import backtype.storm.topology.OutputFieldsDeclarer;

import backtype.storm.topology.TopologyBuilder;

import backtype.storm.topology.base.BaseBasicBolt;

import backtype.storm.topology.base.BaseRichSpout;

import backtype.storm.tuple.Fields;

import backtype.storm.tuple.Tuple;

import backtype.storm.tuple.Values;

public class WordCountTopology {

  public static class WordReader extends BaseRichSpout {

        private static final long serialVersionUID = 1L;

        private SpoutOutputCollector collector;

        private FileReader fileReader;

        private boolean completed = false;

        public void ack(Object msgId) {

            System.out.println("OK:"+msgId);

        }

        public void close() {}

        public void fail(Object msgId) {

            System.out.println("FAIL:"+msgId);

        }

        /**The only thing that the methods will do It is emit each  file line*/

        public void nextTuple() {

            /**

             * The nextuple it is called forever, so if we have been readed the file

             * we will wait and then return

             */

            if(completed){

                try {

                    Thread.sleep(1000);

                } catch (InterruptedException e) {

                    //Do nothing

                }

                return;

            }

            String str;

            //Open the reader

            BufferedReader reader = new BufferedReader(fileReader);

            try{

                //Read all lines

                while((str = reader.readLine()) != null){

                    /**

                     * By each line emmit a new value with the line as a their

                     */

                    this.collector.emit(new Values(str),str);

                }

            }catch(Exception e){

                throw new RuntimeException("Error reading tuple",e);

            }finally{

                completed = true;

            }

        }

        /**

         * We will create the file and get the collector object

         */

        public void open(@SuppressWarnings("rawtypes") Map conf, TopologyContext context,

                SpoutOutputCollector collector) {

            try {

                this.fileReader = new FileReader(conf.get("wordsFile").toString());

            } catch (FileNotFoundException e) {

                throw new RuntimeException("Error reading file ["+conf.get("wordsFile")+"]");

            }

            this.collector = collector;

        }

        /**

         * Declare the output field "line"

         */

        public void declareOutputFields(OutputFieldsDeclarer declarer) {

            declarer.declare(new Fields("line"));

        }

    }

  public static class WordNormalizer extends BaseBasicBolt {

  private static final long serialVersionUID = 3L;

        public void cleanup() {}

        public void execute(Tuple input, BasicOutputCollector collector) {

            String sentence = input.getString(0);

            String[] words = sentence.split(" ");

            for(String word : words){

                word = word.trim();

                if(!word.isEmpty()){

                    word = word.toLowerCase();

                    collector.emit(new Values(word));

                }

            }

        }

        /**

         * The bolt will only emit the field "word"

         */

        public void declareOutputFields(OutputFieldsDeclarer declarer) {

            declarer.declare(new Fields("word"));

        }

    }

  public static class WordCount extends BaseBasicBolt {

    private static final long serialVersionUID = 2L;

    Map<String, Integer> counts = new HashMap<String, Integer>();

    BufferedWriter output = null;

    public void execute(Tuple tuple, BasicOutputCollector collector) {

      String word = tuple.getString(0);

      Integer count = counts.get(word);

      if (count == null)

        count = 0;

      count++;

      counts.put(word, count);

      //collector.emit(new Values(word, count));

      try {

          output = new BufferedWriter(new FileWriter("/home/hadoop/wordcounts.txt",false ));

          } catch (IOException e) {

              e.printStackTrace();

            try {

                   output.close();

                } catch (IOException e1) {  e1.printStackTrace();  }

       }

      for(Map.Entry<String, Integer> entry : counts.entrySet()){

          try {

            output.write(entry.getKey()+": "+entry.getValue());

            output.newLine();

            output.flush();

        } catch (IOException e) {

            e.printStackTrace();

        }

  }

    }

     public void declareOutputFields(OutputFieldsDeclarer declarer) {

      declarer.declare(new Fields("word", "count"));

    }

  }

  public static void  main(String[] args) throws Exception {

    TopologyBuilder builder = new TopologyBuilder();

    builder.setSpout("spout", new WordReader());

    builder.setBolt("split", new WordNormalizer()).shuffleGrouping("spout");

    builder.setBolt("count", new WordCount()).globalGrouping("split");

    Config conf = new Config();

    conf.put("wordsFile", args[0]);

    conf.setDebug(false);

    //Topology run

     if (args != null && args.length > 1) {

        conf.setNumWorkers(2);

        StormSubmitter.submitTopology(args[1], conf, builder.createTopology());

    }

    else {

        conf.put(Config.TOPOLOGY_MAX_SPOUT_PENDING, 1);

        LocalCluster cluster = new LocalCluster();

        cluster.submitTopology("wordcount", conf, builder.createTopology());

        Thread.sleep(1000);

        cluster.shutdown();

    }

  }

}

start zookeeper.(zkServer.sh start at namenode,datanode01,datanode02)

start storm nimbus at namenode.

start storm supervisor at datanode01 and datanode02;

at namenode:

cd /home/hadoop/workspace

cd /stormsample

mvn install

storm jar storm-example-0.0.1-SNAPSHOT.jar stormdemo.WordCountTopology /home/hadoop/wordinput.txt wordcount

first, you should prepare text file for the source, I put one txt file wordinput.txt in datanode01 /02 /home/hadoop/.

after running job, I found wordcount.txt at datanode01 node.

Storm wordcount Read from file的更多相关文章

3、SpringBoot 集成Storm wordcount
WordCountBolt public class WordCountBolt extends BaseBasicBolt { private Map<String,Integer> c ...
[Storm] java.io.FileNotFoundException: File '../stormconf.ser' does not exist
This bug will kill supervisors Affects Version/s: 0.9.2-incubating, 0.9.3, 0.9.4 Fix Version/s: 0.10 ...
Storm WordCount
特别注意,在本地运行的时候应该去掉<scope>provided</scope>,否则会报java.lang.ClassNotFoundException: org.apach ...
Storm WordCount Topology学习
1,分布式单词计数的流程首先要有数据源,在SentenceSpout中定义了一个字符串数组sentences来模拟数据源.字符串数组中的每句话作为一个tuple发射.其实,SplitBolt接收Se ...
Storm入门（四）WordCount示例
一.关联代码使用maven,代码如下. pom.xml 和Storm入门(三)HelloWorld示例相同 RandomSentenceSpout.java /** * Licensed to t ...
基于Storm的WordCount
Storm WordCount 工作过程 Storm 版本: 1.Spout 从外部数据源中读取数据,随机发送一个元组对象出去: 2.SplitBolt 接收 Spout 中输出的元组对象,将元组中的 ...
storm教程
二.安装部署一.storm伪分布式安装 (一)环境准备1.OS:debian 72.JDK 7.0 (二)安装zookeeper1.下载zookeeper并解压 wget http://mirr ...
Storm之路-WordCount-实例
初学storm,有不足的地方还请纠正. 网上看了很多wordcount实例,发现都不是我想要的. 实现场景:统计shengjing.txt词频到集合,一次打印结果. ● 消息源Spout 继承Base ...
Storm实现单词计数
package com.mengyao.storm; import java.io.File; import java.io.IOException; import java.util.Collect ...

随机推荐

windbg学习进阶之——dump分析常用命令收集
#重要说明 (1) windbg命令分为标准命令,元命令和扩展命令. 标准命令提供最基本的调试功能,不区分大小写.如:bp g dt dv k等元命令提供标准命令没有提供的功能,也内建在调试 ...
重新想象 Windows 8 Store Apps (51) - 输入: 涂鸦板
[源码下载] 重新想象 Windows 8 Store Apps (51) - 输入: 涂鸦板作者:webabcd 介绍重新想象 Windows 8 Store Apps 之涂鸦板通过 Poin ...
【NOIP训练】【数论】超级计算机
题目描述有以下几个问题:1 给定正整数求方程的最小非负整数解.2 给定正整数求方程的最小非负整数解.3 给定正整数求方程在模意义下解的数量.4 给定正整数求的值.其中 ...
mysql启用慢日志查询
查询超时时间:long_query_time 启动慢查日志:log_slow_queries={YES|NO} 启动慢查日志 : slow_query_log ...
ArrayList等常见集合的排序问题
对于ArrayList等常用的集合具体业务类,基本上都实现了Comparable接口,即可以用来比较装载的对象实体. 主要用Collections.sort方法对集合类中的对象进行排序 Collect ...
django使用笔记
django的具体使用可以看官方手册http://djangobook.py3k.cn,这里主要记录使用django中遇到的问题. 1.中文编码问题. 因为我们用到的东西基本上都有中文,在settin ...
javascript --- 子对象访问父对象的方式
在传统面向对象的编程语言里,都会提供一种子类访问父类的特殊语法,引文我们在实现子类方法往往需要父类方法的额外辅助.在这种情况下,子类通常会调用父类中的同名方法,最终以便完成工作. javascript ...
任意类型转换为IntPtr
之前,将数组.结构体等转换为IntPtr使用的是Marshal.Copy().Marshal.StructureToPtr(),但是有个问题自定义的结构体数组没法这样转化,一般网上给出的解决方法就是通 ...
ABAP常用函数集锦
函数名描述 SD_VBAP_READ_WITH_VBELN 根据销售订单读取表vbap中的信息EDIT_LINES 把READ_TEXT返回的LINES中的行按照TDFORMAT=“*”重新组织VI ...
Atitit.json xml 序列化循环引用解决方案json
Atitit.json xml 序列化循环引用解决方案json 1. 循环引用1 2. 序列化循环引用解决方法1 2.1. 自定义序列化器1 2.2. 排除策略1 2.3. 设置序列化层次,一般3级别 ...

Storm wordcount Read from file

Storm wordcount Read from file的更多相关文章

随机推荐

热门专题