Storm wordcount Read from file

source code:

package stormdemo;

import java.io.BufferedReader;

import java.io.BufferedWriter;

import java.io.FileNotFoundException;

import java.io.FileReader;

import java.io.FileWriter;

import java.io.IOException;

import java.util.HashMap;

import java.util.Map;

import backtype.storm.Config;

import backtype.storm.LocalCluster;

import backtype.storm.StormSubmitter;

import backtype.storm.spout.SpoutOutputCollector;

import backtype.storm.task.TopologyContext;

import backtype.storm.topology.BasicOutputCollector;

import backtype.storm.topology.OutputFieldsDeclarer;

import backtype.storm.topology.TopologyBuilder;

import backtype.storm.topology.base.BaseBasicBolt;

import backtype.storm.topology.base.BaseRichSpout;

import backtype.storm.tuple.Fields;

import backtype.storm.tuple.Tuple;

import backtype.storm.tuple.Values;

public class WordCountTopology {

  public static class WordReader extends BaseRichSpout {

        private static final long serialVersionUID = 1L;

        private SpoutOutputCollector collector;

        private FileReader fileReader;

        private boolean completed = false;

        public void ack(Object msgId) {

            System.out.println("OK:"+msgId);

        }

        public void close() {}

        public void fail(Object msgId) {

            System.out.println("FAIL:"+msgId);

        }

        /**The only thing that the methods will do It is emit each  file line*/

        public void nextTuple() {

            /**

             * The nextuple it is called forever, so if we have been readed the file

             * we will wait and then return

             */

            if(completed){

                try {

                    Thread.sleep(1000);

                } catch (InterruptedException e) {

                    //Do nothing

                }

                return;

            }

            String str;

            //Open the reader

            BufferedReader reader = new BufferedReader(fileReader);

            try{

                //Read all lines

                while((str = reader.readLine()) != null){

                    /**

                     * By each line emmit a new value with the line as a their

                     */

                    this.collector.emit(new Values(str),str);

                }

            }catch(Exception e){

                throw new RuntimeException("Error reading tuple",e);

            }finally{

                completed = true;

            }

        }

        /**

         * We will create the file and get the collector object

         */

        public void open(@SuppressWarnings("rawtypes") Map conf, TopologyContext context,

                SpoutOutputCollector collector) {

            try {

                this.fileReader = new FileReader(conf.get("wordsFile").toString());

            } catch (FileNotFoundException e) {

                throw new RuntimeException("Error reading file ["+conf.get("wordsFile")+"]");

            }

            this.collector = collector;

        }

        /**

         * Declare the output field "line"

         */

        public void declareOutputFields(OutputFieldsDeclarer declarer) {

            declarer.declare(new Fields("line"));

        }

    }

  public static class WordNormalizer extends BaseBasicBolt {

  private static final long serialVersionUID = 3L;

        public void cleanup() {}

        public void execute(Tuple input, BasicOutputCollector collector) {

            String sentence = input.getString(0);

            String[] words = sentence.split(" ");

            for(String word : words){

                word = word.trim();

                if(!word.isEmpty()){

                    word = word.toLowerCase();

                    collector.emit(new Values(word));

                }

            }

        }

        /**

         * The bolt will only emit the field "word"

         */

        public void declareOutputFields(OutputFieldsDeclarer declarer) {

            declarer.declare(new Fields("word"));

        }

    }

  public static class WordCount extends BaseBasicBolt {

    private static final long serialVersionUID = 2L;

    Map<String, Integer> counts = new HashMap<String, Integer>();

    BufferedWriter output = null;

    public void execute(Tuple tuple, BasicOutputCollector collector) {

      String word = tuple.getString(0);

      Integer count = counts.get(word);

      if (count == null)

        count = 0;

      count++;

      counts.put(word, count);

      //collector.emit(new Values(word, count));

      try {

          output = new BufferedWriter(new FileWriter("/home/hadoop/wordcounts.txt",false ));

          } catch (IOException e) {

              e.printStackTrace();

            try {

                   output.close();

                } catch (IOException e1) {  e1.printStackTrace();  }

       }

      for(Map.Entry<String, Integer> entry : counts.entrySet()){

          try {

            output.write(entry.getKey()+": "+entry.getValue());

            output.newLine();

            output.flush();

        } catch (IOException e) {

            e.printStackTrace();

        }

  }

    }

     public void declareOutputFields(OutputFieldsDeclarer declarer) {

      declarer.declare(new Fields("word", "count"));

    }

  }

  public static void  main(String[] args) throws Exception {

    TopologyBuilder builder = new TopologyBuilder();

    builder.setSpout("spout", new WordReader());

    builder.setBolt("split", new WordNormalizer()).shuffleGrouping("spout");

    builder.setBolt("count", new WordCount()).globalGrouping("split");

    Config conf = new Config();

    conf.put("wordsFile", args[0]);

    conf.setDebug(false);

    //Topology run

     if (args != null && args.length > 1) {

        conf.setNumWorkers(2);

        StormSubmitter.submitTopology(args[1], conf, builder.createTopology());

    }

    else {

        conf.put(Config.TOPOLOGY_MAX_SPOUT_PENDING, 1);

        LocalCluster cluster = new LocalCluster();

        cluster.submitTopology("wordcount", conf, builder.createTopology());

        Thread.sleep(1000);

        cluster.shutdown();

    }

  }

}

start zookeeper.(zkServer.sh start at namenode,datanode01,datanode02)

start storm nimbus at namenode.

start storm supervisor at datanode01 and datanode02;

at namenode:

cd /home/hadoop/workspace

cd /stormsample

mvn install

storm jar storm-example-0.0.1-SNAPSHOT.jar stormdemo.WordCountTopology /home/hadoop/wordinput.txt wordcount

first, you should prepare text file for the source, I put one txt file wordinput.txt in datanode01 /02 /home/hadoop/.

after running job, I found wordcount.txt at datanode01 node.

Storm wordcount Read from file的更多相关文章

3、SpringBoot 集成Storm wordcount
WordCountBolt public class WordCountBolt extends BaseBasicBolt { private Map<String,Integer> c ...
[Storm] java.io.FileNotFoundException: File '../stormconf.ser' does not exist
This bug will kill supervisors Affects Version/s: 0.9.2-incubating, 0.9.3, 0.9.4 Fix Version/s: 0.10 ...
Storm WordCount
特别注意,在本地运行的时候应该去掉<scope>provided</scope>,否则会报java.lang.ClassNotFoundException: org.apach ...
Storm WordCount Topology学习
1,分布式单词计数的流程首先要有数据源,在SentenceSpout中定义了一个字符串数组sentences来模拟数据源.字符串数组中的每句话作为一个tuple发射.其实,SplitBolt接收Se ...
Storm入门（四）WordCount示例
一.关联代码使用maven,代码如下. pom.xml 和Storm入门(三)HelloWorld示例相同 RandomSentenceSpout.java /** * Licensed to t ...
基于Storm的WordCount
Storm WordCount 工作过程 Storm 版本: 1.Spout 从外部数据源中读取数据,随机发送一个元组对象出去: 2.SplitBolt 接收 Spout 中输出的元组对象,将元组中的 ...
storm教程
二.安装部署一.storm伪分布式安装 (一)环境准备1.OS:debian 72.JDK 7.0 (二)安装zookeeper1.下载zookeeper并解压 wget http://mirr ...
Storm之路-WordCount-实例
初学storm,有不足的地方还请纠正. 网上看了很多wordcount实例,发现都不是我想要的. 实现场景:统计shengjing.txt词频到集合,一次打印结果. ● 消息源Spout 继承Base ...
Storm实现单词计数
package com.mengyao.storm; import java.io.File; import java.io.IOException; import java.util.Collect ...

随机推荐

具有timeout 功能的函数调用
做项目的时候有时经常会需要一个带有timeout功能的函数调用. 比如从后台读数据并期望在给定时间内返回.借此机会包装了一个简单的C# class, 直接上代码吧. public class Time ...
重新想象 Windows 8 Store Apps (46) - 多线程之线程同步: Lock, Monitor, Interlocked, Mutex, ReaderWriterLock
[源码下载] 重新想象 Windows 8 Store Apps (46) - 多线程之线程同步: Lock, Monitor, Interlocked, Mutex, ReaderWriterLoc ...
与众不同 windows phone (39) - 8.0 联系人和日历
[源码下载] 与众不同 windows phone (39) - 8.0 联系人和日历作者:webabcd 介绍与众不同 windows phone 8.0 之联系人和日历自定义联系人存储的增删 ...
javascript: detect mobile devices or browser
http://detectmobilebrowsers.com/ http://hgoebl.github.io/mobile-detect.js/ http://www.hand-interacti ...
mysql 数据类型，字符集
数据类型 1,数值类型2,字符串类型3,日期和时间4,ENUM和SET5,几何数据类型数据类型选项 unsigned 无负值 zerofill 数值显示有影响,会前置0来填充不 ...
ButterKnife
1.简介 ButterKnife是注解中相对简单易懂的很不错的开源框架 1.强大的View绑定和Click事件处理功能,简化代码,提升开发效率 2.方便的处理Adapter里的ViewHolder绑定 ...
css超出2行部分省略号...
今天做东西,遇到了这个问题,百度后总结得到了这个结果. 首先,要知道css的三条属性. overflow:hidden; //超出的文本隐藏 text-overflow:ellipsis; //溢出用 ...
jQuery UI resizble、draggable的div包含iframe导致缩放和拖拽的不平滑解决方法
前言不仅仅是jQuery UI resizble的div包含iframe会导致缩放的不平滑,draggable也会出现包含iframe会导致拖放的不平滑,但是因为jQuery UI有为draggab ...
参加：白帽子活动-赠三星(SAMSUNG) PRO....
参加:白帽子活动-—赠三星(SAMSUNG) PRO.... Everybody~小i在这里提前祝大家国庆假期愉快,咱们期待已久的国庆活动终于开始拉,下面进入正题,恩,很正的题! 活动地址:http: ...
SharePoint 使用代码为页面添加WebPart
传统的SharePoint实施中,我们通常会创建SharePoint页面,然后添加webpartzone,而后在上面添加webpart:但是有些情况下,也要求我们使用代码,将webpart添加到相应w ...

Storm wordcount Read from file

Storm wordcount Read from file的更多相关文章

随机推荐

热门专题