Storm手写WordCount

建立一个maven项目，在pom.xml中进行如下配置：

<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"

    xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">

    <modelVersion>4.0.0</modelVersion>

    <groupId>cn.darrenchan</groupId>

    <artifactId>StormDemo</artifactId>

    <version>0.0.1-SNAPSHOT</version>

    <name>StormDemo</name>

    <dependencies>

        <dependency>

            <groupId>org.apache.storm</groupId>

            <artifactId>storm-core</artifactId>

            <version>0.9.5</version>

            <!--<scope>provided</scope> -->

        </dependency>

    </dependencies>

    <build>

        <plugins>

            <plugin>

                <artifactId>maven-assembly-plugin</artifactId>

                <configuration>

                    <descriptorRefs>

                        <descriptorRef>jar-with-dependencies</descriptorRef>

                    </descriptorRefs>

                    <archive>

                        <manifest>

                            <mainClass>cn.itcast.bigdata.hadoop.mapreduce.wordcount.WordCount</mainClass>

                        </manifest>

                    </archive>

                </configuration>

                <executions>

                    <execution>

                        <id>make-assembly</id>

                        <phase>package</phase>

                        <goals>

                            <goal>single</goal>

                        </goals>

                    </execution>

                </executions>

            </plugin>

            <plugin>

                <groupId>org.apache.maven.plugins</groupId>

                <artifactId>maven-compiler-plugin</artifactId>

                <configuration>

                    <source>1.7</source>

                    <target>1.7</target>

                </configuration>

            </plugin>

        </plugins>

    </build>

</project>

项目目录为：

MySpout.java:

package cn.darrenchan.storm;

import java.util.Map;

import backtype.storm.spout.SpoutOutputCollector;

import backtype.storm.task.TopologyContext;

import backtype.storm.topology.OutputFieldsDeclarer;

import backtype.storm.topology.base.BaseRichSpout;

import backtype.storm.tuple.Fields;

import backtype.storm.tuple.Values;

public class MySpout extends BaseRichSpout {

    private SpoutOutputCollector collector;

    //storm框架不停地调用nextTuple方法
    //values继承ArrayList
    @Override

    public void nextTuple() {

        collector.emit(new Values("i am lilei love hanmeimei"));

    }

    //初始化方法

    @Override

    public void open(Map config, TopologyContext context, SpoutOutputCollector collector) {

        this.collector = collector;

    }

    //声明本spout组件发送出去的tuple中的数据的字段名

    @Override

    public void declareOutputFields(OutputFieldsDeclarer declarer) {

        declarer.declare(new Fields("love"));

    }

}

MySplitBolt.java:

package cn.darrenchan.storm;

import java.util.Map;

import backtype.storm.task.OutputCollector;

import backtype.storm.task.TopologyContext;

import backtype.storm.topology.OutputFieldsDeclarer;

import backtype.storm.topology.base.BaseRichBolt;

import backtype.storm.tuple.Fields;

import backtype.storm.tuple.Tuple;

import backtype.storm.tuple.Values;

public class MySplitBolt extends BaseRichBolt {

    private OutputCollector collector;

    //storm框架不停地调用，传入参数是tutle

    @Override

    public void execute(Tuple input) {

        String line = input.getString(0);

        String[] words = line.split(" ");

        for (String word : words) {
            //Values有两个，对应下面Fields有两个

            collector.emit(new Values(word, 1));

        }

    }

    //初始化方法

    @Override

    public void prepare(Map config, TopologyContext context, OutputCollector collector) {

        this.collector = collector;

    }

    @Override

    public void declareOutputFields(OutputFieldsDeclarer declarer) {
        //Fields有两个，对应上面Values有两个

        declarer.declare(new Fields("word", "num"));

    }

}

MyCountBolt.java:

package cn.darrenchan.storm;

import java.util.HashMap;

import java.util.Map;

import backtype.storm.task.OutputCollector;

import backtype.storm.task.TopologyContext;

import backtype.storm.topology.OutputFieldsDeclarer;

import backtype.storm.topology.base.BaseRichBolt;

import backtype.storm.tuple.Tuple;

public class MyCountBolt extends BaseRichBolt {

    private OutputCollector collector;

    private Map<String, Integer> map;

    @Override

    public void prepare(Map stormConf, TopologyContext context, OutputCollector collector) {

        this.collector = collector;

        map = new HashMap<String, Integer>();

    }

    @Override

    public void execute(Tuple input) {

        String word = input.getString(0);

        Integer num = input.getInteger(1);

        if(map.containsKey(word)){

            map.put(word, map.get(word) + num);

        } else {

            map.put(word, 1);

        }

        System.out.println(map);

    }

    @Override

    public void declareOutputFields(OutputFieldsDeclarer declarer) {

    }

}

WordCountTopoloyMain.java:

package cn.darrenchan.storm;

import backtype.storm.Config;

import backtype.storm.LocalCluster;

import backtype.storm.topology.TopologyBuilder;

import backtype.storm.tuple.Fields;

public class WordCountTopoloyMain {

    public static void main(String[] args) throws Exception {

        //1.准备一个TopologyBuilder

        TopologyBuilder builder = new TopologyBuilder();

        builder.setSpout("mySpout", new MySpout(), 1);

        builder.setBolt("mySplitBolt", new MySplitBolt(), 2).shuffleGrouping("mySpout");

        builder.setBolt("myCountBolt", new MyCountBolt(), 2).fieldsGrouping("mySplitBolt", new Fields("word"));

        //2.创建一个configuration，用来指定当前的topology需要的worker的数量

        Config config = new Config();

        config.setNumWorkers(4);

        //3.任务提交 两种模式————本地模式和集群模式

        //集群模式

        //StormSubmitter.submitTopology("myWordCount", config, builder.createTopology());

        //本地模式

        LocalCluster localCluster = new LocalCluster();

        localCluster.submitTopology("myWordCount", config, builder.createTopology());

    }

}

三种求wordcount方式比较：

整体运行架构图：

Storm手写WordCount的更多相关文章

如何用卷积神经网络CNN识别手写数字集？
前几天用CNN识别手写数字集,后来看到kaggle上有一个比赛是识别手写数字集的,已经进行了一年多了,目前有1179个有效提交,最高的是100%,我做了一下,用keras做的,一开始用最简单的MLP, ...
Hive手写SQL案例
1-请详细描述将一个有结构的文本文件student.txt导入到一个hive表中的步骤,及其关键字假设student.txt 有以下几列:id,name,gender三列 1-创建数据库 creat ...
【Win 10 应用开发】手写识别
记得前面(忘了是哪天写的,反正是前些天,请用力点击这里观看)老周讲了一个14393新增的控件,可以很轻松地结合InkCanvas来完成涂鸦.其实,InkCanvas除了涂鸦外,另一个大用途是墨迹识别, ...
JS / Egret 单笔手写识别、手势识别
UnistrokeRecognizer 单笔手写识别.手势识别 UnistrokeRecognizer : https://github.com/RichLiu1023/UnistrokeRecogn ...
【转】机器学习教程十四-利用tensorflow做手写数字识别
模式识别领域应用机器学习的场景非常多,手写识别就是其中一种,最简单的数字识别是一个多类分类问题,我们借这个多类分类问题来介绍一下google最新开源的tensorflow框架,后面深度学习的内容都会基 ...
caffe_手写数字识别Lenet模型理解
这两天看了Lenet的模型理解,很简单的手写数字CNN网络,90年代美国用它来识别钞票,准确率还是很高的,所以它也是一个很经典的模型.而且学习这个模型也有助于我们理解更大的网络比如Imagenet等等 ...
使用神经网络来识别手写数字【译】（三）- 用Python代码实现
实现我们分类数字的网络好,让我们使用随机梯度下降和 MNIST训练数据来写一个程序来学习怎样识别手写数字. 我们用Python (2.7) 来实现.只有 74 行代码!我们需要的第一个东西是 MNI ...
手写原生ajax
关于手写原生ajax重要不重要,各位道友自己揣摩吧, 本着学习才能进步,分享大家共同受益,自己也在自己博客里写一下 function createXMLHTTPRequest() { //1.创建XM ...
springmvc 动态代理 JDK实现与模拟JDK纯手写实现。
首先明白动态代理和静态代理的区别: 静态代理:①持有被代理类的引用 ② 代理类一开始就被加载到内存中了(非常重要) 动态代理:JDK中的动态代理中的代理类是动态生成的.并且生成的动态代理类为$Pr ...

随机推荐

authpuppy 认证服务器搭建
此文仅限于搭建authpuppy认证服务器,不包含认证插件等安装,仅说明步骤以备下次安装忘记步骤.耽误时间. 环境:ubuntu10.04 软件版本:authpuppy-1.0.0-stable.tg ...
javascript 闭包通俗解释
代码段 function foo(){ var a = 2; function bar(){ console.log(a); } return bar; } var baz = foo(); baz( ...
Android研究之为基于 x86 的 Android* 游戏选择合适的引擎具体解释
摘要游戏开发者知道 Android 中蕴藏着巨大的机遇. 在 Google Play 商店的前 100 款应用中,约一半是游戏应用(在利润最高的前 100 款应用中.它们所占的比例超过 90% ...
android源码相关网站
https://android.googlesource.com/ google的android源码网站 http://source.android.com/ android网站 git://code ...
Appium（JAVA）Windows 7系统搭建及示例运行
Appium(JAVA)Windows 7系统搭建及示例运行分类: Appium 2014-11-14 17:44 4323人阅读评论(2) 收藏举报 1.搭建Android环境 http:// ...
数据库-IO系统性能之衡量性能的几个指标
转自http://storage.it168.com/a2011/0323/1169/000001169755_all.shtml 作为一个数据库管理员,关注系统的性能是日常最重要的工作之一,而在所关 ...
LaTeX去掉默认显示日期时间
LaTeX去掉默认显示日期时间: \date{}
iOS8的一些控件的变更
UISearchDisplayController变更为UISearchController UIAlertView变更为UIAlertController 如果添加点击事件则需要使用UIAlertC ...
Bulk Load－HBase数据导入最佳实践
一.概述 HBase本身提供了非常多种数据导入的方式,通常有两种经常使用方式: 1.使用HBase提供的TableOutputFormat,原理是通过一个Mapreduce作业将数据导入HBase 2 ...
使用VS2012遇到的问题
问题1:VS2012 编译程序时:无法查找或打开PDB文件解决方法:调试-选项-符号-Microsoft符号服务器打钩,然后确定,就OK了. 问题2:按F5运行.c程序,dos窗口闪退解决方法:C ...

Storm手写WordCount

Storm手写WordCount的更多相关文章

随机推荐

热门专题