WordCount是很多分布式计算中,最常用的例子,例如Hadoop、Storm,Iveely Computing也不例外。明白了WordCount在Iveely Computing上的运行原理,就很容易写出新的分布式程序。上一篇中已经知道了如何部署Iveely Computing以及提交任务,现在我们将深入WordCount的代码。

       一、代码结构

图3-1

从图3-1中,可以看出,类WordCount中,有两个子类WordInput、WordOutput,以及一个主方法,WordCount.java即是一个Topology,里面至少包涵一个Input和Output(缺一不可,否则没有意义),以及main函数,main函数依然是Topology的入口函数。

现在问题来了,Input和Output到底是什么关系?还有Topology?

每一个Topology就是一个完整的任务链,可以包含多个Input,多个Output,Input的数据只能传递给一个或多个Output,Output只能将数据传递给一个或多个Output,从而形成一个完整的拓扑结构。

       二、Input 深入

Input是数据的产生源,通过类WordInput看下是如何产生数据,并传递给Output的。

public static class WordInput extends IInput {

        /**
* Output data to collector.
*/
private StreamChannel _channel; /**
* All sample words.
*/
private final String[] _words = new String[] { "welcome", "iveely", "computing", "0.9.0", "build", "by",
"liufanping", "thanks", "github.com" }; private int _index; @Override
public void start(HashMap<String, Object> conf, StreamChannel channel) {
// Here,must be initialize channel.
_channel = channel;
_index = _words.length - 1;
} @Override
public void declareOutputFields(FieldsDeclarer declarer) {
declarer.declare(new String[] { "word" }, new Integer[] { 0 });
} @Override
public void nextTuple() {
if (_index < 0) {
_channel.emitEnd();
} else {
for (int i = 0; i < 100; i++) {
_channel.emit(_words[_index]);
}
_index--;
}
} @Override
public void end() {
System.out.println(getName() + " finished.");
} @Override
public void toOutput() {
_channel.addOutputTo(new WordOutput());
}
}

函数讲解:

start函数 在执行此Input之前提前调用的函数,用户初始化等相关工作,类似于构造函数,对有数据输出的时候,一定要初始化channel。
declareOutputFields函数 用于声明输出的数据信息。
nextTuple函数 此函数将会被频繁调用,用于输出数据,利用channel.emit提交数据到output。
end函数 是在Input执行完毕之后,会执行的代码,类似于析构函数。
toOutput函数 是指定Input的数据输出到的Output。

上面代码中,必须注意的几个问题:

2.1  WordInput必须继承IInput。

2.2  Input中,必须在start中初始化channel,因为input一定会产生数据。

2.3  Input中,toOutput函数中,必须指定数据流向。

      三、Output深入

Output是数据的处理单元,也可以是新数据的产生单元。

public static class WordOutput extends IOutput {

        private TreeMap<String, Integer> _map;

        @Override
public void start(HashMap<String, Object> conf, StreamChannel channel) {
_map = new TreeMap<>();
} @Override
public void declareOutputFields(FieldsDeclarer declarer) {
declarer.declare(new String[] { "word", "totalCount" }, null);
} @Override
public void execute(Tuple tuple) {
String word = tuple.get(0).toString();
if (_map.containsKey(word)) {
int currentCount = _map.get(word);
_map.put(word, currentCount + 1);
} else {
_map.put(word, 1);
}
} @Override
public void end() {
// Output map to database or print.
Iterator<String> it = _map.keySet().iterator();
while (it.hasNext()) {
String key = it.next();
int value = _map.get(key);
System.out.println(getName() + ":" + key + "," + value);
}
} @Override
public void toOutput() { }
}

与Input相比,output中没有nextTuple函数,而是取而代之的execute函数。nextTuple是产生数据,execute是处理数据。如果execute处理完毕之后的数据也需要提交到新的output中去,则需要在execute中利用channel.emit方法提交数据,此刻toOutput中也需要指定数据流向。

此处也需要注意几个问题:

3.1 如果output需要继续传递数据,则需要在start中初始化channel。

3.2 如果当前output接受的数据源来自不同的input,且数据格式不统一,则需要自行判断数据格式,例如传递数组中,第一个用int标识是什么样的数据格式。

       四、main函数

main函数,依然是Topology的执行入口,不同的是,它有两种执行方式,一个是本地模式,一个是远程执行模式。本地模式是用于调试用。

public static void main(String[] args) {
TopologyBuilder builder = new TopologyBuilder(true, WordCount.class.getName(), "WordCount");
builder.setInput(new WordInput(), 1);
builder.setOutput(new WordOutput(), 4);
builder.setSlave(2);
TopologySubmitter.submit(builder, args);
}

main函数中,主要做的工作。

4.1 新建TopologyBuilder对象,并在构造函数的第一个参数指定当前是本地模式(true)还是远程模式(false),第二个参数,指定执行的类名,第三个参数,当前Topology的名称。

4.2 设定input和output。并指定运行的数量比(线程)。

4.3 指定在多少个节点上运行(进程)。

4.4 利用TopologySubmitter提交任务即可。

4.5 注意:在生成jar提交到服务器上运行时,一定要将TopologyBuilder的第一个参数改为远程模式(false)。

开源分布式实时计算引擎 Iveely Computing 之 WordCount 详解(3)的更多相关文章

  1. 开源分布式实时计算引擎 Iveely Computing 之 安装部署(2)

          在Github中下载代码和二进制程序中,您都会看到一个bin\iveely computing目录,里面即是Iveely Computing的运行库.              以前总是有 ...

  2. 开源分布式实时计算引擎 Iveely Computing 之 本地调试Topology(4)

    当我们写完一个比较复杂的Topology之后,倘若直接提交到服务器上运行,难免会有很多问题,如何进行本地的调试Topology,是我们非常关心的问题.我们依然以WordCount作为代码示例. 首先, ...

  3. JStorm 是一个分布式实时计算引擎

    alibaba/jstorm JStorm 是一个分布式实时计算引擎. JStorm 是一个类似Hadoop MapReduce的系统, 用户按照指定的接口实现一个任务,然后将这个任务递交给JStor ...

  4. 基于Kafka的实时计算引擎如何选择?Flink or Spark?

    1.前言 目前实时计算的业务场景越来越多,实时计算引擎技术及生态也越来越成熟.以Flink和Spark为首的实时计算引擎,成为实时计算场景的重点考虑对象.那么,今天就来聊一聊基于Kafka的实时计算引 ...

  5. 基于Kafka的实时计算引擎如何选择?(转载)

    1.前言 目前实时计算的业务场景越来越多,实时计算引擎技术及生态也越来越成熟.以Flink和Spark为首的实时计算引擎,成为实时计算场景的重点考虑对象.那么,今天就来聊一聊基于Kafka的实时计算引 ...

  6. 一文让你彻底了解大数据实时计算引擎 Flink

    前言 在上一篇文章 你公司到底需不需要引入实时计算引擎? 中我讲解了日常中常见的实时需求,然后分析了这些需求的实现方式,接着对比了实时计算和离线计算.随着这些年大数据的飞速发展,也出现了不少计算的框架 ...

  7. (第8篇)实时可靠的开源分布式实时计算系统——Storm

    摘要: 在Hadoop生态圈中,针对大数据进行批量计算时,通常需要一个或者多个MapReduce作业来完成,但这种批量计算方式是满足不了对实时性要求高的场景.那Storm是怎么做到的呢? 博主福利 给 ...

  8. Spark Streaming——Spark第一代实时计算引擎

    虽然SparkStreaming已经停止更新,Spark的重点也放到了 Structured Streaming ,但由于Spark版本过低或者其他技术选型问题,可能还是会选择SparkStreami ...

  9. 《大数据实时计算引擎 Flink 实战与性能优化》新专栏

    基于 Flink 1.9 讲解的专栏,涉及入门.概念.原理.实战.性能调优.系统案例的讲解. 专栏介绍 扫码下面专栏二维码可以订阅该专栏 首发地址:http://www.54tianzhisheng. ...

随机推荐

  1. Support for AMD usage of jwplayer (require js)

    使用require js 模块化代码时,其中播放器用的是jwplayer7.x 然后载入jwplayer.js后总是报license无效(license已经加入),最后在jwplayer官网论坛里找到 ...

  2. mysql连接其他表删除某个表的数据

    delete a from TableA a left join TableB b on a.XX = b.YY left join TableC c on c.ZZ = a.XX where 条件

  3. Linux / OS X 实用命令

    具体可用参数还是用man指令查方便一点,在此不一一列出 图片来自imooc 磁盘相关: df 查看硬盘分区情况,实例 df -h du 查看文件大小情况 du -s /Directory 用户/用户组 ...

  4. 关于volatile和synchronized

    这个可能是最好的对比volatile和synchronized作用的文章了.volatile是一个变量修饰符,而synchronized是一个方法或块的修饰符.所以我们使用这两种关键字来指定三种简单的 ...

  5. MongoDB配置多个ConfigDB的问题(笔记)

    由于在部署集群之前没有做好的规划,在集群中只有一个configserver和一个mongos.网上都推荐多个configserver,本人在使用的过程中发现在启动mongos进程时,congfigdb ...

  6. HTML常用文本元素

    HTML是超文本标记语言,它提供网页的具体内容,包括文本.表单.图像.表格.链接.多媒体.列表等.其中文本是我们遇到的最多的展示内容.正确的使用文本标签,会使页面具有语义化,也有利于SEO. 文本标签 ...

  7. hdu-4811 Ball

    题目链接: Ball Time Limit: 2000/1000 MS (Java/Others)    Memory Limit: 32768/32768 K (Java/Others)Total ...

  8. UVALive 6092 Catching Shade in Flatland --枚举+几何计算

    题意:x=[-200,200],y=[-200,200]的平面,一天中太阳从不同角度射到长椅(原点(0,0))上,有一些树(用圆表示),问哪个时刻(分钟为单位)太阳光线与这些圆所交的弦长总和最长.太阳 ...

  9. AC日记——信息传递 洛谷 P2661 (tarjan求环)

    题目描述 有n个同学(编号为1到n)正在玩一个信息传递的游戏.在游戏里每人都有一个固定的信息传递对象,其中,编号为i的同学的信息传递对象是编号为Ti同学. 游戏开始时,每人都只知道自己的生日.之后每一 ...

  10. Linux下利用CGroup控制CPU、内存以及IO的操作记录

    CGroup及其子系统的介绍在这里就不赘述了,可以参考:Linux下CGroup使用说明梳理废话不多说,这里记录下利用CGroup控制CPU.内存以及IO的操作记录: libcgroup工具安装这里以 ...