reduce累加实现

　　与map端的模式类似，map端要重写Mapper方法，reduce端也要重写Reduce方法，这里有一个泛型，我们先看参数类型

分别对应输入keyin,valuein,keyout,valueout.。

　　这里前两个参数：keyin，valueint就是map端处理以后的键值对。map端的逻辑我们已经写完了，在那个阶段，我们设置了以手机号为key，一个bean对象为value的键值对。但是map端还有其他的处理逻辑，设置完键值对以后，map还要把相同key的数据放在一起，打上分区标志（如果有分区的话），然后把相同分区的数据分发（shuffle）一个reduce里面。比如我们的原始数据有这么两个手机号：

13726230503112 00-FD-07-A4-72-B8:CMCC 120.196.100.82 i02.c.aliimg.com 24 27 2481 24681 200

13726230503112 5C-0E-8B-C7-F7-90:CMCC 120.197.40.4 rank.ie.sogou.com 搜索引擎 28 27 3659 3538 200，

　　map端处理完以后，分发到reduce的数据格式是这样一个map集合：

map(

key:13726230503112

value{

　　phoneNumber:13726230503112 ,upFlow:2481 downFlow:24681 ,sumFlow:27162

　　phoneNumber:13726230503112 ,upFlow:3659 downFlow:3538 ,sumFlow:7179

}

)

reduce代码：

package MR.phone;

import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

import java.io.IOException;

public class FlowReduce extends Reducer<Text,PhoneBean,Text,PhoneBean> {
    @Override
    protected void reduce(Text key, Iterable<PhoneBean> values, Reducer<Text, PhoneBean, Text, PhoneBean>.Context context) throws IOException, InterruptedException {
        //遍历所有的PnoneBean，将其上下行流量进行累加计算，计算完之后封装数据，写出
        long sum_upflow=0;
        long sum_downflow=0;
        long sum_flow=0;
        for (PhoneBean flow : values) {
            sum_upflow=sum_upflow+flow.getUpFlow();
            sum_downflow=sum_downflow+ flow.getDownFlow();
            sum_flow=sum_flow+flow.getSumFlow();
        }
        //封装数据，写出
        PhoneBean result_flow=new PhoneBean(sum_upflow,sum_downflow,sum_flow);
        context.write(key,result_flow);

    }
}

这里的代码逻辑计较简单，注意我们这里封装valueout的时候，用的有参构造，注意bean里面要有有参构造。但是整个一个map——shuffl——reduce过程基本就是这样了。现在回过头看map-reduce的流程图，会清晰很多。

现在剩下的问题就是搞个Driver（固定套路），测试一下我们的代码逻辑：

package MR.phone;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.io.IOException;

public class FlowDriver {
    public static void main(String[] args) throws IOException, InterruptedException, ClassNotFoundException {
        //1,获取配置信息，设置job
        Configuration conf = new Configuration();
        Job job = Job.getInstance(conf);

        //设置job
        job.setJarByClass(FlowDriver.class);

        //设置map
        job.setMapperClass(FlowMapper.class);
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(PhoneBean.class);

        //设置reduce
        job.setReducerClass(FlowReduce.class);
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(PhoneBean.class);

        //设置路径
        FileInputFormat.setInputPaths(job,new Path("D:\\bigadatapra\\phone_data.txt"));
        FileOutputFormat.setOutputPath(job,new Path("D:\\bigadatapra\\output041801"));

        //提交job
        boolean result = job.waitForCompletion(true);

        System.exit(result?0:1);

    }

}

如果配置好本地Hadoop环境的话，直接运行main函数就能看见结果了。

reduce累加实现的更多相关文章

python 练习用python六剑客实现一个统计数字的个数，六剑客：（map、lambda、reduce、filter、切片、推到列表）
统计一共有几个数字 s="sdfa45ads46723" #lambda >>> filter(lambda x:x.isdigit(),list(s)) ['4 ...
第七十九篇：数组方法(forEach,some,every,reduce)
好家伙,来复习几个数组方法, 1.forEach循环与some循环代码如下: <script> const arr =['奔驰','宝马','GTR','奥迪'] //forEach循环 ...
python test
#!/usr/bin/env python #-*- encoding: utf- -*- ''' def foo(name): print name, '去砍柴' foo('yangshanlei: ...
Python序列函数、高级特性及高阶函数
序列函数: enumerate: for循环时记录索引,逐个返回元组(i, item) sorted:返回新的有序列表 zip:压缩将多个序列的对应位置的元素组成元组 zip(*元组列表): 解压缩 ...
使用javascript模拟常见数据结构（一）
数据结构和算法可算是每个程序员的必备技能,而随着前端工作的深入,对于数据结构的知识真的是越来越需要掌握了.好了,于是乎最近看了<javascript数据结构和算法>,算是对于后面的使用C语 ...
simrank
simrank 背景度量相似度是许多应用的关键问题.传统方法与问题的领域相关,如文本匹配.计算交集.simrank则利用关联关系度量相似性,即"两个节点的相似性和各自邻域节点的相似度有关& ...
ES5拓展
一.JSON拓展 1.JSON.parse(str,fun):将JSON字符串转为js对象两个参数:str表示要处理的字符串:fun处理函数,函数有两个参数,属性名.属性值 // 定义json字符串 ...
numpy_basic3
矩陣矩阵是numpy.matrix类类型的对象,该类继承自numpy.ndarray,任何针对多维数组的操作,对矩阵同样有效,但是作为子类矩阵又结合其自身的特点,做了必要的扩充,比如:乘法计算.求逆 ...
js数组的遍历(API)
1.for 循环普通遍历方法,可优化,存下数组的length,避免每次都去获取数组的length,性能提升 for(var i=0;i<arr.length;i++){ console.log ...

随机推荐

使用client-go实现自定义控制器
使用client-go实现自定义控制器介绍我们已经知道,Service对集群之外暴露服务的主要方式有两种:NodePort和LoadBalancer,但是这两种方式,都有一定的缺点: NodePo ...
「VMware校园挑战赛」小V的和式
Description 给定 $n,m$ ,求 \[\sum\limits_{x_1=1}^{n}\sum\limits_{x_2=1}^{n}\sum\limits_{y_1=1}^{m}\su ...
Centos6添加防火墙端口以及相关操作命令的使用
用命令 vim /etc/sysconfig/iptables 增加防火墙端口号:(添加你需要的端口号) service iptables start 启动防火墙 service iptables ...
【clickhouse专栏】新建库角色用户初始化
一.创建新的database clickhouse创建数据库的语法几乎和其他的关系型数据库是一样的,区别就是clickhouse存在集群cluster和库引擎engine的概念,可以根据需要进行指定. ...
Linux（Centos7）静默安装Oracle19C
Oracle数据库服务器一般都是Linux,Linux服务器一般都是在非图形界面的操作,本文章手把手教你如何在非图形界面安装Oracle19C. ORACLE 19C 的安装包自行在官网下载,下载免费 ...
rpm 系 linux 系统中 repo 文件中的 $release 到底等于多少？
rpm 系 linux 系统中 repo 文件中的 $release 到底等于多少? 结论对于 8 来说,通过以下命令 #/usr/libexec/platform-python -c 'impor ...
JVM学习笔记-从底层了解程序运行(一)
1:JVM基础知识什么是JVM 1. java虚拟机,跨语言的平台,实现java跨平台 2. 可以实现多种语言跨平台,只要该语言可以编译成.class文件 3. 解释执行.class文件 java是 ...
CSCMS代码审计
很久之前审的了. 文章首发于奇安信攻防社区 https://forum.butian.net/share/1626 0x00 前言 CSCMS是一款强大的多功能内容管理系统,采用php5+mysql进 ...
java类的学习
什么是类: 类=属性+方法属性来源于状态(以变量的形式存在):方法来源于动作: *属性对应的是数据,而数据只能存在变量中. 方法内的变量为局部变量:类体中的变量称为成员变量(也称为属性) java中 ...
BUUCTF-镜子里的世界
镜子里面的世界 16进制看了下没有东西,binwalk分离了一下也没发现其他的,使用stegsolve查看即可发现.

reduce累加实现

reduce累加实现的更多相关文章

随机推荐

热门专题