Mapreduce的排序（全局排序、分区加排序、Combiner优化）

一、MR排序的分类

　　1.部分排序：MR会根据自己输出记录的KV对数据进行排序，保证输出到每一个文件内存都是经过排序的；

　　2.全局排序；

　　3.辅助排序：再第一次排序后经过分区再排序一次；

　　4.二次排序：经过一次排序后又根据业务逻辑再次进行排序。

二、MR排序的接口——WritableComparable

　　该接口继承了Hadoop的Writable接口和Java的Comparable接口，实现该接口要重写write、readFields、compareTo三个方法。

三、流量统计案例的排序与分区

/**

 * @author: PrincessHug

 * @date: 2019/3/24, 15:36

 * @Blog: https://www.cnblogs.com/HelloBigTable/

 */

public class FlowSortBean implements WritableComparable<FlowSortBean> {

    private long upFlow;

    private long dwFlow;

    private long flowSum;

    public FlowSortBean() {

    }

    public FlowSortBean(long upFlow, long dwFlow) {

        this.upFlow = upFlow;

        this.dwFlow = dwFlow;

        this.flowSum = upFlow + dwFlow;

    }

    public long getUpFlow() {

        return upFlow;

    }

    public void setUpFlow(long upFlow) {

        this.upFlow = upFlow;

    }

    public long getDwFlow() {

        return dwFlow;

    }

    public void setDwFlow(long dwFlow) {

        this.dwFlow = dwFlow;

    }

    public long getFlowSum() {

        return flowSum;

    }

    public void setFlowSum(long flowSum) {

        this.flowSum = flowSum;

    }

    @Override

    public void write(DataOutput out) throws IOException {

        out.writeLong(upFlow);

        out.writeLong(dwFlow);

        out.writeLong(flowSum);

    }

    @Override

    public void readFields(DataInput in) throws IOException {

        upFlow = in.readLong();

        dwFlow = in.readLong();

        flowSum = in.readLong();

    }

    @Override

    public String toString() {

        return upFlow + "\t" + dwFlow + "\t" + flowSum;

    }

    @Override

    public int compareTo(FlowSortBean o) {

        return this.flowSum > o.getFlowSum() ? -1:1;

    }

}

public class FlowSortMapper extends Mapper<LongWritable, Text,FlowSortBean,Text> {

    @Override

    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {

        //获取数据

        String line = value.toString();

        //切分数据

        String[] fields = line.split("\t");

        //封装数据

        long upFlow = Long.parseLong(fields[1]);

        long dwFlow = Long.parseLong(fields[2]);

        //传输数据

        context.write(new FlowSortBean(upFlow,dwFlow),new Text(fields[0]));

    }

}

public class FlowSortReducer extends Reducer<FlowSortBean,Text,Text,FlowSortBean> {

    @Override

    protected void reduce(FlowSortBean key, Iterable<Text> values, Context context) throws IOException, InterruptedException {

        context.write(values.iterator().next(),key);

    }

}

public class FlowSortPartitioner extends Partitioner<FlowSortBean, Text> {

    @Override

    public int getPartition(FlowSortBean key, Text value, int i) {

        String phoneNum = value.toString().substring(0, 3);

        int partition = 4;

        if ("135".equals(phoneNum)){

            return 0;

        }else if ("137".equals(phoneNum)){

            return 1;

        }else if ("138".equals(phoneNum)){

            return 2;

        }else if ("139".equals(phoneNum)){

            return 3;

        }

        return partition;

    }

}

public class FlowSortDriver {

    public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {

        //设置配置，初始化Job类

        Configuration conf = new Configuration();

        Job job = Job.getInstance(conf);

        //设置执行类

        job.setJarByClass(FlowSortDriver.class);

        //设置Mapper、Reducer类

        job.setMapperClass(FlowSortMapper.class);

        job.setReducerClass(FlowSortReducer.class);

        //设置Mapper输出数据类型

        job.setMapOutputKeyClass(FlowSortBean.class);

        job.setMapOutputValueClass(Text.class);

        //设置Reducer输出数据类型

        job.setOutputKeyClass(Text.class);

        job.setOutputValueClass(FlowSortBean.class);

        //设置自定义分区

        job.setPartitionerClass(FlowSortPartitioner.class);

        job.setNumReduceTasks(5);

        //设置文件输入输出类型

        FileInputFormat.setInputPaths(job,new Path("G:\\mapreduce\\flow\\flowsort\\in"));

        FileOutputFormat.setOutputPath(job,new Path("G:\\mapreduce\\flow\\flowsort\\partitionout"));

        //提交任务

        if (job.waitForCompletion(true)){

            System.out.println("运行完成！");

        }else {

            System.out.println("运行失败！");

        }

    }

}

　　注意：再写Mapper类的时候，要注意KV对输出的数据类型，Key的类型一定要为FlowSortBean，因为在Mapper和Reducer之间进行的排序(只是排序)是通过Mapper输出的Key来进行排序的，而分区可以指定是通过Key或者Value。

四、Combiner合并

　　Combiner是在MR之外的一个组件，可以用来在maptask输出到环形缓冲区溢写之后，分区排序完成时进行局部的汇总，可以减少网络传输量，进而优化MR程序。

　　Combiner是用在当数据量到达一定规模之后的，小的数据量并不是很明显。

　　例如WordCount程序，当单词文件的大小到达一定程度，可以使用自定义Combiner进行优化：

public class WordCountCombiner extends Reducer<Text,IntWritable,Text,IntWritable>{

	protected void reduce(Text key,Iterable<IntWritable> values,Context context){

		//计数

		int count = 0;

		//累加求和

		for(IntWritable v:values){

			count += v.get();

		}

		//输出

		context.write(key,new IntWritable(count));

	}

}

　　然后再Driver类中设置使用Combiner类

job.setCombinerClass(WordCountCombiner.class);

　　如果仔细观察，WordCount的自定义Combiner类与Reducer类是完全相同的，因为他们的逻辑是相同的，即在maptask之后的分区内先进行一次累加求和，然后到reducer后再进行总的累加求和，所以在设置Combiner时也可以这样：

job.setCombinerClass(WordCountReducer.class);

　　注意：Combiner的应用一定要注意不能影响最终业务逻辑的情况下使用，比如在求平均值的时候：

　　mapper输出两个分区：3，5，7　　=>avg=5

　　　　　　　　　　　　2，6　　　　=>avg=4

　　reducer合并输出：　　5，4　　　 =>avg=4.5 但是实际应该为4.6，错误！

　　所以在使用Combiner时要注意其不会影响最中的结果！！！

Mapreduce的排序（全局排序、分区加排序、Combiner优化）的更多相关文章

MapReduce分区和排序
一.排序排序: 需求:根据用户每月使用的流量按照使用的流量多少排序接口-->WritableCompareable 排序操作在hadoop中属于默认的行为.默认按照字典殊勋排序. 排序的分类 ...
Hadoop【MR的分区、排序、分组】
[toc] 一.分区问题:按照条件将结果输出到不同文件中自定义分区步骤 1.自定义继承Partitioner类,重写getPartition()方法 2.在job驱动Driver中设置自定义的Pa ...
分页查询最好加排序（order by）
昨天,与外部化系统对接时,发现有一个数据一直咩有集成到,双方各自排查了自己系统的代码,都觉得逻辑非常简单,无法就是一个分页查询而已. 问题就出在这个分页查询上. 为了说明当时问题发生的情景,我模拟了一 ...
DataTable列查询加排序
DataTable列查询加排序 DataRow[] drArray = dt.Select("ANLYCOM_ID='" + chSPrdtStblAnly.AnlyComId + ...
【译】高级T-SQL进阶系列（七）【上篇】：使用排序函数对数据进行排序
[译注:此文为翻译,由于本人水平所限,疏漏在所难免,欢迎探讨指正] 原文链接:传送门. 什么是排序函数(Ranking Functions)? 排序函数基于一组记录的集合返回一个排序值.一个排序值其实 ...
Java冒泡排序、选择排序、插入排序、希尔排序、归并排序、快速排序
冒泡排序冒泡排序是一种简单的排序算法.它重复地走访过要排序地数列,一次比较两个元素,如果它们地顺序错误就把它们交换过来.走访数列地工作是重复地进行直到没有再需要交换,也就是说该数列已经排序完成. ...
备战秋招之十大排序——O(n^2)级排序算法
一.冒泡排序冒泡排序是入门级的算法,但也有一些有趣的玩法.通常来说,冒泡排序有三种写法: 一边比较一边向后两两交换,将最大值 / 最小值冒泡到最后一位: 经过优化的写法:使用一个变量记录当前轮次的比 ...
【排序算法】——冒泡排序、选择排序、插入排序、Shell排序等排序原理及Java实现
排序 1.定义: 所谓排序,即是整理文件中的内容,使其按照关键字递增或递减的顺序进行排列. 输入:n个记录,n1,n2--,其对应1的关键字为k1,k2-- 输出:n(i1),n(i2)--,使得k( ...
Jtable 表格按多列排序（支持中文汉字排序）
这两天公司让做一个Jtable表格的排序,首先按A列排序,在A列相等时按B列排序,B列相等时按C列排序,ABC三列可以任意指定,最多分三列,这样的一个需求.由于我是大神,所以必须做了出来.ok,不自恋 ...

随机推荐

Django自定义分页
分页自定义分页稳扎稳打版 def book(request): # 从URL取参数(访问的页码) page_num = request.GET.get("page") try: ...
洛谷P2257 YY的GCD 莫比乌斯反演
原题链接差不多算自己推出来的第一道题QwQ 题目大意 \(T\)组询问,每次问你\(1\leqslant x\leqslant N\),\(1\leqslant y\leqslant M\)中有多少 ...
pytest 9 pytest-datadir读取文件信息
安装:pip install pytest-datadir 介绍:用于操作测试数据目录和文件的插件.pytest-datadir他会寻找包含测试模块名字的文件夹或者全局的一个文件夹名字为data下的数 ...
Python并发编程之同步\异步and阻塞\非阻塞
一.什么是进程进程: 正在进行的一个过程或者说一个任务.而负责执行任务则是cpu. 进程和程序的区别: 程序仅仅只是一堆代码而已,而进程指的是程序的运行过程. 需要强调的是:同一个程序执行两次,那也 ...
Self-organizing Maps及其改进算法Neural gas聚类在异常进程事件识别可行性初探
catalogue . SOM简介 . SOM模型在应用中的设计细节 . SOM功能分析 . Self-Organizing Maps with TensorFlow . SOM在异常进程事件中自动分 ...
C#设计模式(17)——观察者模式
1.观察者模式介绍观察者模式又叫发布-订阅模式,它定义了对象间的一种一对多关系,当一个对象的状态发生改变时,所有依赖于它的对象都会收到通知并被自动更新.观察者模式就四个角色:抽象主题,具体主题,抽象 ...
Richard Sabey于2004年给出了由123456789各出现一次的e的估计
css实现移动端水平滚动导航
<!DOCTYPE html> <html> <head lang="en"> <meta charset="UTF-8&quo ...
svn 支持中文显示
https://blog.csdn.net/chentengkui/article/details/77543498 https://blog.csdn.net/bugall/article/deta ...
Spring系列(五) 容器初始化过程源码
IoC/DI 的概念容器是Spring的核心之一(另一个核心是AOP). 有了容器, IOC才可能实现. 什么使IoC? IoC就是将类自身管理的与其由依赖关系的对象的创建/关联和管理交予容器实现, ...

Mapreduce的排序（全局排序、分区加排序、Combiner优化）

Mapreduce的排序（全局排序、分区加排序、Combiner优化）的更多相关文章

随机推荐

热门专题