Hadoop【MR的分区、排序、分组】
[toc]
一.分区
问题:按照条件将结果输出到不同文件中
自定义分区步骤
1.自定义继承Partitioner类,重写getPartition()方法
2.在job驱动Driver中设置自定义的Partitioner
3.在Driver中根据分区数设置reducetask数
分区数和reducetask关系

案例实操
将统计结果按照手机归属地不同省份输出到不同文件中(分区),手机号136、137、138、139开头都分别放到一个独立的4个文件中,其他开头的放到一个文件中
(1)自定义分区类
MyPartitioner.class
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Partitioner;
public class MyPartioner extends Partitioner<Text, FlowBean> {
    @Override
    public int getPartition(Text text, FlowBean flowBean, int numPartitions) {
        String phone = text.toString();
        if (phone.startsWith("136")) {
            return 0;
        } else if (phone.startsWith("137")) {
            return 1;
        } else if (phone.startsWith("138")) {
            return 2;
        }else if (phone.startsWith("139")){
            return 3;
        }else {
            return 4;
        }
    }
}
(2)在Driver类设置分区和reducetask数
//设置自定义partitioner
job.setPartitionerClass(MyPartioner.class);
//设置reducetask数量
job.setNumReduceTasks(5);
二.全排序、分区排序、分组
当自定义的对象作为key,按照指定条件进行排序
实现排序的2种方式
1.对象实现WritableComparable接口
实现WritableComparable接口,重写compareTo方法,就可以实现排序(二次排序)
public class OrderBean implements WritableComparable<OrderBean> { 
    //自定义排序,先按pid升序,再按pname降序
    @Override
    public int compareTo(OrderBean o) {
        int compare = this.pid.compareTo(o.pid);
        if (compare == 0) {
            return -this.pname.compareTo(o.pname);
        }
        return compare;
    }
}
2.继承WritableComparator类
自定义比较器继承WritableComparator类,父类构造方法增加需要比较的Bean对象,
//继承WritableComparator类
public class MyGroupCompartor extends WritableComparator {
    public MyGroupCompartor(){
		//增加Bean对象
        super(OrderBean.class,true);
    }
	// 对Bean的排序方法
    @Override
    public int compare(WritableComparable a, WritableComparable b) {
        OrderBean oa = (OrderBean) a;
        OrderBean ob = (OrderBean) b;
        return oa.getPid().compareTo(ob.getPid());
    }
}
全排序
不分区,只有一个reducetask,针对Key进行排序
分区排序
针对key全排序,然后针对key进行分区
辅助排序【自定义分组】
分析:已经对key进行排序,比如key对象为OrderBean的排序是id,pname的二次排序
,在进入reduce()的分组希望是id相同的进入一组,那么就需要自定义分组针对id进行分组
OrderBean
id		pname  amount
1		小米
1				 2400
1            1500
2		华为
2				2400
2           3400
自定义分组比较器
MyGroupCompartor.class
import org.apache.hadoop.io.WritableComparable;
import org.apache.hadoop.io.WritableComparator;
public class MyGroupCompartor extends WritableComparator {
    public MyGroupCompartor(){
        super(OrderBean.class,true);
    }
    @Override
    public int compare(WritableComparable a, WritableComparable b) {
        OrderBean oa = (OrderBean) a;
        OrderBean ob = (OrderBean) b;
        return oa.getPid().compareTo(ob.getPid());
    }
}
在Driver类中声明自定义分组
job.setGroupingComparatorClass(MyGroupCompartor.class);
Hadoop【MR的分区、排序、分组】的更多相关文章
- Hadoop Mapreduce分区、分组、二次排序过程详解[转]
		原文地址:Hadoop Mapreduce分区.分组.二次排序过程详解[转]作者: 徐海蛟 教学用途 1.MapReduce中数据流动 (1)最简单的过程: map - reduce (2) ... 
- 2  weekend110的hadoop的自定义排序实现  + mr程序中自定义分组的实现
		我想得到按流量来排序,而且还是倒序,怎么达到实现呢? 达到下面这种效果, 默认是根据key来排, 我想根据value里的某个排, 解决思路:将value里的某个,放到key里去,然后来排 下面,开始w ... 
- Hadoop Mapreduce分区、分组、二次排序
		1.MapReduce中数据流动 (1)最简单的过程: map - reduce (2)定制了partitioner以将map的结果送往指定reducer的过程: map - partiti ... 
- Hadoop Mapreduce分区、分组、二次排序过程详解
		转载:http://blog.tianya.cn/m/post.jsp?postId=53271442 1.MapReduce中数据流动 (1)最简单的过程: map - reduce (2)定制了 ... 
- Hadoop日记Day18---MapReduce排序分组
		本节所用到的数据下载地址为:http://pan.baidu.com/s/1bnfELmZ MapReduce的排序分组任务与要求 我们知道排序分组是MapReduce中Mapper端的第四步,其中分 ... 
- 9.2.3 hadoop reduce端连接-分区分组聚合
		1.1.1 reduce端连接-分区分组聚合 reduce端连接则是利用了reduce的分区功能将stationid相同的分到同一个分区,在利用reduce的分组聚合功能,将同一个st ... 
- 【Hadoop】Hadoop MR 自定义分组 Partition机制
		1.概念 2.Hadoop默认分组机制--所有的Key分到一个组,一个Reduce任务处理 3.代码示例 FlowBean package com.ares.hadoop.mr.flowgroup; ... 
- 【Hadoop】Hadoop MR 自定义排序
		1.概念 2.代码示例 FlowSort package com.ares.hadoop.mr.flowsort; import java.io.IOException; import org.apa ... 
- Hadoop MapReduce 二次排序原理及其应用
		关于二次排序主要涉及到这么几个东西: 在0.20.0 以前使用的是 setPartitionerClass setOutputkeyComparatorClass setOutputValueGrou ... 
随机推荐
- Vue3学习(十)之 页面、菜单、路由的使用
			一.前言 好几天没更文了,周末真的太冷了,在家躺了一天不爱动.今天给暖气了,相对不那么冷了,就可以继续更文了. 由文章标题不难看出,就是实现点击菜单跳转的意思,我写的很直白了,哈哈. 二.实现点击菜单 ... 
- 什么是操作系统fork()进程
			1.fork()是创建进程函数. 2.c程序一开始,就会产生 一个进程,当这个进程执行到fork()的时候,会创建一个子进程. 3.此时父进程和子进程是共存的,它们俩会一起向下执行c程序的代码. 4. ... 
- 单自由度系统中质量、阻尼和刚度变化对频率响应函数(FRF)影响图的绘制
			作者:赵兵 日期:2020-02-17 目录 单自由度系统中质量.阻尼和刚度变化对频率响应函数(FRF)影响图的绘制 1. 背景 2. VISIO绘制 3. Matlab绘制 ... 
- Git - git push origin master 报错的解决方法
			亲测实用,转载保存,原文地址:https://blog.csdn.net/kangvcar/article/details/72773904 错误提示如下: [root@linux1 php]# gi ... 
- vue中this.$set的用法
			之前了解这个方法的时候,感觉这一辈子也用不到这个方法,因为当时没有应用场景,但是还真有用的时候,我相信你们也有用到时候. 从三个方面给大家说一下这个this.$set: 1.this.$set实现什么 ... 
- wm_concat结果长度限制的有关问题 ORA-06502: PL/SQL: 数字或值错误
			该函数作用是把列值合并(用英文逗号分割),但是数量有限制,返回的字符数上线是4000(oracle11g),超过会报错,听说oracle版本到 11.2.0.2.0 或以上返回的是clob类型,长度就 ... 
- Effective C++ 总结笔记(二)
			二.构造/析构/赋值运算 05.了解C++默默编写并调用那些函数 如果自己不声明, 编译器就会暗自为class创建一个default构造函数.一个copy构造函数.一个copy assignment操 ... 
- [cf1495E]Qingshan and Daniel
			选择其中卡片总数较少的一类,当相同时选择$t_{1}$所对应的一类(以下记作$A$类) 如果$t_{1}$不是$A$类,就先对$t_{1}$操作一次(即令$a_{1}$减少1) 下面,问题即不断删去$ ... 
- [atARC112E]Rvom and Rsrev
			毒瘤分类讨论题 (注:以下情况都有"之前的情况都不满足的"前提条件,并用斜体表示一些说明) Case0:若$|s|\le 2$,直接输出即可,因此假设$|s|>3$ 首先,我 ... 
- [luogu5163]WD与地图
			将删边改为插边,如果是无向图直接线段树合并即可,考虑如何将有向边转换为无向边 令$t_{i}$表示当插入到第$t_{i}$条边时恰好满足$x_{i}$与$y_{i}$在同一个强连通分量中,然后分类讨论 ... 
