MapReduce分区和排序

一、排序

排序：

需求：根据用户每月使用的流量按照使用的流量多少排序

接口-->WritableCompareable

    排序操作在hadoop中属于默认的行为。默认按照字典殊勋排序。

排序的分类：

    1）部分排序

    2）全排序

    3）辅助排序

    4）二次排序

Combiner 合并

    父类Reducer

    局部汇总 ，减少网络传输量 ，进而优化程序。

    注意：求平均值？

    3  5  7  2  6

    mapper: (3 + 5 + 7)/3 = 5

            (2 + 6)/2 = 4

    reducer:(5+4)/2

    只能应用在不影响最终业务逻辑的情况下

二、分区和排序实例

1.Mapper类

package com.css.flowsort;

import java.io.IOException;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Mapper;

public class FlowSortMapper extends Mapper<LongWritable, Text, FlowBean, Text>{

    @Override

    protected void map(LongWritable key, Text value, Context context)

            throws IOException, InterruptedException {

        // 1.获取一行数据

        String line = value.toString();

        // 2.切割

        String[] fields = line.split("\t");

        // 3.取出关键字段

        long upFlow = Long.parseLong(fields[1]);

        long dfFlow = Long.parseLong(fields[2]);

        // 4.写出到reducer阶段

        context.write(new FlowBean(upFlow, dfFlow), new Text(fields[0]));

    }

}

2.Reducer类

package com.css.flowsort;

import java.io.IOException;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Reducer;

public class FlowSortReducer extends Reducer<FlowBean, Text, Text, FlowBean>{

    @Override

    protected void reduce(FlowBean key, Iterable<Text> value, Context context)

            throws IOException, InterruptedException {

        context.write(value.iterator().next(), key);

    }

}

3.封装类

package com.css.flowsort;

import java.io.DataInput;

import java.io.DataOutput;

import java.io.IOException;

import org.apache.hadoop.io.WritableComparable;

// 封装类 直接完成排序

public class FlowBean implements WritableComparable<FlowBean> {

    // 定义属性

    private long upFlow;

    private long dfFlow;

    private long flowSum;

    // 无参构造

    public FlowBean() {

    }

    // 有参构造

    public FlowBean(long upFlow,long dfFlow){

        this.upFlow = upFlow;

        this.dfFlow = dfFlow;

        this.flowSum = upFlow + dfFlow;

    }

    public long getUpFlow() {

        return upFlow;

    }

    public void setUpFlow(long upFlow) {

        this.upFlow = upFlow;

    }

    public long getDfFlow() {

        return dfFlow;

    }

    public void setDfFlow(long dfFlow) {

        this.dfFlow = dfFlow;

    }

    public long getFlowSum() {

        return flowSum;

    }

    public void setFlowSum(long flowSum) {

        this.flowSum = flowSum;

    }

    // 反序列化

    @Override

    public void readFields(DataInput in) throws IOException {

        upFlow = in.readLong();

        dfFlow = in.readLong();

        flowSum = in.readLong();

    }

    // 序列化

    @Override

    public void write(DataOutput out) throws IOException {

        out.writeLong(upFlow);

        out.writeLong(dfFlow);

        out.writeLong(flowSum);

    }

    @Override

    public String toString() {

        return upFlow + "\t" + dfFlow + "\t" + flowSum;

    }

    // 排序

    @Override

    public int compareTo(FlowBean o) {

        // 倒序

        return this.flowSum > o.getFlowSum() ? -1 : 1;

    }

}

4.自定义分区类

package com.css.flowsort;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Partitioner;

public class FlowSortPartitioner extends Partitioner<FlowBean, Text>{

    // 根据手机号前三位进行分区

    @Override

    public int getPartition(FlowBean key, Text value, int numPartitions) {

        // 获取手机号前三位

        String phoneNum = value.toString().substring(0, 3);

        // 分区

        int partitioner = 4;

        if ("135".equals(phoneNum)) {

            return 0;

        }else if ("137".equals(phoneNum)) {

            return 1;

        }else if ("138".equals(phoneNum)) {

            return 2;

        }else if ("139".equals(phoneNum)) {

            return 3;

        }

        return partitioner;

    }

}

5.Driver类

package com.css.flowsort;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class FlowSortDriver {

    public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {

        // 1.获取job信息

        Configuration conf = new Configuration();

        Job job = Job.getInstance(conf);

        // 2.获取jar包

        job.setJarByClass(FlowSortDriver.class);

        // 3.获取自定义的mapper与reducer类

        job.setMapperClass(FlowSortMapper.class);

        job.setReducerClass(FlowSortReducer.class);

        // 4.设置map输出的数据类型

        job.setMapOutputKeyClass(FlowBean.class);

        job.setMapOutputValueClass(Text.class);

        // 5.设置reduce输出的数据类型（最终的数据类型）

        job.setOutputKeyClass(Text.class);

        job.setOutputValueClass(FlowBean.class);

        //添加自定义分区

        job.setPartitionerClass(FlowSortPartitioner.class);

        job.setNumReduceTasks(5);

        // 6.设置输入存在的路径与处理后的结果路径

        FileInputFormat.setInputPaths(job, new Path("c:/flow1024/in"));

        FileOutputFormat.setOutputPath(job, new Path("c:/flow1024/out1"));

        // 7.提交任务

        boolean rs = job.waitForCompletion(true);

        System.out.println(rs ? 0 : 1);

    }

}

6.输入的文件part-r-00000

13480253104    120    1320    1440

13502468823    735    11349    12084

13510439658    1116    954    2070

13560436326    1136    94    1230

13560436666    1136    94    1230

13560439658    918    4938    5856

13602846565    198    910    1108

13660577991    660    690    1350

13719199419    240    0    240

13726130503    299    681    980

13726238888    2481    24681    27162

13760778710    120    120    240

13822544101    264    0    264

13884138413    4116    1432    5548

13922314466    3008    3720    6728

13925057413    11058    4243    15301

13926251106    240    0    240

13926435656    132    1512    1644

15013685858    369    338    707

15889002119    938    380    1318

15920133257    316    296    612

18212575961    1527    2106    3633

18320173382    9531    212    9743

7.如果第5步Driver类中的红色部分去掉，则输出全局排序后的文件part-r-00000

13726238888    2481    24681    27162

13925057413    11058    4243    15301

13502468823    735    11349    12084

18320173382    9531    212    9743

13922314466    3008    3720    6728

13560439658    918    4938    5856

13884138413    4116    1432    5548

18212575961    1527    2106    3633

13510439658    1116    954    2070

13926435656    132    1512    1644

13480253104    120    1320    1440

13660577991    660    690    1350

15889002119    938    380    1318

13560436326    1136    94    1230

13560436666    1136    94    1230

13602846565    198    910    1108

13726130503    299    681    980

15013685858    369    338    707

15920133257    316    296    612

13822544101    264    0    264

13760778710    120    120    240

13719199419    240    0    240

13926251106    240    0    240

8.如果第5步Driver类中的红色部分不去掉，则输出分区加排序后的文件

（1）part-r-00000

13502468823    735    11349    12084

13560439658    918    4938    5856

13510439658    1116    954    2070

13560436666    1136    94    1230

13560436326    1136    94    1230

（2）part-r-00001

13726238888    2481    24681    27162

13726130503    299    681    980

13760778710    120    120    240

13719199419    240    0    240

（3）part-r-00002

13884138413    4116    1432    5548

13822544101    264    0    264

（4）part-r-00003

13925057413    11058    4243    15301

13922314466    3008    3720    6728

13926435656    132    1512    1644

13926251106    240    0    240

（5）part-r-00004

18320173382    9531    212    9743

18212575961    1527    2106    3633

13480253104    120    1320    1440

13660577991    660    690    1350

15889002119    938    380    1318

13602846565    198    910    1108

15013685858    369    338    707

15920133257    316    296    612

MapReduce分区和排序的更多相关文章

Hadoop Mapreduce分区、分组、二次排序过程详解[转]
原文地址:Hadoop Mapreduce分区.分组.二次排序过程详解[转]作者: 徐海蛟教学用途 1.MapReduce中数据流动 (1)最简单的过程: map - reduce (2) ...
Hadoop Mapreduce分区、分组、二次排序
1.MapReduce中数据流动 (1)最简单的过程: map - reduce (2)定制了partitioner以将map的结果送往指定reducer的过程: map - partiti ...
Hadoop Mapreduce分区、分组、二次排序过程详解
转载:http://blog.tianya.cn/m/post.jsp?postId=53271442 1.MapReduce中数据流动 (1)最简单的过程: map - reduce (2)定制了 ...
Hadoop学习笔记—11.MapReduce中的排序和分组
一.写在之前的 1.1 回顾Map阶段四大步骤首先,我们回顾一下在MapReduce中,排序和分组在哪里被执行: 从上图中可以清楚地看出,在Step1.4也就是第四步中,需要对不同分区中的数据进行排 ...
(转)MapReduce二次排序
一.概述 MapReduce框架对处理结果的输出会根据key值进行默认的排序,这个默认排序可以满足一部分需求,但是也是十分有限的.在我们实际的需求当中,往往有要对reduce输出结果进行二次排序的需求 ...
mapreduce二次排序详解
什么是二次排序待排序的数据具有多个字段,首先对第一个字段排序,再对第一字段相同的行按照第二字段排序,第二次排序不破坏第一次排序的结果,这个过程就称为二次排序. 如何在mapreduce中实现二次排序 ...
详细讲解MapReduce二次排序过程
我在15年处理大数据的时候还都是使用MapReduce, 随着时间的推移, 计算工具的发展, 内存越来越便宜, 计算方式也有了极大的改变. 到现在再做大数据开发的好多同学都是直接使用spark, hi ...
Hadoop【MR的分区、排序、分组】
[toc] 一.分区问题:按照条件将结果输出到不同文件中自定义分区步骤 1.自定义继承Partitioner类,重写getPartition()方法 2.在job驱动Driver中设置自定义的Pa ...
Hadoop学习笔记： MapReduce二次排序
本文给出一个实现MapReduce二次排序的例子 package SortTest; import java.io.DataInput; import java.io.DataOutput; impo ...

随机推荐

IBM MQ 2035 或 2013认证错误的解决方法
第一种方法: ALTER CHL(SYSTEM.BKR.CONFIG) CHLTYPE(SVRCONN) ALTER CHL(SYSTEM.ADMIN.SVRCONN) CHLTYPE(SVRCONN ...
PHP——分页显示数据库内容
test.php <?php header("Content-Type:text/html;charset=utf-8"); //加载分页类 include "pa ...
数据库 proc编程五
#define _CRT_SECURE_NO_WARNINGS #include <stdio.h> #include <stdlib.h> #include <stri ...
C++继承具体解释之二——派生类成员函数具体解释（函数隐藏、构造函数与兼容覆盖规则）
在这一篇文章開始之前.我先解决一个问题. 在上一篇C++继承详解之中的一个--初探继承中,我提到了在派生类中能够定义一个与基类成员函数同名的函数,这样派生类中的函数就会覆盖掉基类的成员函数. 在谭浩强 ...
ssh免密码登录的几个注意事项
1, authorized_keys文件中每个公钥占一行,不能分成多行. 2,文件夹默认权限为600 3,如果遇到奇怪的问题,可以把.ssh/文件全部删掉,重新用ssh-keygen生成.
配置sudo su
买了UCloud的机器默认给的是root权限,从安全考虑,这个得改改,那就添加一个普通用户吧.. 可是那群民工又有话说了,得有root权限才能启动那些服务进程,每次都要输入root密码才能切换到roo ...
深入理解JS之Scope链
JS被很多人认为是『拙劣的语言』,被这门语言里的各种离奇的事情整的团团转,这篇文章主要来讲讲JS中的Scope链,其主要是影响JS中的变量作用域. 注:本文适合稍有一定JS基础的同学目录: 初步认识 ...
Leetcode: Anagrams(颠倒字母而成的字)
题目 Given an array of strings, return all groups of strings that are anagrams. Note: All inputs will ...
kafka对比RocketMQ（转）
淘宝内部的交易系统使用了淘宝自主研发的Notify消息中间件,使用Mysql作为消息存储媒介,可完全水平扩容,为了进一步降低成本,我们认为存储部分可以进一步优化,2011年初,Linkin开源了Kaf ...
PMP十大知识领域整理
2018-7-28至2018-12-8历时4个多月,学写了PMP(拍马屁),感觉自己经历了,哇-唉-哦-嗯这四个阶段刚开始觉得如遇圣经,被PMP的知识体系和老师的精彩课程深深震撼! 后来觉得很多东西 ...

MapReduce分区和排序

MapReduce分区和排序的更多相关文章

随机推荐

热门专题