辅助排序和Mapreduce整体流程

一、辅助排序

　　需求：先有一个订单数据文件，包含了订单id、商品id、商品价格，要求将订单id正序，商品价格倒序，且生成结果文件个数为订单id的数量，每个结果文件中只要一条该订单最贵商品的数据。

　　思路：1.封装订单类OrderBean，实现WritableComparable接口；

　　　　　2.自定义Mapper类，确定输入输出数据类型，写业务逻辑；

　　　　　3.自定义分区，根据不同的订单id返回不同的分区值；

　　　　　4.自定义Reducer类；

　　　　　5.辅助排序类OrderGroupingComparator继承WritableComparator类，并定义无参构成方法、重写compare方法；

　　　　　6.书写Driver类；

　　代码如下：

/**

 * @author: PrincessHug

 * @date: 2019/3/25, 21:42

 * @Blog: https://www.cnblogs.com/HelloBigTable/

 */

public class OrderBean implements WritableComparable<OrderBean> {

    private int orderId;

    private double orderPrice;

    public OrderBean() {

    }

    public OrderBean(int orderId, double orderPrice) {

        this.orderId = orderId;

        this.orderPrice = orderPrice;

    }

    public int getOrderId() {

        return orderId;

    }

    public void setOrderId(int orderId) {

        this.orderId = orderId;

    }

    public double getOrderPrice() {

        return orderPrice;

    }

    public void setOrderPrice(double orderPrice) {

        this.orderPrice = orderPrice;

    }

    @Override

    public String toString() {

        return orderId + "\t" + orderPrice;

    }

    @Override

    public int compareTo(OrderBean o) {

        int rs ;

        if (this.orderId > o.getOrderId()){

            rs = 1;

        }else if (this.orderId < o.getOrderId()){

            rs = -1;

        }else {

            rs = (this.orderPrice > o.getOrderPrice()) ? -1:1;

        }

        return rs;

    }

    @Override

    public void write(DataOutput out) throws IOException {

        out.writeInt(orderId);

        out.writeDouble(orderPrice);

    }

    @Override

    public void readFields(DataInput in) throws IOException {

        orderId = in.readInt();

        orderPrice = in.readDouble();

    }

}

public class OrderMapper extends Mapper<LongWritable, Text,OrderBean, NullWritable> {

    @Override

    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {

        //获取数据

        String line = value.toString();

        //切割数据

        String[] fields = line.split("\t");

        //封装数据

        int orderId = Integer.parseInt(fields[0]);

        double orderPrice = Double.parseDouble(fields[2]);

        OrderBean orderBean = new OrderBean(orderId, orderPrice);

        //发送数据

        context.write(orderBean,NullWritable.get());

    }

}

public class OrderPartitioner extends Partitioner<OrderBean, NullWritable> {

    @Override

    public int getPartition(OrderBean orderBean, NullWritable nullWritable, int i) {

        //构造参数中i的值为reducetask的个数

        return (orderBean.getOrderId() & Integer.MAX_VALUE ) % i;

    }

}

public class OrderReducer extends Reducer<OrderBean, NullWritable,OrderBean,NullWritable> {

    @Override

    protected void reduce(OrderBean key, Iterable<NullWritable> values, Context context) throws IOException, InterruptedException {

        context.write(key,NullWritable.get());

    }

}

public class OrderGrouptingComparator extends WritableComparator {

    //必须使用super调用父类的构造方法来定义对比的类为OrderBean

    protected OrderGrouptingComparator(){

        super(OrderBean.class,true);

    }

    @Override

    public int compare(WritableComparable a, WritableComparable b) {

        OrderBean aBean = (OrderBean)a;

        OrderBean bBean = (OrderBean)b;

        int rs ;

        if (aBean.getOrderId() > bBean.getOrderId()){

            rs = 1;

        }else if (aBean.getOrderId() < bBean.getOrderId()){

            rs = -1;

        }else {

            rs = 0;

        }

        return rs;

    }

}

public class OrderDriver {

    public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {

        //配置信息，Job对象

        Configuration conf = new Configuration();

        Job job = Job.getInstance(conf);

        //执行类

        job.setJarByClass(OrderBean.class);

        //设置Mapper、Reducer类

        job.setMapperClass(OrderMapper.class);

        job.setReducerClass(OrderReducer.class);

        //设置Mapper输出数据类型

        job.setMapOutputKeyClass(OrderBean.class);

        job.setMapOutputValueClass(NullWritable.class);

        //设置Reducer输出数据类型

        job.setOutputKeyClass(OrderBean.class);

        job.setOutputValueClass(NullWritable.class);

        //设置辅助排序

        job.setGroupingComparatorClass(OrderGrouptingComparator.class);

        //设置分区类

        job.setPartitionerClass(OrderPartitioner.class);

        //设置reducetask数量

        job.setNumReduceTasks(3);

        //设置文件输入输出流

        FileInputFormat.setInputPaths(job,new Path("G:\\mapreduce\\order\\in"));

        FileOutputFormat.setOutputPath(job,new Path("G:\\mapreduce\\order\\out"));

        //提交任务

        if (job.waitForCompletion(true)){

            System.out.println("运行完成！");

        }else {

            System.out.println("运行失败！");

        }

    }

}

　　由于这是敲了很多次的代码，没有加太多注释，请谅解！

二、Mapreduce整体的流程

　　1.有一块200M的文本文件，首先将待处理的数据提交客户端；

　　2.客户端会向Yarn平台提交切片信息，然后Yarn计算出所需要的maptask的数量为2；

　　3.程序默认使用FileInputFormat的TextInputFormat方法将文件数据读到maptask；

　　4.maptask运行业务逻辑，然后将数据通过InputOutputContext写入到环形缓冲区；

　　5.环形缓冲区其实是内存开辟的一块空间，就是内存，当环形缓冲区内数据达到默认大小100M的80%时，发生溢写；

　　6.溢写出的数据会进行多次的分区排序(shuffle机制，下一个随笔详细解释)；

　　7.分区排序后的数据块可以选择进行Combiner合并，然后写入本地磁盘；

　　8.reducetask等maptask完全运行完毕后，开始从磁盘中读取maptask产出写出的数据，然后进行合并文件，归并排序(这时就是进行上面辅助排序的时候)；

　　9.Reducer一次读取一组数据，然后使用默认的TextOutputFormat方法将数据写出到结果文件。

辅助排序和Mapreduce整体流程的更多相关文章

hadoop MapReduce辅助排序解析
1.数据样本,w1.csv到w5.csv,每个文件数据样本2000条,第一列是年份从1990到2000随机,第二列数据从1-100随机,本例辅助排序目标是找出每年最大值,实际上结果每年最大就是100, ...
Hadoop案例（八）辅助排序和二次排序案例（GroupingComparator）
辅助排序和二次排序案例(GroupingComparator) 1.需求有如下订单数据订单id 商品id 成交金额 0000001 Pdt_01 222.8 0000001 Pdt_05 25.8 ...
(转)linux内存源码分析 - 内存回收(整体流程)
http://www.cnblogs.com/tolimit/p/5435068.html------------linux内存源码分析 - 内存回收(整体流程) 概述当linux系统内存压力就大时 ...
MapReduce-排序(全部排序、辅助排序)
排序排序是MapReduce的核心技术. 1.准备示例:按照气温字段对天气数据集排序.由于气温字段是有符号的整数,所以不能将该字段视为Text对象并以字典顺序排序.反之,用顺序文件存储数据,其In ...
MapReduce基本流程与设计思想初步
1.MapReduce是什么? MapReduce是一种编程模型,用于大规模数据集的并行运算.它借用了函数式的编程概念,是Google发明的一种数据处理模型. 主要思想为:Map(映射)和Reduce ...
2.25-2.26 MapReduce执行流程Shuffle讲解
原文链接:https://langyu.iteye.com/blog/992916 Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方.要想理解MapReduce, Shuffle是 ...
MapReduce工作流程及Shuffle原理概述
引言: 虽然MapReduce计算框架简化了分布式程序设计,将所有的并行程序均需要关注的设计细节抽象成公共模块并交由系统实现,用户只需关注自己的应用程序的逻辑实现,提高了开发效率,但是开发如果对Map ...
使用git整体流程
一.git提交代码走meger请求的整体流程工作中使用git推代码时,如果走merge请求,那么也就是说拉代码时拉公共代码库的代码,但是提交时需要先提交到自己的代码库,然后在gitlab上提交mer ...
Mybatis技术原理理——整体流程理解
前言:2018年,是最杂乱的一年!所以你看我的博客,是不是很空! 网上有很多关于Mybatis原理介绍的博文,这里介绍两篇我个人很推荐的博文 Mybatis3.4.x技术内幕和 MyBaits源码分析 ...

随机推荐

纯css实现checkbox开关切换按钮
我们都知道 checkbox 标签默认样式实在是太low了,故对CheckBox美化很有必要. 现提供两种方式对其进行美化. 方法一 <div class="switch-wrap ...
最大公约数和最小公倍数（Greatest Common Divisor and Least Common Multiple）
定义: 最大公约数(英语:greatest common divisor,gcd).是数学词汇,指能够整除多个整数的最大正整数.而多个整数不能都为零.例如8和12的最大公因数为4. 最小公倍数是数论中 ...
洛谷P5289 皮配
解:观察一波部分分. 首先小数据直接暴力4n,然后考虑背包.设f[i][a][b][c]表示前i个学校中前三位导师分别有多少人,第四位导师可以直接推出来. 然后暴力枚举每一个人放在哪进行背包. 进一步 ...
JS学习笔记Day10
一.设置或获取元素对象中(标签中)的属性和自定义属性对象.属性对象['属性'] 对象.getAttribute('属性名') 对象.setAttribute('属性名','属性值'); 对象.re ...
Luogu P2057 [SHOI2007]善意的投票
题目链接 \(Click\) \(Here\) 考虑模型转换.变成文理分科二选一带收益模型,就一波带走了. 如果没有见过这个模型的话,这里讲的很详细. #include <bits/stdc++ ...
DTO/DO等POJO对象的使用场景和 orika-mapper 框架的使用
对于项目而言, 我们一般会有DAO->Service->Controller分层设计, 这些层次体现了每层的作用, 而层次之间的数据传递对象设计很少被提及, 下面是一个相对完整的数据转换过 ...
SHELL希尔排序
/****************************************************************************** * Compilation: javac ...
python之造测试数据-faker（转载）
在软件需求.开发.测试过程中,有时候需要使用一些测试数据,针对这种情况,我们一般要么使用已有的系统数据,要么需要手动制造一些数据. 在手动制造数据的过程中,可能需要花费大量精力和工作量,现在好了,有一 ...
monkeyrunner环境配置
1.安装JDK.android SDK.Python (安装完成后,配置环境变量:%JAVA_HOME%\bin;%JAVA_HOME%\jre\bin;%ANDROID_HOME%\platfor ...
mysql和SQLYog工具使用
在做 android java web开发过程中,需要用到mysql数据库,使用可视化工具SQLYog管理工具,现介绍如下: 首先下载mysql工具下载地址 https://dev.mysql. ...

辅助排序和Mapreduce整体流程

辅助排序和Mapreduce整体流程的更多相关文章

随机推荐

热门专题