【Hadoop离线基础总结】MapReduce案例之自定义groupingComparator

MapReduce案例之自定义groupingComparator

求取Top 1的数据

需求

求出每一个订单中成交金额最大的一笔交易

订单id			商品id	成交金额

Order_0000005	Pdt_01	222.8

Order_0000005	Pdt_05	25.8

Order_0000002	Pdt_03	322.8

Order_0000002	Pdt_04	522.4

Order_0000002	Pdt_05	822.4

Order_0000003	Pdt_01	222.8

代码实现

自定义一个javaBean，命名为OrderBean

package cn.itcast.demo5;

import org.apache.hadoop.io.WritableComparable;

import java.io.DataInput;

import java.io.DataOutput;

import java.io.IOException;

public class OrderBean implements WritableComparable<OrderBean> {

    //定义orderId和price变量

    private String orderId;

    private Double price;

    /**

     * 重写compareTo方法

     *

     * @param o

     * @return

     */

    @Override

    public int compareTo(OrderBean o) {

        //先对orderId进行比较，如果相同，将它们的price放一起比较，不同就不比较

        int result = this.orderId.compareTo(o.orderId);

        //进行判断

        if (result == 0) {

            int i = this.price.compareTo(o.price);

            return -i;      //返回i求取最小值，返回-i求取最大值

        }

        return result;

    }

    @Override

    public void write(DataOutput out) throws IOException {

        out.writeUTF(orderId);

        out.writeDouble(price);

    }

    @Override

    public void readFields(DataInput in) throws IOException {

        this.orderId = in.readUTF();

        this.price = in.readDouble();

    }

    //生成get(),set()方法

    public String getOrderId() {

        return orderId;

    }

    public void setOrderId(String orderId) {

        this.orderId = orderId;

    }

    public double getPrice() {

        return price;

    }

    public void setPrice(Double price) {

        this.price = price;

    }

    //生成toString()方法

    @Override

    public String toString() {

        return orderId + "\t" + price;

    }

}

定义一个Mapper类

package cn.itcast.demo5;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.NullWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;

public class GroupMapper extends Mapper<LongWritable, Text, OrderBean, NullWritable> {

    @Override

    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {

        //分割获取到的数据

        String[] split = value.toString().split("\t");

        //创建orderBean对象

        OrderBean orderBean = new OrderBean();

        //给orderId赋值

        orderBean.setOrderId(split[0]);

        //给price赋值

        orderBean.setPrice(Double.valueOf(split[2]));

        context.write(orderBean, NullWritable.get());

    }

}

自定义分区(Partition)规则

package cn.itcast.demo5;

import org.apache.hadoop.io.NullWritable;

import org.apache.hadoop.mapreduce.Partitioner;

public class GroupPartitioner extends Partitioner<OrderBean, NullWritable> {

    /**

     * 重写分区方法

     *

     * @param orderBean

     * @param nullWritable

     * @param i

     * @return

     */

    @Override

    public int getPartition(OrderBean orderBean, NullWritable nullWritable, int i) {

        //参照HashPartitioner的重写方法

        return (orderBean.getOrderId().hashCode() & Integer.MAX_VALUE) % i;

    }

}

自定义分组(groupingComparator)规则

package cn.itcast.demo5;

import org.apache.hadoop.io.NullWritable;

import org.apache.hadoop.io.WritableComparable;

import org.apache.hadoop.io.WritableComparator;

public class GroupComparator extends WritableComparator {

    //重写无参构造方法，定义反射出来的对象是OrderBean类

    public GroupComparator() {

        super(OrderBean.class, true);

    }

    @Override

    public int compare(WritableComparable a, WritableComparable b) {

        OrderBean first = (OrderBean) a;

        OrderBean second = (OrderBean) b;

        //比较orderId，如果相同就认为是同一组数据

        return first.getOrderId().compareTo(second.getOrderId());

    }

}

定义一个Reducer类

package cn.itcast.demo5;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.NullWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Reducer;

import java.io.IOException;

public class GroupReducer extends Reducer<OrderBean, NullWritable, OrderBean, NullWritable> {

    /**

     * 直接将收到的k2,v2的值转换为k3,v3输出

     *

     * @param key

     * @param values

     * @param context

     * @throws IOException

     * @throws InterruptedException

     */

    @Override

    protected void reduce(OrderBean key, Iterable<NullWritable> values, Context context) throws IOException, InterruptedException {

        context.write(key, values.iterator().next());

    }

}

程序main函数入口

package cn.itcast.demo5;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.conf.Configured;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.NullWritable;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;

import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;

import org.apache.hadoop.util.Tool;

import org.apache.hadoop.util.ToolRunner;

public class GroupMain extends Configured implements Tool {

    @Override

    public int run(String[] args) throws Exception {

        //获取Job对象

        Job job = Job.getInstance(super.getConf(), "myGroupComparator");

        //输入数据，设置输入路径

        job.setInputFormatClass(TextInputFormat.class);

        TextInputFormat.setInputPaths(job, new Path("file:////Volumes/赵壮备份/大数据离线课程资料/5.大数据离线第五天/自定义groupingComparator/input/orders.txt"));

        //自定义Map逻辑

        job.setMapperClass(GroupMapper.class);

        //设置k2,v2输出类型

        job.setMapOutputKeyClass(OrderBean.class);

        job.setMapOutputValueClass(NullWritable.class);

        //自定义Partition逻辑

        job.setPartitionerClass(GroupPartitioner.class);

        //自定义分组逻辑

        job.setGroupingComparatorClass(GroupComparator.class);

        //自定义reduce逻辑

        job.setReducerClass(GroupReducer.class);

        //设置k3,v3输出类型

        job.setOutputKeyClass(OrderBean.class);

        job.setOutputValueClass(NullWritable.class);

        //输出数据，设置输出路径

        job.setOutputFormatClass(TextOutputFormat.class);

        TextOutputFormat.setOutputPath(job, new Path("file:////Volumes/赵壮备份/大数据离线课程资料/5.大数据离线第五天/自定义groupingComparator/output_top1"));

        //提交任务至集群

        boolean b = job.waitForCompletion(true);

        return b ? 0 : 1;

    }

    public static void main(String[] args) throws Exception {

        int run = ToolRunner.run(new Configuration(), new GroupMain(), args);

        System.exit(run);

    }

}

运行结果

Order_0000002	822.4

Order_0000003	222.8

Order_0000005	222.8

求取TopN的数据

需求

求取Top1运用了GroupBy的规则，排序后，不需要再进行操作，就会自动输出首个数据

如果要获取TopN的数据就需要在Reduce逻辑中添加循环遍历，所有的NullWritable转换为DoubleWritable，其他都不变
代码实现

自定义一个javaBean，命名为OrderBean

package cn.itcast.demo6;

import org.apache.hadoop.io.WritableComparable;

import java.io.DataInput;

import java.io.DataOutput;

import java.io.IOException;

public class OrderBean implements WritableComparable<OrderBean> {

    //定义orderId和price变量

    private String orderId;

    private Double price;

    /**

     * 重写compareTo方法

     *

     * @param o

     * @return

     */

    @Override

    public int compareTo(OrderBean o) {

        //先对orderId进行比较，如果相同，将它们的price放一起比较，不同就不比较

        int result = this.orderId.compareTo(o.orderId);

        //进行判断

        if (result == 0) {

            int i = this.price.compareTo(o.price);

            return -i;      //返回i求取最小值，返回-i求取最大值

        }

        return result;

    }

    @Override

    public void write(DataOutput out) throws IOException {

        out.writeUTF(orderId);

        out.writeDouble(price);

    }

    @Override

    public void readFields(DataInput in) throws IOException {

        this.orderId = in.readUTF();

        this.price = in.readDouble();

    }

    //生成get(),set()方法

    public String getOrderId() {

        return orderId;

    }

    public void setOrderId(String orderId) {

        this.orderId = orderId;

    }

    public double getPrice() {

        return price;

    }

    public void setPrice(Double price) {

        this.price = price;

    }

    //生成toString()方法

    @Override

    public String toString() {

        return orderId + "\t" + price;

    }

}

定义一个Mapper类

package cn.itcast.demo6;

import org.apache.hadoop.io.DoubleWritable;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.NullWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;

public class GroupMapper extends Mapper<LongWritable, Text, OrderBean, DoubleWritable> {

    @Override

    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {

        //分割获取到的数据

        String[] split = value.toString().split("\t");

        //创建orderBean对象

        OrderBean orderBean = new OrderBean();

        //给orderId赋值

        orderBean.setOrderId(split[0]);

        //给price赋值

        orderBean.setPrice(Double.valueOf(split[2]));

        DoubleWritable doubleWritable = new DoubleWritable(Double.valueOf(split[2]));

        context.write(orderBean, doubleWritable);

    }

}

自定义分区(Partition)规则

package cn.itcast.demo6;

import org.apache.hadoop.io.DoubleWritable;

import org.apache.hadoop.io.NullWritable;

import org.apache.hadoop.mapreduce.Partitioner;

public class GroupPartitioner extends Partitioner<OrderBean, DoubleWritable> {

    /**

     * 重写分区方法

     *

     * @param orderBean

     * @param doubleWritable

     * @param i

     * @return

     */

    @Override

    public int getPartition(OrderBean orderBean, DoubleWritable doubleWritable, int i) {

        //参照HashPartitioner的重写方法

        return (orderBean.getOrderId().hashCode() & Integer.MAX_VALUE) % i;

    }

}

自定义分组(groupingComparator)规则

package cn.itcast.demo6;

import org.apache.hadoop.io.WritableComparable;

import org.apache.hadoop.io.WritableComparator;

public class GroupComparator extends WritableComparator {

    //重写无参构造方法，定义反射出来的对象是OrderBean类

    public GroupComparator() {

        super(OrderBean.class, true);

    }

    @Override

    public int compare(WritableComparable a, WritableComparable b) {

        OrderBean first = (OrderBean) a;

        OrderBean second = (OrderBean) b;

        //比较orderId，如果相同就认为是同一组数据

        return first.getOrderId().compareTo(second.getOrderId());

    }

}

定义一个Reducer类

package cn.itcast.demo6;

import org.apache.hadoop.io.DoubleWritable;

import org.apache.hadoop.io.NullWritable;

import org.apache.hadoop.mapreduce.Reducer;

import java.io.IOException;

public class GroupReducer extends Reducer<OrderBean, DoubleWritable, OrderBean, DoubleWritable> {

    /**

     * 直接将收到的k2,v2的值转换为k3,v3输出

     *

     * @param key

     * @param values

     * @param context

     * @throws IOException

     * @throws InterruptedException

     */

    @Override

    protected void reduce(OrderBean key, Iterable<DoubleWritable> values, Context context) throws IOException, InterruptedException {

        int i = 0;

        for (DoubleWritable value : values) {

            i++;

            if (i <= 2) {

                context.write(key, value);

            } else {

                break;

            }

        }

    }

}

程序main函数入口

package cn.itcast.demo6;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.conf.Configured;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.DoubleWritable;

import org.apache.hadoop.io.NullWritable;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;

import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;

import org.apache.hadoop.util.Tool;

import org.apache.hadoop.util.ToolRunner;

public class GroupMain extends Configured implements Tool {

    @Override

    public int run(String[] args) throws Exception {

        //获取Job对象

        Job job = Job.getInstance(super.getConf(), "myGroupComparator");

        //输入数据，设置输入路径

        job.setInputFormatClass(TextInputFormat.class);

        TextInputFormat.setInputPaths(job, new Path("file:////Volumes/赵壮备份/大数据离线课程资料/5.大数据离线第五天/自定义groupingComparator/input/orders.txt"));

        //自定义Map逻辑

        job.setMapperClass(GroupMapper.class);

        //设置k2,v2输出类型

        job.setMapOutputKeyClass(OrderBean.class);

        job.setMapOutputValueClass(DoubleWritable.class);

        //自定义Partition逻辑

        job.setPartitionerClass(GroupPartitioner.class);

        //自定义分组逻辑

        job.setGroupingComparatorClass(GroupComparator.class);

        //自定义reduce逻辑

        job.setReducerClass(GroupReducer.class);

        //设置k3,v3输出类型

        job.setOutputKeyClass(OrderBean.class);

        job.setOutputValueClass(DoubleWritable.class);

        //输出数据，设置输出路径

        job.setOutputFormatClass(TextOutputFormat.class);

        TextOutputFormat.setOutputPath(job, new Path("file:////Volumes/赵壮备份/大数据离线课程资料/5.大数据离线第五天/自定义groupingComparator/output_top2"));

        //提交任务至集群

        boolean b = job.waitForCompletion(true);

        return b ? 0 : 1;

    }

    public static void main(String[] args) throws Exception {

        int run = ToolRunner.run(new Configuration(), new GroupMain(), args);

        System.exit(run);

    }

}

运行结果

Order_0000002	822.4	822.4

Order_0000002	522.4	522.4

Order_0000003	222.8	222.8

Order_0000005	222.8	222.8

Order_0000005	25.8	25.8

【Hadoop离线基础总结】MapReduce案例之自定义groupingComparator的更多相关文章

【Hadoop离线基础总结】Hue的简单介绍和安装部署
目录 Hue的简单介绍概述核心功能安装部署下载Hue的压缩包并上传到linux解压编译安装启动启动Hue进程 hue与其他框架的集成 Hue与Hadoop集成 Hue与Hive集成 Hue ...
【Hadoop离线基础总结】oozie的安装部署与使用
目录简单介绍概述架构安装部署 1.修改core-site.xml 2.上传oozie的安装包并解压 3.解压hadooplibs到与oozie平行的目录 4.创建libext目录,并拷贝依赖包 ...
【Hadoop离线基础总结】impala简单介绍及安装部署
目录 impala的简单介绍概述优点缺点 impala和Hive的关系 impala如何和CDH一起工作 impala的架构及查询计划 impala/hive/spark 对比 impala的安 ...
【Hadoop离线基础总结】Hive调优手段
Hive调优手段最常用的调优手段 Fetch抓取 MapJoin 分区裁剪列裁剪控制map个数以及reduce个数 JVM重用数据压缩 Fetch的抓取出现原因 Hive中对某些情况的查询不 ...
【Hadoop离线基础总结】流量日志分析网站整体架构模块开发
目录数据仓库设计维度建模概述维度建模的三种模式本项目中数据仓库的设计 ETL开发创建ODS层数据表导入ODS层数据生成ODS层明细宽表统计分析开发流量分析受访分析访客visit分 ...
【Hadoop离线基础总结】Sqoop常用命令及参数
目录常用命令常用公用参数公用参数:数据库连接公用参数:import 公用参数:export 公用参数:hive 常用命令&参数从关系表导入--import 导出到关系表--expor ...
【Hadoop离线基础总结】MapReduce增强（上）
MapReduce增强 MapReduce的分区与reduceTask的数量概述 MapReduce当中的分区:物以类聚,人以群分.相同key的数据,去往同一个reduce. ReduceTask的 ...
【Hadoop离线基础总结】MapReduce倒排索引建立
MapReduce倒排索引建立求某些单词在文章中出现多少次有三个文档的内容,求hello,tom,jerry三个单词在其中各出现多少次 hello tom hello jerry hello to ...
【Hadoop离线基础总结】工作流调度器azkaban
目录 Azkaban概述工作流调度系统的作用工作流调度系统的实现常见工作流调度工具对比 Azkaban简单介绍安装部署 Azkaban的编译 azkaban单服务模式安装与使用 azkaban ...

随机推荐

这价格看得我偷偷摸了泪——用python爬取北京二手房数据
如果想了解更多关于python的应用,可以私信我,或者加群,里面到资料都是免费的 http://t.cn/A6Zvjdun 近期,有个朋友联系我,想统计一下北京二手房的相关的数据,而自己用Excel统 ...
I - Fill The Bag codeforces 1303D
题解:注意这里的数组a中的元素,全部都是2的整数幂.然后有二进制可以拼成任意数.只要一堆2的整数幂的和大于x,x也是2的整数幂,那么那一堆2的整数幂一定可以组成x. 思路:位运算,对每一位,如果该位置 ...
D - Harmonious Graph
题目大意: n个点,m条边,两个数l和r,如果l和r相连接,那么对于l和r之间值任意一个数都要和l相连.问达到这一目的需要添加的边的最小数量. 题解: 我们首先要找到当前连通块中最大的那个点,也就是说 ...
Java8新特性(1)：Lambda表达式
Lambda表达式可以理解为一种匿名函数:没有名称,但有参数列表.函数主体.返回类型.它是行为参数化的一种实现,行为参数化是指将不同的行为作为参数传递给方法,方法的所具备的能力取决于它接收的行为参数. ...
DEV gridview 合并单元格
private void gv_docargo_CellMerge(object sender, DevExpress.XtraGrid.Views.Grid.CellMergeEventArgs e ...
Java中的二分查找
二分查找:(折半查找) 前提:数组必须是有序的. 思想:每次都猜中间的那个元素,比较大或者小,就能减少一半的元素.思路:A:定义最小索引,最大索引. B:比较出中间索引 C:拿中间索引的值和要查找的元 ...
CSS选择器与CSS的继承,层叠和特殊性
什么是选择器?选择器{样式;},在{}之前的部分就是"选择器","选择器"指明了{}中的"样式"的作用对象,也就是"样式" ...
测试Thread中的常用方法
package com.yhqtv.java; /* *测试Thread中的常用方法: * 1.start():启动当前线程:调用当前线程的run() * 2.run():通常需要重写Thread类的 ...
Metasploit渗透测试环境搭建
渗透测试实验环境搭建下载虚拟机镜像 5个虚拟机镜像,其中Linux攻击机我选择用最新的kali Linux镜像,其余的均使用本书配套的镜像. 网络环境配置 VMware虚拟网络编辑器配置: 将VMn ...
Ali_Cloud++：阿里云服务器部署【禅道】项目管理系统
1.开源版安装包下载地址一:百度云下载 10.0 提取码:2dyg 地址二:官方下载 2.直接解压安装包到/opt目录下注意:这里我安装的是Linux一键安装包官方给出的方法就是直接解压到/o ...

【Hadoop离线基础总结】MapReduce案例之自定义groupingComparator

MapReduce案例之自定义groupingComparator

求取Top 1的数据

求取TopN的数据

【Hadoop离线基础总结】MapReduce案例之自定义groupingComparator的更多相关文章

随机推荐

热门专题