【Hadoop离线基础总结】MapReduce案例之自定义groupingComparator

MapReduce案例之自定义groupingComparator

求取Top 1的数据

需求

求出每一个订单中成交金额最大的一笔交易

订单id			商品id	成交金额

Order_0000005	Pdt_01	222.8

Order_0000005	Pdt_05	25.8

Order_0000002	Pdt_03	322.8

Order_0000002	Pdt_04	522.4

Order_0000002	Pdt_05	822.4

Order_0000003	Pdt_01	222.8

代码实现

自定义一个javaBean，命名为OrderBean

package cn.itcast.demo5;

import org.apache.hadoop.io.WritableComparable;

import java.io.DataInput;

import java.io.DataOutput;

import java.io.IOException;

public class OrderBean implements WritableComparable<OrderBean> {

    //定义orderId和price变量

    private String orderId;

    private Double price;

    /**

     * 重写compareTo方法

     *

     * @param o

     * @return

     */

    @Override

    public int compareTo(OrderBean o) {

        //先对orderId进行比较，如果相同，将它们的price放一起比较，不同就不比较

        int result = this.orderId.compareTo(o.orderId);

        //进行判断

        if (result == 0) {

            int i = this.price.compareTo(o.price);

            return -i;      //返回i求取最小值，返回-i求取最大值

        }

        return result;

    }

    @Override

    public void write(DataOutput out) throws IOException {

        out.writeUTF(orderId);

        out.writeDouble(price);

    }

    @Override

    public void readFields(DataInput in) throws IOException {

        this.orderId = in.readUTF();

        this.price = in.readDouble();

    }

    //生成get(),set()方法

    public String getOrderId() {

        return orderId;

    }

    public void setOrderId(String orderId) {

        this.orderId = orderId;

    }

    public double getPrice() {

        return price;

    }

    public void setPrice(Double price) {

        this.price = price;

    }

    //生成toString()方法

    @Override

    public String toString() {

        return orderId + "\t" + price;

    }

}

定义一个Mapper类

package cn.itcast.demo5;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.NullWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;

public class GroupMapper extends Mapper<LongWritable, Text, OrderBean, NullWritable> {

    @Override

    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {

        //分割获取到的数据

        String[] split = value.toString().split("\t");

        //创建orderBean对象

        OrderBean orderBean = new OrderBean();

        //给orderId赋值

        orderBean.setOrderId(split[0]);

        //给price赋值

        orderBean.setPrice(Double.valueOf(split[2]));

        context.write(orderBean, NullWritable.get());

    }

}

自定义分区(Partition)规则

package cn.itcast.demo5;

import org.apache.hadoop.io.NullWritable;

import org.apache.hadoop.mapreduce.Partitioner;

public class GroupPartitioner extends Partitioner<OrderBean, NullWritable> {

    /**

     * 重写分区方法

     *

     * @param orderBean

     * @param nullWritable

     * @param i

     * @return

     */

    @Override

    public int getPartition(OrderBean orderBean, NullWritable nullWritable, int i) {

        //参照HashPartitioner的重写方法

        return (orderBean.getOrderId().hashCode() & Integer.MAX_VALUE) % i;

    }

}

自定义分组(groupingComparator)规则

package cn.itcast.demo5;

import org.apache.hadoop.io.NullWritable;

import org.apache.hadoop.io.WritableComparable;

import org.apache.hadoop.io.WritableComparator;

public class GroupComparator extends WritableComparator {

    //重写无参构造方法，定义反射出来的对象是OrderBean类

    public GroupComparator() {

        super(OrderBean.class, true);

    }

    @Override

    public int compare(WritableComparable a, WritableComparable b) {

        OrderBean first = (OrderBean) a;

        OrderBean second = (OrderBean) b;

        //比较orderId，如果相同就认为是同一组数据

        return first.getOrderId().compareTo(second.getOrderId());

    }

}

定义一个Reducer类

package cn.itcast.demo5;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.NullWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Reducer;

import java.io.IOException;

public class GroupReducer extends Reducer<OrderBean, NullWritable, OrderBean, NullWritable> {

    /**

     * 直接将收到的k2,v2的值转换为k3,v3输出

     *

     * @param key

     * @param values

     * @param context

     * @throws IOException

     * @throws InterruptedException

     */

    @Override

    protected void reduce(OrderBean key, Iterable<NullWritable> values, Context context) throws IOException, InterruptedException {

        context.write(key, values.iterator().next());

    }

}

程序main函数入口

package cn.itcast.demo5;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.conf.Configured;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.NullWritable;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;

import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;

import org.apache.hadoop.util.Tool;

import org.apache.hadoop.util.ToolRunner;

public class GroupMain extends Configured implements Tool {

    @Override

    public int run(String[] args) throws Exception {

        //获取Job对象

        Job job = Job.getInstance(super.getConf(), "myGroupComparator");

        //输入数据，设置输入路径

        job.setInputFormatClass(TextInputFormat.class);

        TextInputFormat.setInputPaths(job, new Path("file:////Volumes/赵壮备份/大数据离线课程资料/5.大数据离线第五天/自定义groupingComparator/input/orders.txt"));

        //自定义Map逻辑

        job.setMapperClass(GroupMapper.class);

        //设置k2,v2输出类型

        job.setMapOutputKeyClass(OrderBean.class);

        job.setMapOutputValueClass(NullWritable.class);

        //自定义Partition逻辑

        job.setPartitionerClass(GroupPartitioner.class);

        //自定义分组逻辑

        job.setGroupingComparatorClass(GroupComparator.class);

        //自定义reduce逻辑

        job.setReducerClass(GroupReducer.class);

        //设置k3,v3输出类型

        job.setOutputKeyClass(OrderBean.class);

        job.setOutputValueClass(NullWritable.class);

        //输出数据，设置输出路径

        job.setOutputFormatClass(TextOutputFormat.class);

        TextOutputFormat.setOutputPath(job, new Path("file:////Volumes/赵壮备份/大数据离线课程资料/5.大数据离线第五天/自定义groupingComparator/output_top1"));

        //提交任务至集群

        boolean b = job.waitForCompletion(true);

        return b ? 0 : 1;

    }

    public static void main(String[] args) throws Exception {

        int run = ToolRunner.run(new Configuration(), new GroupMain(), args);

        System.exit(run);

    }

}

运行结果

Order_0000002	822.4

Order_0000003	222.8

Order_0000005	222.8

求取TopN的数据

需求

求取Top1运用了GroupBy的规则，排序后，不需要再进行操作，就会自动输出首个数据

如果要获取TopN的数据就需要在Reduce逻辑中添加循环遍历，所有的NullWritable转换为DoubleWritable，其他都不变
代码实现

自定义一个javaBean，命名为OrderBean

package cn.itcast.demo6;

import org.apache.hadoop.io.WritableComparable;

import java.io.DataInput;

import java.io.DataOutput;

import java.io.IOException;

public class OrderBean implements WritableComparable<OrderBean> {

    //定义orderId和price变量

    private String orderId;

    private Double price;

    /**

     * 重写compareTo方法

     *

     * @param o

     * @return

     */

    @Override

    public int compareTo(OrderBean o) {

        //先对orderId进行比较，如果相同，将它们的price放一起比较，不同就不比较

        int result = this.orderId.compareTo(o.orderId);

        //进行判断

        if (result == 0) {

            int i = this.price.compareTo(o.price);

            return -i;      //返回i求取最小值，返回-i求取最大值

        }

        return result;

    }

    @Override

    public void write(DataOutput out) throws IOException {

        out.writeUTF(orderId);

        out.writeDouble(price);

    }

    @Override

    public void readFields(DataInput in) throws IOException {

        this.orderId = in.readUTF();

        this.price = in.readDouble();

    }

    //生成get(),set()方法

    public String getOrderId() {

        return orderId;

    }

    public void setOrderId(String orderId) {

        this.orderId = orderId;

    }

    public double getPrice() {

        return price;

    }

    public void setPrice(Double price) {

        this.price = price;

    }

    //生成toString()方法

    @Override

    public String toString() {

        return orderId + "\t" + price;

    }

}

定义一个Mapper类

package cn.itcast.demo6;

import org.apache.hadoop.io.DoubleWritable;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.NullWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;

public class GroupMapper extends Mapper<LongWritable, Text, OrderBean, DoubleWritable> {

    @Override

    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {

        //分割获取到的数据

        String[] split = value.toString().split("\t");

        //创建orderBean对象

        OrderBean orderBean = new OrderBean();

        //给orderId赋值

        orderBean.setOrderId(split[0]);

        //给price赋值

        orderBean.setPrice(Double.valueOf(split[2]));

        DoubleWritable doubleWritable = new DoubleWritable(Double.valueOf(split[2]));

        context.write(orderBean, doubleWritable);

    }

}

自定义分区(Partition)规则

package cn.itcast.demo6;

import org.apache.hadoop.io.DoubleWritable;

import org.apache.hadoop.io.NullWritable;

import org.apache.hadoop.mapreduce.Partitioner;

public class GroupPartitioner extends Partitioner<OrderBean, DoubleWritable> {

    /**

     * 重写分区方法

     *

     * @param orderBean

     * @param doubleWritable

     * @param i

     * @return

     */

    @Override

    public int getPartition(OrderBean orderBean, DoubleWritable doubleWritable, int i) {

        //参照HashPartitioner的重写方法

        return (orderBean.getOrderId().hashCode() & Integer.MAX_VALUE) % i;

    }

}

自定义分组(groupingComparator)规则

package cn.itcast.demo6;

import org.apache.hadoop.io.WritableComparable;

import org.apache.hadoop.io.WritableComparator;

public class GroupComparator extends WritableComparator {

    //重写无参构造方法，定义反射出来的对象是OrderBean类

    public GroupComparator() {

        super(OrderBean.class, true);

    }

    @Override

    public int compare(WritableComparable a, WritableComparable b) {

        OrderBean first = (OrderBean) a;

        OrderBean second = (OrderBean) b;

        //比较orderId，如果相同就认为是同一组数据

        return first.getOrderId().compareTo(second.getOrderId());

    }

}

定义一个Reducer类

package cn.itcast.demo6;

import org.apache.hadoop.io.DoubleWritable;

import org.apache.hadoop.io.NullWritable;

import org.apache.hadoop.mapreduce.Reducer;

import java.io.IOException;

public class GroupReducer extends Reducer<OrderBean, DoubleWritable, OrderBean, DoubleWritable> {

    /**

     * 直接将收到的k2,v2的值转换为k3,v3输出

     *

     * @param key

     * @param values

     * @param context

     * @throws IOException

     * @throws InterruptedException

     */

    @Override

    protected void reduce(OrderBean key, Iterable<DoubleWritable> values, Context context) throws IOException, InterruptedException {

        int i = 0;

        for (DoubleWritable value : values) {

            i++;

            if (i <= 2) {

                context.write(key, value);

            } else {

                break;

            }

        }

    }

}

程序main函数入口

package cn.itcast.demo6;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.conf.Configured;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.DoubleWritable;

import org.apache.hadoop.io.NullWritable;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;

import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;

import org.apache.hadoop.util.Tool;

import org.apache.hadoop.util.ToolRunner;

public class GroupMain extends Configured implements Tool {

    @Override

    public int run(String[] args) throws Exception {

        //获取Job对象

        Job job = Job.getInstance(super.getConf(), "myGroupComparator");

        //输入数据，设置输入路径

        job.setInputFormatClass(TextInputFormat.class);

        TextInputFormat.setInputPaths(job, new Path("file:////Volumes/赵壮备份/大数据离线课程资料/5.大数据离线第五天/自定义groupingComparator/input/orders.txt"));

        //自定义Map逻辑

        job.setMapperClass(GroupMapper.class);

        //设置k2,v2输出类型

        job.setMapOutputKeyClass(OrderBean.class);

        job.setMapOutputValueClass(DoubleWritable.class);

        //自定义Partition逻辑

        job.setPartitionerClass(GroupPartitioner.class);

        //自定义分组逻辑

        job.setGroupingComparatorClass(GroupComparator.class);

        //自定义reduce逻辑

        job.setReducerClass(GroupReducer.class);

        //设置k3,v3输出类型

        job.setOutputKeyClass(OrderBean.class);

        job.setOutputValueClass(DoubleWritable.class);

        //输出数据，设置输出路径

        job.setOutputFormatClass(TextOutputFormat.class);

        TextOutputFormat.setOutputPath(job, new Path("file:////Volumes/赵壮备份/大数据离线课程资料/5.大数据离线第五天/自定义groupingComparator/output_top2"));

        //提交任务至集群

        boolean b = job.waitForCompletion(true);

        return b ? 0 : 1;

    }

    public static void main(String[] args) throws Exception {

        int run = ToolRunner.run(new Configuration(), new GroupMain(), args);

        System.exit(run);

    }

}

运行结果

Order_0000002	822.4	822.4

Order_0000002	522.4	522.4

Order_0000003	222.8	222.8

Order_0000005	222.8	222.8

Order_0000005	25.8	25.8

【Hadoop离线基础总结】MapReduce案例之自定义groupingComparator的更多相关文章

【Hadoop离线基础总结】Hue的简单介绍和安装部署
目录 Hue的简单介绍概述核心功能安装部署下载Hue的压缩包并上传到linux解压编译安装启动启动Hue进程 hue与其他框架的集成 Hue与Hadoop集成 Hue与Hive集成 Hue ...
【Hadoop离线基础总结】oozie的安装部署与使用
目录简单介绍概述架构安装部署 1.修改core-site.xml 2.上传oozie的安装包并解压 3.解压hadooplibs到与oozie平行的目录 4.创建libext目录,并拷贝依赖包 ...
【Hadoop离线基础总结】impala简单介绍及安装部署
目录 impala的简单介绍概述优点缺点 impala和Hive的关系 impala如何和CDH一起工作 impala的架构及查询计划 impala/hive/spark 对比 impala的安 ...
【Hadoop离线基础总结】Hive调优手段
Hive调优手段最常用的调优手段 Fetch抓取 MapJoin 分区裁剪列裁剪控制map个数以及reduce个数 JVM重用数据压缩 Fetch的抓取出现原因 Hive中对某些情况的查询不 ...
【Hadoop离线基础总结】流量日志分析网站整体架构模块开发
目录数据仓库设计维度建模概述维度建模的三种模式本项目中数据仓库的设计 ETL开发创建ODS层数据表导入ODS层数据生成ODS层明细宽表统计分析开发流量分析受访分析访客visit分 ...
【Hadoop离线基础总结】Sqoop常用命令及参数
目录常用命令常用公用参数公用参数:数据库连接公用参数:import 公用参数:export 公用参数:hive 常用命令&参数从关系表导入--import 导出到关系表--expor ...
【Hadoop离线基础总结】MapReduce增强（上）
MapReduce增强 MapReduce的分区与reduceTask的数量概述 MapReduce当中的分区:物以类聚,人以群分.相同key的数据,去往同一个reduce. ReduceTask的 ...
【Hadoop离线基础总结】MapReduce倒排索引建立
MapReduce倒排索引建立求某些单词在文章中出现多少次有三个文档的内容,求hello,tom,jerry三个单词在其中各出现多少次 hello tom hello jerry hello to ...
【Hadoop离线基础总结】工作流调度器azkaban
目录 Azkaban概述工作流调度系统的作用工作流调度系统的实现常见工作流调度工具对比 Azkaban简单介绍安装部署 Azkaban的编译 azkaban单服务模式安装与使用 azkaban ...

随机推荐

使用snapjs实现svg路径描边动画
一,snap.svg插件在近几天,突然接到一个需求,内容是要在网页上写一个路径的动画,还需要可以随意控制动画的速度,开始于结束,本来是一个图片可以解决的问题,结果就这样变难了呀,在网上查一会之后,突然 ...
使用d3.js的时候，如何用zoom translate scale限制拖拽范围
红色代表需要改写的代码 1.添加定义图像大小和容器的大小及坐标 d3.behavior.zoom = function () { var moveCanvas={ width: , height: , ...
Salesforce Admin考题解析 | 流程自动化考题与知识点拓展
[题目1] A record is modified on 1/1/2008. It meets criteria for a time-based workflow rule; this rule ...
Rank of Tetris 杭电拓扑排序加并查集
自从Lele开发了Rating系统,他的Tetris事业更是如虎添翼,不久他遍把这个游戏推向了全球. 为了更好的符合那些爱好者的喜好,Lele又想了一个新点子:他将制作一个全球Tetris高手排行榜, ...
装机摸鱼日志--ubuntu16.04安装网易云音乐客户端
之前装的网易云音乐不指定啥原因不能用了,所以打算重新装一个,但是进官网只有deepin15和ubuntu18.04版本的安装包.然后我装了一下18.04的安装包,但是没有成功.甚至因为更换glibc差 ...
Git把本地代码推送到远程github仓库
运用Git版本控制系统进行代码的管理,以便于团队成员的协作,由于之前是使用svn来进行版本控制,所以对于Git使用还有待熟练掌握.Git与svn类似,个人认为两者之间比较直观的区别就是 Git 不需要 ...
详细分析Redis的持久化操作——RDB与AOF
一.前言由于疫情的原因,学校还没有开学,这也就让我有了很多的时间.趁着时间比较多,我终于可以开始学习那些之前一直想学的技术了.最近这几天开始学习Redis,买了本<Redis实战>, ...
进程管理工具 Supervisor
要想在终端后台常驻进程,首先想到的是在命令后加 & 符号,来达到隐藏程序在后台的目的,尽管看起来进程已经在后台运行了,实际上终端会话关闭时进程还是会被 kill 掉,这种问题一般是采用搭配 n ...
nginx history路由模式时，页面返回404重定向index.html
1.路由默认是带#的,有时我们感觉不美观,就使其变为history模式,也就没有#字符 2.# 如果找不到当前页面(404),就返回index.html,重新分配路由 location ^~/prod ...
c++指定输出小数的精度
在c++中,有的时候要对输出的double型或float型保留几位小数,这时可以使用setflags(ios::fixed),不过要先包含有文件<iomainp>,具体如下例: #inc ...

【Hadoop离线基础总结】MapReduce案例之自定义groupingComparator

MapReduce案例之自定义groupingComparator

求取Top 1的数据

求取TopN的数据

【Hadoop离线基础总结】MapReduce案例之自定义groupingComparator的更多相关文章

随机推荐

热门专题