Mapreduce 进阶

场景描述

订单需要封装成为一个bean 传入reduce,然后实现排序取出top1,或者分组求和

首先要实现排序就要实现comparable接口

要实现分组top1,那么"相同的bean"要到同一个reduce中去,要实现自定义partitioner

到了同一个分区之后 "相同的bean"要reduce程序认为是相同的要实现groupingComparator

/**
 * 利用reduce端的GroupingComparator来实现将一组bean看成相同的key
 */

public class ItemidGroupingComparator extends WritableComparator {

    //传入作为key的bean的class类型，以及制定需要让框架做反射获取实例对象

    protected ItemidGroupingComparator() {

        super(OrderBean.class, true);

    }

    @Override

    public int compare(WritableComparable a, WritableComparable b) {

        OrderBean abean = (OrderBean) a;

        OrderBean bbean = (OrderBean) b;

        //比较两个bean时，指定只比较bean中的orderid

        return abean.getItemid().compareTo(bbean.getItemid());

    }

}

public class ItemIdPartitioner extends Partitioner<OrderBean, NullWritable>{

    @Override

    public int getPartition(OrderBean bean, NullWritable value, int numReduceTasks) {

        //相同id的订单bean，会发往相同的partition

        //而且，产生的分区数，是会跟用户设置的reduce task数保持一致

        return (bean.getItemid().hashCode() & Integer.MAX_VALUE) % numReduceTasks;

    }

}

/**

 * mapreduce 框架会调用compareTo方法, 实现排序

 */

public class OrderBean implements WritableComparable<OrderBean> {

    private Text itemid;

    private DoubleWritable amount;

    public OrderBean() {

    }

    public OrderBean(Text itemid, DoubleWritable amount) {

        set(itemid, amount);

    }

    public void set(Text itemid, DoubleWritable amount) {

        this.itemid = itemid;

        this.amount = amount;

    }

    public Text getItemid() {

        return itemid;

    }

    public DoubleWritable getAmount() {

        return amount;

    }

    @Override

    public int compareTo(OrderBean o) {

        int cmp = this.itemid.compareTo(o.getItemid());

        if (cmp == ) {

            cmp = -this.amount.compareTo(o.getAmount());

        }

        return cmp;

    }

    @Override

    public void write(DataOutput out) throws IOException {

        out.writeUTF(itemid.toString());

        out.writeDouble(amount.get());

    }

    @Override

    public void readFields(DataInput in) throws IOException {

        String readUTF = in.readUTF();

        double readDouble = in.readDouble();

        this.itemid = new Text(readUTF);

        this.amount = new DoubleWritable(readDouble);

    }

    @Override

    public String toString() {

        return itemid.toString() + "\t" + amount.get();

    }

}

/**

 * 求每笔订单中交易金额最大的一笔交易的交易金额

  */

public class SecondarySort {

    static class SecondarySortMapper extends Mapper<LongWritable, Text, OrderBean, NullWritable> {

        OrderBean bean = new OrderBean();

        @Override

        protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {

            String line = value.toString();

            String[] fields = StringUtils.split(line, ",");

            bean.set(new Text(fields[]), new DoubleWritable(Double.parseDouble(fields[])));

            //在shuffle时实现排序

            context.write(bean, NullWritable.get());

        }

    }

    static class SecondarySortReducer extends Reducer<OrderBean, NullWritable, OrderBean, NullWritable> {

        //到达reduce时，相同id的所有bean已经被看成一组，且金额最大的那个一排在第一位

        @Override

        protected void reduce(OrderBean key, Iterable<NullWritable> values, Context context) throws IOException, InterruptedException {

            context.write(key, NullWritable.get());

        }

    }

    public static void main(String[] args) throws Exception {

        Configuration conf = new Configuration();

        Job job = Job.getInstance(conf);

        job.setJarByClass(SecondarySort.class);

        job.setMapperClass(SecondarySortMapper.class);

        job.setReducerClass(SecondarySortReducer.class);

        job.setOutputKeyClass(OrderBean.class);

        job.setOutputValueClass(NullWritable.class);

        FileInputFormat.setInputPaths(job, new Path("D:\\test\\hadoop\\ordertest\\input"));

        FileOutputFormat.setOutputPath(job, new Path("D:\\test\\hadoop\\ordertest\\output\\01"));

        //在此设置自定义的Groupingcomparator类

        job.setGroupingComparatorClass(ItemidGroupingComparator.class);

        //在此设置自定义的partitioner类

        job.setPartitionerClass(ItemIdPartitioner.class);

        job.setNumReduceTasks();

        job.waitForCompletion(true);

    }

}

Mapreduce 进阶的更多相关文章

云计算-MapReduce
Hadoop示例程序WordCount详解及实例http://blog.csdn.net/xw13106209/article/details/6116323 hadoop中使用MapReduce编程 ...
Hadoop 之面试题
颜色区别: 蓝色:hive,橙色:Hbase.黑色hadoop 请简述hadoop怎样实现二级排序．你认为用Java,Streaming,pipe 方式开发map/reduce,各有哪些优缺点: 6 ...
基于Hadoop技术实现的离线电商分析平台（Flume、Hadoop、Hbase、SpringMVC、highcharts）
离线数据分析平台是一种利用hadoop集群开发工具的一种方式,主要作用是帮助公司对网站的应用有一个比较好的了解.尤其是在电商.旅游.银行.证券.游戏等领域有非常广泛,因为这些领域对数据和用户的特性把握 ...
Hadoop视频教程汇总
一慕课网 1.Hadoop大数据平台架构与实践--基础篇(已学习) 链接:https://www.imooc.com/learn/391 2.Hadoop进阶(已学习) 链接:https://www ...
思数云hadoop目录
全文检索.数据分析挖掘.推荐系统.广告系统.图像识别.海量存储.快速查询 l Hadoop介绍 n Hadoop来源与历史 n Hadoop版本 n Hadoop开源与商业 l HDFS系统架构 n ...
MapReduce/Hbase进阶提升(原理剖析、实战演练)
什么是MapReduce? MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算.概念"Map(映射)"和"Reduce(归约)",和他们 ...
海量数据挖掘MMDS week6: MapReduce算法（进阶）
http://blog.csdn.net/pipisorry/article/details/49445519 海量数据挖掘Mining Massive Datasets(MMDs) -Jure Le ...
hadoop之mapreduce详解（进阶篇）
上篇文章hadoop之mapreduce详解(基础篇)我们了解了mapreduce的执行过程和shuffle过程,本篇文章主要从mapreduce的组件和输入输出方面进行阐述. 一.mapreduce ...
MapReduce Shuffle原理与 Spark Shuffle原理
MapReduce的Shuffle过程介绍 Shuffle的本义是洗牌.混洗,把一组有一定规则的数据尽量转换成一组无规则的数据,越随机越好.MapReduce中的Shuffle更像是洗牌的逆过程,把一 ...

随机推荐

懒得说IE6了，写个js插件不能写注释，原因如下
变态的ie6将注释当代码解释 ie6宽松的安全环境对于开发人员是开心的,比如运行速度快(对于ie7/8/9).支持部份文件操作等.但也有很多烦忧,比如对数组.对象的检测比较机械,这还不算什么,这两天让 ...
【转】完全用Linux工作
我已经半年没有使用 Windows 的方式工作了.Linux 高效的完成了我所有的工作. NU/Linux 不是每个人都想用的.如果你只需要处理一般的事务,打游戏,那么你不需要了解下面这些了. 我不是 ...
DrawItem
原文链接: http://blog.csdn.net/jiftlixu/article/details/4893505 今天从CButton派生了一个类CUIButton,主要用于自绘,按照基本的流程 ...
java对象内存占用
一.前言想知道java对象在内存中的占用情况吗?感谢这位大神的无私分享. http://yueyemaitian.iteye.com/blog/2033046 二.原文的扩充1. 增加了代理jar包的 ...
Ubuntu 13.04 VirtualBox在工作区中的切换
Ubuntu的工作区很方便,可以有好几个工作区,本人自从换了Ubuntu深感Ubuntu在应用软件上的缺失(当然显然这不是Ubuntu的错).为了弥补缺失,我只能安装了Virtualbox虚拟机,里边 ...
android中碰撞屏幕边界反弹问题
其实碰撞问题只是涉及到一点小算法而已,但在实际应用,尤其游戏中有可能会遇到,下面给出一个小示例,代码如下: MainActivity: package com.lovo; import android ...
Python 构建方便的函数调用
CODE: #!/usr/bin/python # -*- coding: utf-8 -*- ''' Created on 2014-7-14 @author: guaguastd @name: c ...
VS2017中建立ASP.NET MVC 4.0项目
新的项目需要运行在WIN2003上,又不想用ASPX了,只好用回ASP.NET MVC4.0了,可是在VS2017中已经没有MVC4的模板了,网上下载的安装了也没有,只好把以前的MVC4的项目拿出来 ...
C#-微信公众平台接口-上传临时素材
最烦做微信公众平台的东西..文档说得不清不楚,又没示例代码,只能自己慢慢搜索,弄了一晚上,基本弄出来了,把本地的图片上传到微信的临时素材那里,返回媒体ID,用于其他操作,代码如下 :(自己导入相应的 ...
【Unity】第7章输入控制
分类:Unity.C#.VS2015 创建日期:2016-04-21 一.简介 Unity提供了-个非常易用和强大的用于处理输入信息的类:Input,利用该类可以处理鼠标.键盘.摇杆/方向盘/手柄等游 ...

Mapreduce 进阶

Mapreduce 进阶的更多相关文章

随机推荐

热门专题