【Hadoop】Hadoop MR 自定义排序

1、概念

2、代码示例

FlowSort

package com.ares.hadoop.mr.flowsort;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.conf.Configured;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.NullWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.mapreduce.Reducer;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import org.apache.hadoop.util.StringUtils;

import org.apache.hadoop.util.Tool;

import org.apache.hadoop.util.ToolRunner;

import org.apache.log4j.Logger;

import com.ares.hadoop.mr.exception.LineException;

public class FlowSort extends Configured implements Tool {

    private static final Logger LOGGER = Logger.getLogger(FlowSort.class);

    enum Counter {

        LINESKIP

    }

    public static class FlowSortMapper extends Mapper<LongWritable, Text,

        FlowBean, NullWritable> {

        private String line;

        private int length;

        private final static char separator = '\t';

        private String phoneNum;

        private long upFlow;

        private long downFlow;

        private long sumFlow;

        private FlowBean flowBean = new FlowBean();

        private NullWritable nullWritable = NullWritable.get();

        @Override

        protected void map(

                LongWritable key,

                Text value,

                Mapper<LongWritable, Text, FlowBean, NullWritable>.Context context)

                throws IOException, InterruptedException {

            // TODO Auto-generated method stub

            //super.map(key, value, context);

            String errMsg;

            try {

                line = value.toString();

                String[] fields = StringUtils.split(line, separator);

                length = fields.length;

                if (length != ) {

                    throw new LineException(key.get() + ", " + line + " LENGTH INVALID, IGNORE...");

                }

                phoneNum = fields[];

                upFlow = Long.parseLong(fields[]);

                downFlow = Long.parseLong(fields[]);

                sumFlow = Long.parseLong(fields[]);

                flowBean.setPhoneNum(phoneNum);

                flowBean.setUpFlow(upFlow);

                flowBean.setDownFlow(downFlow);

                flowBean.setSumFlow(sumFlow);

                context.write(flowBean, nullWritable);

            } catch (LineException e) {

                // TODO: handle exception

                LOGGER.error(e);

                System.out.println(e);

                context.getCounter(Counter.LINESKIP).increment();

                return;

            } catch (NumberFormatException e) {

                // TODO: handle exception

                errMsg = key.get() + ", " + line + " FLOW DATA INVALID, IGNORE...";

                LOGGER.error(errMsg);

                System.out.println(errMsg);

                context.getCounter(Counter.LINESKIP).increment();

                return;

            } catch (Exception e) {

                // TODO: handle exception

                LOGGER.error(e);

                System.out.println(e);

                context.getCounter(Counter.LINESKIP).increment();

                return;

            }

        }

    }

    public static class FlowSortReducer extends Reducer<FlowBean, NullWritable,

        FlowBean, NullWritable> {

        @Override

        protected void reduce(

                FlowBean key,

                Iterable<NullWritable> values,

                Reducer<FlowBean, NullWritable, FlowBean, NullWritable>.Context context)

                throws IOException, InterruptedException {

            // TODO Auto-generated method stub

            //super.reduce(arg0, arg1, arg2);

            context.write(key, NullWritable.get());

        }

    }

    @Override

    public int run(String[] args) throws Exception {

        // TODO Auto-generated method stub

        String errMsg = "FlowSort: TEST STARTED...";

        LOGGER.debug(errMsg);

        System.out.println(errMsg);

        Configuration conf = new Configuration();

        //FOR Eclipse JVM Debug

        //conf.set("mapreduce.job.jar", "flowsum.jar");

        Job job = Job.getInstance(conf);

        // JOB NAME

        job.setJobName("FlowSort");

        // JOB MAPPER & REDUCER

        job.setJarByClass(FlowSort.class);

        job.setMapperClass(FlowSortMapper.class);

        job.setReducerClass(FlowSortReducer.class);

        // MAP & REDUCE

        job.setOutputKeyClass(FlowBean.class);

        job.setOutputValueClass(NullWritable.class);

        // MAP

        job.setMapOutputKeyClass(FlowBean.class);

        job.setMapOutputValueClass(NullWritable.class);

        // JOB INPUT & OUTPUT PATH

        //FileInputFormat.addInputPath(job, new Path(args[0]));

        FileInputFormat.setInputPaths(job, args[]);

        FileOutputFormat.setOutputPath(job, new Path(args[]));

        // VERBOSE OUTPUT

        if (job.waitForCompletion(true)) {

            errMsg = "FlowSort: TEST SUCCESSFULLY...";

            LOGGER.debug(errMsg);

            System.out.println(errMsg);

            return ;

        } else {

            errMsg = "FlowSort: TEST FAILED...";

            LOGGER.debug(errMsg);

            System.out.println(errMsg);

            return ;

        }            

    }

    public static void main(String[] args) throws Exception {

        if (args.length != ) {

            String errMsg = "FlowSort: ARGUMENTS ERROR";

            LOGGER.error(errMsg);

            System.out.println(errMsg);

            System.exit(-);

        }

        int result = ToolRunner.run(new Configuration(), new FlowSort(), args);

        System.exit(result);

    }

}

FlowBean

package com.ares.hadoop.mr.flowsort;

import java.io.DataInput;

import java.io.DataOutput;

import java.io.IOException;

import org.apache.hadoop.io.WritableComparable;

public class FlowBean implements WritableComparable<FlowBean>{

    private String phoneNum;

    private long upFlow;

    private long downFlow;

    private long sumFlow;

    public FlowBean() {

        // TODO Auto-generated constructor stub

    }

//    public FlowBean(String phoneNum, long upFlow, long downFlow, long sumFlow) {

//        super();

//        this.phoneNum = phoneNum;

//        this.upFlow = upFlow;

//        this.downFlow = downFlow;

//        this.sumFlow = sumFlow;

//    }

    public String getPhoneNum() {

        return phoneNum;

    }

    public void setPhoneNum(String phoneNum) {

        this.phoneNum = phoneNum;

    }

    public long getUpFlow() {

        return upFlow;

    }

    public void setUpFlow(long upFlow) {

        this.upFlow = upFlow;

    }

    public long getDownFlow() {

        return downFlow;

    }

    public void setDownFlow(long downFlow) {

        this.downFlow = downFlow;

    }

    public long getSumFlow() {

        return sumFlow;

    }

    public void setSumFlow(long sumFlow) {

        this.sumFlow = sumFlow;

    }

    @Override

    public void readFields(DataInput in) throws IOException {

        // TODO Auto-generated method stub

        phoneNum = in.readUTF();

        upFlow = in.readLong();

        downFlow = in.readLong();

        sumFlow = in.readLong();

    }

    @Override

    public void write(DataOutput out) throws IOException {

        // TODO Auto-generated method stub

        out.writeUTF(phoneNum);

        out.writeLong(upFlow);

        out.writeLong(downFlow);

        out.writeLong(sumFlow);

    }

    @Override

    public String toString() {

        return "" + phoneNum + "\t" + upFlow + "\t" + downFlow + "\t" + sumFlow;

    }

    @Override

    public int compareTo(FlowBean o) {

        // TODO Auto-generated method stub

        return sumFlow>o.getSumFlow()?-:;

    }

}

LineException

package com.ares.hadoop.mr.exception;

public class LineException extends RuntimeException {

    private static final long serialVersionUID = 2536144005398058435L;

    public LineException() {

        super();

        // TODO Auto-generated constructor stub

    }

    public LineException(String message, Throwable cause) {

        super(message, cause);

        // TODO Auto-generated constructor stub

    }

    public LineException(String message) {

        super(message);

        // TODO Auto-generated constructor stub

    }

    public LineException(Throwable cause) {

        super(cause);

        // TODO Auto-generated constructor stub

    }

}

【Hadoop】Hadoop MR 自定义排序的更多相关文章

hadoop提交作业自定义排序和分组
现有数据如下: 3 3 3 2 3 1 2 2 2 1 1 1 要求为: 先按第一列从小到大排序,如果第一列相同,按第二列从小到大排序如果是hadoop默认的排序方式,只能比较key,也就是第一列, ...
2 weekend110的hadoop的自定义排序实现 + mr程序中自定义分组的实现
我想得到按流量来排序,而且还是倒序,怎么达到实现呢? 达到下面这种效果, 默认是根据key来排, 我想根据value里的某个排, 解决思路:将value里的某个,放到key里去,然后来排下面,开始w ...
Hadoop学习之自定义二次排序
一.概述 MapReduce框架对处理结果的输出会根据key值进行默认的排序,这个默认排序可以满足一部分需求,但是也是十分有限的.在我们实际的需求当中,往往有要对reduce输出结果进行二次排 ...
自定义排序及Hadoop序列化
自定义排序将两列数据进行排序,第一列按照升序排列,当第一列相同时,第二列升序排列. 在map和reduce阶段进行排序时,比较的是k2.v2是不参与排序比较的.如果要想让v2也进行排序,需要把k2和 ...
Hadoop学习之路(7)MapReduce自定义排序
本文测试文本: tom 20 8000 nancy 22 8000 ketty 22 9000 stone 19 10000 green 19 11000 white 39 29000 socrate ...
Hadoop【MR的分区、排序、分组】
[toc] 一.分区问题:按照条件将结果输出到不同文件中自定义分区步骤 1.自定义继承Partitioner类,重写getPartition()方法 2.在job驱动Driver中设置自定义的Pa ...
Hadoop MapReduce 二次排序原理及其应用
关于二次排序主要涉及到这么几个东西: 在0.20.0 以前使用的是 setPartitionerClass setOutputkeyComparatorClass setOutputValueGrou ...
Hadoop【MR开发规范、序列化】
Hadoop[MR开发规范.序列化] 目录 Hadoop[MR开发规范.序列化] 一.MapReduce编程规范 1.Mapper阶段 2.Reducer阶段 3.Driver阶段二.WordCou ...
Hadoop基础-MapReduce的排序
Hadoop基础-MapReduce的排序作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.MapReduce的排序分类 1>.部分排序部分排序是对单个分区进行排序,举个 ...

随机推荐

mysql5.6免安装配置（菜鸟版）
mysql5.6免安装配置 MySQL5.6.13安装步骤(Windows7 32位) 1. 下载MySQL Community Server 5.6.13 2. 解压MySQL压缩包将以下载的My ...
centos 搭建web平台
centos 查询是否安装apacherpm -qa httpd 出现类似 httpd--.el6.centos..x86_64 ,说明已安装 yum -y install httpd // 安 ...
java 竖线分割字符串的问题
java 竖线分割字符串的问题例1: String[] paraStr = "6010;320100;A".split(";"); System.out.pr ...
GPS经纬度的表示方法及换算
想要认识GPS中的经纬度,就必须先了解GPS,知道经纬度的来源: 1. GPS系统组成 GPS是 Gloabal Positioning System 的简称,意为全球定位系统,主要由地面的控制站.天 ...
不只是内存分析工具~valgrind
体系结构:原理介绍·参考好文:应用 Valgrind 发现 Linux 程序的内存问题简单组一个摘要: Valgrind包括如下一些工具: Memcheck.这是valgrind应用最广泛的工具,一 ...
python中函数和生成器的运行原理
#!/usr/bin/env python # -*- coding:utf-8 -*- # author:love_cat # python的函数是如何工作的 # 比方说我们定义了两个函数 def ...
java 调用可执行文件时,ProcessBuilder异常CreateProcess error=2
java 调用其他应用程序时,可能在windows下没有问题,但是转到linux下,却会报这样那样的错误,比如有设计文件操作会报FileNotFoundException等等(如下代码): Proce ...
Visual Studio跨平台开发(1)：Hello Xamarin!
前言应用程序发展的脚步, 从来没有停过. 从早期的Windows 应用程序, 到网络时代的web 应用程序, 再到近几年相当盛行的行动装置应用程序(Mobile Application), 身为C# ...
AC日记——玻璃切割 51nod 1562
玻璃切割思路: 并查集: 离线操作: 先把每次切割都存下来: 然后从后面不断合并切割: 然后每次更新最大长和宽: 记录答案: 要开longlong: 来,上代码 #include <cstdi ...
Linux下多进程服务端客户端模型二（粘包问题与一种解决方法）
一.Linux发送网络消息的过程 (1) 应用程序调用write()将消息发送到内核中 ( 2)内核中的缓存达到了固定长度数据后,一般是SO_SNDBUF,将发送到TCP协议层 (3)IP层从TCP层 ...

【Hadoop】Hadoop MR 自定义排序

【Hadoop】Hadoop MR 自定义排序的更多相关文章

随机推荐

热门专题