【Hadoop】Hadoop MR 自定义排序

1、概念

2、代码示例

FlowSort

package com.ares.hadoop.mr.flowsort;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.conf.Configured;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.NullWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.mapreduce.Reducer;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import org.apache.hadoop.util.StringUtils;

import org.apache.hadoop.util.Tool;

import org.apache.hadoop.util.ToolRunner;

import org.apache.log4j.Logger;

import com.ares.hadoop.mr.exception.LineException;

public class FlowSort extends Configured implements Tool {

    private static final Logger LOGGER = Logger.getLogger(FlowSort.class);

    enum Counter {

        LINESKIP

    }

    public static class FlowSortMapper extends Mapper<LongWritable, Text,

        FlowBean, NullWritable> {

        private String line;

        private int length;

        private final static char separator = '\t';

        private String phoneNum;

        private long upFlow;

        private long downFlow;

        private long sumFlow;

        private FlowBean flowBean = new FlowBean();

        private NullWritable nullWritable = NullWritable.get();

        @Override

        protected void map(

                LongWritable key,

                Text value,

                Mapper<LongWritable, Text, FlowBean, NullWritable>.Context context)

                throws IOException, InterruptedException {

            // TODO Auto-generated method stub

            //super.map(key, value, context);

            String errMsg;

            try {

                line = value.toString();

                String[] fields = StringUtils.split(line, separator);

                length = fields.length;

                if (length != ) {

                    throw new LineException(key.get() + ", " + line + " LENGTH INVALID, IGNORE...");

                }

                phoneNum = fields[];

                upFlow = Long.parseLong(fields[]);

                downFlow = Long.parseLong(fields[]);

                sumFlow = Long.parseLong(fields[]);

                flowBean.setPhoneNum(phoneNum);

                flowBean.setUpFlow(upFlow);

                flowBean.setDownFlow(downFlow);

                flowBean.setSumFlow(sumFlow);

                context.write(flowBean, nullWritable);

            } catch (LineException e) {

                // TODO: handle exception

                LOGGER.error(e);

                System.out.println(e);

                context.getCounter(Counter.LINESKIP).increment();

                return;

            } catch (NumberFormatException e) {

                // TODO: handle exception

                errMsg = key.get() + ", " + line + " FLOW DATA INVALID, IGNORE...";

                LOGGER.error(errMsg);

                System.out.println(errMsg);

                context.getCounter(Counter.LINESKIP).increment();

                return;

            } catch (Exception e) {

                // TODO: handle exception

                LOGGER.error(e);

                System.out.println(e);

                context.getCounter(Counter.LINESKIP).increment();

                return;

            }

        }

    }

    public static class FlowSortReducer extends Reducer<FlowBean, NullWritable,

        FlowBean, NullWritable> {

        @Override

        protected void reduce(

                FlowBean key,

                Iterable<NullWritable> values,

                Reducer<FlowBean, NullWritable, FlowBean, NullWritable>.Context context)

                throws IOException, InterruptedException {

            // TODO Auto-generated method stub

            //super.reduce(arg0, arg1, arg2);

            context.write(key, NullWritable.get());

        }

    }

    @Override

    public int run(String[] args) throws Exception {

        // TODO Auto-generated method stub

        String errMsg = "FlowSort: TEST STARTED...";

        LOGGER.debug(errMsg);

        System.out.println(errMsg);

        Configuration conf = new Configuration();

        //FOR Eclipse JVM Debug

        //conf.set("mapreduce.job.jar", "flowsum.jar");

        Job job = Job.getInstance(conf);

        // JOB NAME

        job.setJobName("FlowSort");

        // JOB MAPPER & REDUCER

        job.setJarByClass(FlowSort.class);

        job.setMapperClass(FlowSortMapper.class);

        job.setReducerClass(FlowSortReducer.class);

        // MAP & REDUCE

        job.setOutputKeyClass(FlowBean.class);

        job.setOutputValueClass(NullWritable.class);

        // MAP

        job.setMapOutputKeyClass(FlowBean.class);

        job.setMapOutputValueClass(NullWritable.class);

        // JOB INPUT & OUTPUT PATH

        //FileInputFormat.addInputPath(job, new Path(args[0]));

        FileInputFormat.setInputPaths(job, args[]);

        FileOutputFormat.setOutputPath(job, new Path(args[]));

        // VERBOSE OUTPUT

        if (job.waitForCompletion(true)) {

            errMsg = "FlowSort: TEST SUCCESSFULLY...";

            LOGGER.debug(errMsg);

            System.out.println(errMsg);

            return ;

        } else {

            errMsg = "FlowSort: TEST FAILED...";

            LOGGER.debug(errMsg);

            System.out.println(errMsg);

            return ;

        }            

    }

    public static void main(String[] args) throws Exception {

        if (args.length != ) {

            String errMsg = "FlowSort: ARGUMENTS ERROR";

            LOGGER.error(errMsg);

            System.out.println(errMsg);

            System.exit(-);

        }

        int result = ToolRunner.run(new Configuration(), new FlowSort(), args);

        System.exit(result);

    }

}

FlowBean

package com.ares.hadoop.mr.flowsort;

import java.io.DataInput;

import java.io.DataOutput;

import java.io.IOException;

import org.apache.hadoop.io.WritableComparable;

public class FlowBean implements WritableComparable<FlowBean>{

    private String phoneNum;

    private long upFlow;

    private long downFlow;

    private long sumFlow;

    public FlowBean() {

        // TODO Auto-generated constructor stub

    }

//    public FlowBean(String phoneNum, long upFlow, long downFlow, long sumFlow) {

//        super();

//        this.phoneNum = phoneNum;

//        this.upFlow = upFlow;

//        this.downFlow = downFlow;

//        this.sumFlow = sumFlow;

//    }

    public String getPhoneNum() {

        return phoneNum;

    }

    public void setPhoneNum(String phoneNum) {

        this.phoneNum = phoneNum;

    }

    public long getUpFlow() {

        return upFlow;

    }

    public void setUpFlow(long upFlow) {

        this.upFlow = upFlow;

    }

    public long getDownFlow() {

        return downFlow;

    }

    public void setDownFlow(long downFlow) {

        this.downFlow = downFlow;

    }

    public long getSumFlow() {

        return sumFlow;

    }

    public void setSumFlow(long sumFlow) {

        this.sumFlow = sumFlow;

    }

    @Override

    public void readFields(DataInput in) throws IOException {

        // TODO Auto-generated method stub

        phoneNum = in.readUTF();

        upFlow = in.readLong();

        downFlow = in.readLong();

        sumFlow = in.readLong();

    }

    @Override

    public void write(DataOutput out) throws IOException {

        // TODO Auto-generated method stub

        out.writeUTF(phoneNum);

        out.writeLong(upFlow);

        out.writeLong(downFlow);

        out.writeLong(sumFlow);

    }

    @Override

    public String toString() {

        return "" + phoneNum + "\t" + upFlow + "\t" + downFlow + "\t" + sumFlow;

    }

    @Override

    public int compareTo(FlowBean o) {

        // TODO Auto-generated method stub

        return sumFlow>o.getSumFlow()?-:;

    }

}

LineException

package com.ares.hadoop.mr.exception;

public class LineException extends RuntimeException {

    private static final long serialVersionUID = 2536144005398058435L;

    public LineException() {

        super();

        // TODO Auto-generated constructor stub

    }

    public LineException(String message, Throwable cause) {

        super(message, cause);

        // TODO Auto-generated constructor stub

    }

    public LineException(String message) {

        super(message);

        // TODO Auto-generated constructor stub

    }

    public LineException(Throwable cause) {

        super(cause);

        // TODO Auto-generated constructor stub

    }

}

【Hadoop】Hadoop MR 自定义排序的更多相关文章

hadoop提交作业自定义排序和分组
现有数据如下: 3 3 3 2 3 1 2 2 2 1 1 1 要求为: 先按第一列从小到大排序,如果第一列相同,按第二列从小到大排序如果是hadoop默认的排序方式,只能比较key,也就是第一列, ...
2 weekend110的hadoop的自定义排序实现 + mr程序中自定义分组的实现
我想得到按流量来排序,而且还是倒序,怎么达到实现呢? 达到下面这种效果, 默认是根据key来排, 我想根据value里的某个排, 解决思路:将value里的某个,放到key里去,然后来排下面,开始w ...
Hadoop学习之自定义二次排序
一.概述 MapReduce框架对处理结果的输出会根据key值进行默认的排序,这个默认排序可以满足一部分需求,但是也是十分有限的.在我们实际的需求当中,往往有要对reduce输出结果进行二次排 ...
自定义排序及Hadoop序列化
自定义排序将两列数据进行排序,第一列按照升序排列,当第一列相同时,第二列升序排列. 在map和reduce阶段进行排序时,比较的是k2.v2是不参与排序比较的.如果要想让v2也进行排序,需要把k2和 ...
Hadoop学习之路(7)MapReduce自定义排序
本文测试文本: tom 20 8000 nancy 22 8000 ketty 22 9000 stone 19 10000 green 19 11000 white 39 29000 socrate ...
Hadoop【MR的分区、排序、分组】
[toc] 一.分区问题:按照条件将结果输出到不同文件中自定义分区步骤 1.自定义继承Partitioner类,重写getPartition()方法 2.在job驱动Driver中设置自定义的Pa ...
Hadoop MapReduce 二次排序原理及其应用
关于二次排序主要涉及到这么几个东西: 在0.20.0 以前使用的是 setPartitionerClass setOutputkeyComparatorClass setOutputValueGrou ...
Hadoop【MR开发规范、序列化】
Hadoop[MR开发规范.序列化] 目录 Hadoop[MR开发规范.序列化] 一.MapReduce编程规范 1.Mapper阶段 2.Reducer阶段 3.Driver阶段二.WordCou ...
Hadoop基础-MapReduce的排序
Hadoop基础-MapReduce的排序作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.MapReduce的排序分类 1>.部分排序部分排序是对单个分区进行排序,举个 ...

随机推荐

《c程序设计语言》读书笔记-3.5-按要求进制位数字转字符串
#include <io.h> #include <stdio.h> #include <string.h> #include <stdlib.h> # ...
Codeforces Round #328 (Div. 2) C 数学
C. The Big Race time limit per test 1 second memory limit per test 256 megabytes input standard inpu ...
IEjs 调试、火狐 js 调试
http://www.jb51.net/article/26707.htm IE下调试代码, 在代码中写 debugger; 然后IE启用调试, 会执行到debugger 断点出, 双击变量右键添 ...
clips 前端 js 单选按钮与输入框的配合变化
情形1: 一对单选按钮一个输入框组输入框组随单选按钮的改变而替换文字或执行其它片段属于介绍单选框的基本使用方式 : 1.单选框是有分类的,每个单选框有自己所属的组从而一个页面可以拥有多组单 ...
javascript jquery document.ready window.onload
网易博客下载LOFTER客户端注册登录加关注凡图的编程之路 2012年7月从一个编程新手的点点滴滴首页日志 LOFTER 相册博友关于我日志关于我 Holy ...
kubernetes 搭建集群外部ip服务
nginx-pod.yaml apiVersion: v1 kind: Pod metadata: name: webapp labels: app: webapp spec: containers: ...
1.Openstack-环境安装
Centos7 OpenStack环境安装 Ifcofnig vim命令 Centos7最小化安装后如没有ifconfig vim命令,执行: 1 yum install -y net-tools v ...
centos6.5 安装mysql
在centos6.5上通过yum安装mysql: 1. yum list |grep mysql (查看版本) 2.安装mysql yum install -y mysql-server mysq ...
[译]java8新特性：函数式编程（functional programming）的优点
Java8引入了函数式编程,他对java是一个极大的扩展.Java从此不在是一个单纯的面向对象语言,现在他同时混合了函数式编程.这是巨大的改变,需要我们调整面对对象的编程习惯,以适应这些变化. 但是为 ...
mysql运维必会的一些知识点整理(转自民工哥)
(1)基础笔试命令考察 1.开启MySQL服务 /etc/init.d/mysqld start service mysqld start systemctl start mysqld 2.检测端口是 ...

【Hadoop】Hadoop MR 自定义排序

【Hadoop】Hadoop MR 自定义排序的更多相关文章

随机推荐

热门专题