hadoop提交作业自定义排序和分组

现有数据如下：

3 3

3 2

3 1

2 2

2 1

1 1

要求为：

先按第一列从小到大排序，如果第一列相同，按第二列从小到大排序

如果是hadoop默认的排序方式，只能比较key，也就是第一列，而value是无法参与排序的

这时候就需要用到自定义的排序规则

解决思路：

自定义数据类型，将原本的key和value都包装进去

将这个数据类型当做key，这样就比较key的时候就可以包含第一列和第二列的值了

自定义数据类型NewK2如下：

//要实现自定义的排序规则必须实现WritableComparable接口，泛型参数为类本身

	public class NewK2 implements WritableComparable<NewK2> {

		//代表第一列和第二列的数据

		Long first;

		Long second;

		public NewK2() {

		}

		public NewK2(long first, long second) {

			this.first = first;

			this.second = second;

		}

		//重写序列化和反序列化方法

		@Override

		public void readFields(DataInput in) throws IOException {

			this.first = in.readLong();

			this.second = in.readLong();

		}

		@Override

		public void write(DataOutput out) throws IOException {

			out.writeLong(first);

			out.writeLong(second);

		}

		//当k2进行排序时，会自动调用该方法. 当第一列不同时，升序；当第一列相同时，第二列升序

		//如果希望降序排列，那么只需要对调this对象和o对象的顺序

		@Override

		public int compareTo(NewK2 o) {

			if(this.first != o.first)

			{

				return (int)(this.first - o.first);

			}

			else

			{

				return (int) (this.second - o.second);

			}

		}

		//重写hashCode和equals方法

		@Override

		public int hashCode() {

			return this.first.hashCode() + this.second.hashCode();

		}

		@Override

		public boolean equals(Object obj) {

			if (!(obj instanceof NewK2)) {

				return false;

			}

			NewK2 oK2 = (NewK2) obj;

			return (this.first == oK2.first) && (this.second == oK2.second);

		}

	}

MyMapper类代码：

public class MyMapper extends

			Mapper<LongWritable, Text, NewK2, LongWritable> {

		protected void map(

				LongWritable key,

				Text value,

				org.apache.hadoop.mapreduce.Mapper<LongWritable, Text, NewK2, LongWritable>.Context context)

				throws java.io.IOException, InterruptedException {

			final String[] splited = value.toString().split("\t");

			//分割完成之后的数据如：3,1  分别赋值给k2对象的first和second属性

			final NewK2 k2 = new NewK2(Long.parseLong(splited[0]),

					Long.parseLong(splited[1]));

			final LongWritable v2 = new LongWritable(Long.parseLong(splited[1]));

			//将k2当做key输出，这样在排序的时候就会调用NewK2的compareTo方法，里面写的是我们自己的排序规则

			context.write(k2, v2);

		};

	}

MyReducer类代码：

public class MyReducer extends

			Reducer<NewK2, LongWritable, LongWritable, LongWritable> {

		protected void reduce(

				NewK2 k2,

				java.lang.Iterable<LongWritable> v2s,

				org.apache.hadoop.mapreduce.Reducer<NewK2, LongWritable, LongWritable, LongWritable>.Context context)

				throws java.io.IOException, InterruptedException {

			context.write(new LongWritable(k2.first), new LongWritable(

					k2.second));

		};

	}

MySubmit类的代码和之前的一样无需改动

运行可得到结果如下图：

如果业务需求又发生了改变，如：上图结果中，第一列相同的，只要列出第二列的值最小的那个选项即可

那么结果应该为

1 1

2 1

3 1

可是我们之前使用的是自定义的数据类型当做key

而hadoop默认的分组策略是所有key相同的选项当做一组

而两个NewK2对象要相等，就必须要first和second属性都相等才行

这时就需要用到自定义的分组策略

自定义分组类如下：

//自定义的分组类必须实现RawComparator，泛型参数为类本身

	public class MyGroupingComparator implements RawComparator<NewK2> {

		//重写两个比较方法

		//按对象进行比较，规定只要两个NewK2对象的first属性相同就视为相等

		@Override

		public int compare(NewK2 o1, NewK2 o2) {

			return (int) (o1.first - o2.first);

		}

		/**

		 * @param arg0

		 *            表示第一个参与比较的字节数组

		 * @param arg1

		 *            表示第一个参与比较的字节数组的起始位置

		 * @param arg2

		 *            表示第一个参与比较的字节数组的偏移量

		 *

		 * @param arg3

		 *            表示第二个参与比较的字节数组

		 * @param arg4

		 *            表示第二个参与比较的字节数组的起始位置

		 * @param arg5

		 *            表示第二个参与比较的字节数组的偏移量

		 */

		@Override

		public int compare(byte[] arg0, int arg1, int arg2, byte[] arg3,

				int arg4, int arg5) {

			return WritableComparator

					.compareBytes(arg0, arg1, 8, arg3, arg4, 8);

		}

	}

在MySubmit代码中加入设置分组策略

// 1.4 TODO 排序、分区

		job.setGroupingComparatorClass(MyGroupingComparator.class);

再次运行程序可得到如下图的结果：

hadoop提交作业自定义排序和分组的更多相关文章

Hadoop提交作业流程
一 .需要知道的内容 1.ResourceManager ------>yarn的老大 2.NodeManager ------>yarn的小弟 3.ResourceMana ...
2 weekend110的hadoop的自定义排序实现 + mr程序中自定义分组的实现
我想得到按流量来排序,而且还是倒序,怎么达到实现呢? 达到下面这种效果, 默认是根据key来排, 我想根据value里的某个排, 解决思路:将value里的某个,放到key里去,然后来排下面,开始w ...
Hadoop mapreduce自定义排序WritableComparable
本文发表于本人博客. 今天继续写练习题,上次对分区稍微理解了一下,那根据那个步骤分区.排序.分组.规约来的话,今天应该是要写个排序有关的例子了,那好现在就开始! 说到排序我们可以查看下hadoop源码 ...
Hadoop学习笔记—11.MapReduce中的排序和分组
一.写在之前的 1.1 回顾Map阶段四大步骤首先,我们回顾一下在MapReduce中,排序和分组在哪里被执行: 从上图中可以清楚地看出,在Step1.4也就是第四步中,需要对不同分区中的数据进行排 ...
Hadoop学习之自定义二次排序
一.概述 MapReduce框架对处理结果的输出会根据key值进行默认的排序,这个默认排序可以满足一部分需求,但是也是十分有限的.在我们实际的需求当中,往往有要对reduce输出结果进行二次排 ...
Hadoop学习之路(7)MapReduce自定义排序
本文测试文本: tom 20 8000 nancy 22 8000 ketty 22 9000 stone 19 10000 green 19 11000 white 39 29000 socrate ...
Hadoop【MR的分区、排序、分组】
[toc] 一.分区问题:按照条件将结果输出到不同文件中自定义分区步骤 1.自定义继承Partitioner类,重写getPartition()方法 2.在job驱动Driver中设置自定义的Pa ...
eclipse 提交作业到JobTracker Hadoop的数据类型要求必须实现Writable接口
问:在eclipse中的写的代码如何提交作业到JobTracker中的哪?答:(1)在eclipse中调用的job.waitForCompletion(true)实际上执行如下方法 connect() ...
自定义排序及Hadoop序列化
自定义排序将两列数据进行排序,第一列按照升序排列,当第一列相同时,第二列升序排列. 在map和reduce阶段进行排序时,比较的是k2.v2是不参与排序比较的.如果要想让v2也进行排序,需要把k2和 ...

随机推荐

怎样简单编写一个html网页
# 转载请留言联系一个HTML的基本结构如下: <!DOCTYPE html> <html lang="en"> <head> <met ...
UVALive - 5798
Jupiter Atacks! /** 题意:B,P,L,N,分别表示进制,mod,数组的个数,操作数做法:树状数组欧几里得每个数加入到数组Tree的数是 B^(L-i) 用树状数组进行维护前缀 ...
Selenium2+python自动化20-Excel数据参数化【转载】
前言问: Python 获取到Excel一列值后怎么用selenium录制的脚本中参数化,比如对登录用户名和密码如何做参数化? 答:可以使用xlrd读取Excel的内容进行参数化.当然为了便于各位小 ...
Qt笔记——QFile，QDataStream，QTextStream
QFile #ifndef WIDGET_H #define WIDGET_H #include <QWidget> namespace Ui { class Widget; } clas ...
rm 命令(删除文件和目录)
rm是常用的命令,该命令的功能为删除一个目录中的一个或多个文件或目录,它也可以将某个目录及其下的所有文件及子目录均删除.对于链接文件,只是删除了链接,原有文件均保持不变. rm是一个危险的命令,使用的 ...
secureCRT的自动登录设置
具体设置的步骤如下: 1. 打scrt,创建一个新的回话 2. 右击该回话选择属性,定位到左边选项卡的登录动作 3. 第一行:预期是$; 发送是ssh username@machine name 第二 ...
Allocate exception for servlet XXX 基本异常
HTTP Status 500 - Error instantiating servlet class cn.tedu.servlet 错误!! 解决方案: 查看当前项目下的web.xm文件的真 ...
Codeforces 810 A.Straight «A»
A. Straight «A» time limit per test 1 second memory limit per test 256 megabytes input standard in ...
HDU 1308 What Day Is It?（模拟，日期）
解题报告:输入一个年月日,让你求出那一天是星期几,但是做这题之前必须先了解一点历史.首先在1582年之前,判断是否是闰年的标准是只要能被四整除就是闰年, 然后在1752年9月2号的后的11天被抹去了, ...
MySQL数据库增删改字段（属性）
MySQL数据库的各种操作今天在这里总结一下: 一.增加 1.在已有的表中添加新的字段: 首先是增加表的字段,比如一张表原本没有字段“ Time ”,现在我们要增加这样一个字段,可以用下面的SQL语句 ...

hadoop提交作业自定义排序和分组

hadoop提交作业自定义排序和分组的更多相关文章

随机推荐

热门专题