hadoop提交作业自定义排序和分组

现有数据如下：

3 3

3 2

3 1

2 2

2 1

1 1

要求为：

先按第一列从小到大排序，如果第一列相同，按第二列从小到大排序

如果是hadoop默认的排序方式，只能比较key，也就是第一列，而value是无法参与排序的

这时候就需要用到自定义的排序规则

解决思路：

自定义数据类型，将原本的key和value都包装进去

将这个数据类型当做key，这样就比较key的时候就可以包含第一列和第二列的值了

自定义数据类型NewK2如下：

//要实现自定义的排序规则必须实现WritableComparable接口，泛型参数为类本身

	public class NewK2 implements WritableComparable<NewK2> {

		//代表第一列和第二列的数据

		Long first;

		Long second;

		public NewK2() {

		}

		public NewK2(long first, long second) {

			this.first = first;

			this.second = second;

		}

		//重写序列化和反序列化方法

		@Override

		public void readFields(DataInput in) throws IOException {

			this.first = in.readLong();

			this.second = in.readLong();

		}

		@Override

		public void write(DataOutput out) throws IOException {

			out.writeLong(first);

			out.writeLong(second);

		}

		//当k2进行排序时，会自动调用该方法. 当第一列不同时，升序；当第一列相同时，第二列升序

		//如果希望降序排列，那么只需要对调this对象和o对象的顺序

		@Override

		public int compareTo(NewK2 o) {

			if(this.first != o.first)

			{

				return (int)(this.first - o.first);

			}

			else

			{

				return (int) (this.second - o.second);

			}

		}

		//重写hashCode和equals方法

		@Override

		public int hashCode() {

			return this.first.hashCode() + this.second.hashCode();

		}

		@Override

		public boolean equals(Object obj) {

			if (!(obj instanceof NewK2)) {

				return false;

			}

			NewK2 oK2 = (NewK2) obj;

			return (this.first == oK2.first) && (this.second == oK2.second);

		}

	}

MyMapper类代码：

public class MyMapper extends

			Mapper<LongWritable, Text, NewK2, LongWritable> {

		protected void map(

				LongWritable key,

				Text value,

				org.apache.hadoop.mapreduce.Mapper<LongWritable, Text, NewK2, LongWritable>.Context context)

				throws java.io.IOException, InterruptedException {

			final String[] splited = value.toString().split("\t");

			//分割完成之后的数据如：3,1  分别赋值给k2对象的first和second属性

			final NewK2 k2 = new NewK2(Long.parseLong(splited[0]),

					Long.parseLong(splited[1]));

			final LongWritable v2 = new LongWritable(Long.parseLong(splited[1]));

			//将k2当做key输出，这样在排序的时候就会调用NewK2的compareTo方法，里面写的是我们自己的排序规则

			context.write(k2, v2);

		};

	}

MyReducer类代码：

public class MyReducer extends

			Reducer<NewK2, LongWritable, LongWritable, LongWritable> {

		protected void reduce(

				NewK2 k2,

				java.lang.Iterable<LongWritable> v2s,

				org.apache.hadoop.mapreduce.Reducer<NewK2, LongWritable, LongWritable, LongWritable>.Context context)

				throws java.io.IOException, InterruptedException {

			context.write(new LongWritable(k2.first), new LongWritable(

					k2.second));

		};

	}

MySubmit类的代码和之前的一样无需改动

运行可得到结果如下图：

如果业务需求又发生了改变，如：上图结果中，第一列相同的，只要列出第二列的值最小的那个选项即可

那么结果应该为

1 1

2 1

3 1

可是我们之前使用的是自定义的数据类型当做key

而hadoop默认的分组策略是所有key相同的选项当做一组

而两个NewK2对象要相等，就必须要first和second属性都相等才行

这时就需要用到自定义的分组策略

自定义分组类如下：

//自定义的分组类必须实现RawComparator，泛型参数为类本身

	public class MyGroupingComparator implements RawComparator<NewK2> {

		//重写两个比较方法

		//按对象进行比较，规定只要两个NewK2对象的first属性相同就视为相等

		@Override

		public int compare(NewK2 o1, NewK2 o2) {

			return (int) (o1.first - o2.first);

		}

		/**

		 * @param arg0

		 *            表示第一个参与比较的字节数组

		 * @param arg1

		 *            表示第一个参与比较的字节数组的起始位置

		 * @param arg2

		 *            表示第一个参与比较的字节数组的偏移量

		 *

		 * @param arg3

		 *            表示第二个参与比较的字节数组

		 * @param arg4

		 *            表示第二个参与比较的字节数组的起始位置

		 * @param arg5

		 *            表示第二个参与比较的字节数组的偏移量

		 */

		@Override

		public int compare(byte[] arg0, int arg1, int arg2, byte[] arg3,

				int arg4, int arg5) {

			return WritableComparator

					.compareBytes(arg0, arg1, 8, arg3, arg4, 8);

		}

	}

在MySubmit代码中加入设置分组策略

// 1.4 TODO 排序、分区

		job.setGroupingComparatorClass(MyGroupingComparator.class);

再次运行程序可得到如下图的结果：

hadoop提交作业自定义排序和分组的更多相关文章

Hadoop提交作业流程
一 .需要知道的内容 1.ResourceManager ------>yarn的老大 2.NodeManager ------>yarn的小弟 3.ResourceMana ...
2 weekend110的hadoop的自定义排序实现 + mr程序中自定义分组的实现
我想得到按流量来排序,而且还是倒序,怎么达到实现呢? 达到下面这种效果, 默认是根据key来排, 我想根据value里的某个排, 解决思路:将value里的某个,放到key里去,然后来排下面,开始w ...
Hadoop mapreduce自定义排序WritableComparable
本文发表于本人博客. 今天继续写练习题,上次对分区稍微理解了一下,那根据那个步骤分区.排序.分组.规约来的话,今天应该是要写个排序有关的例子了,那好现在就开始! 说到排序我们可以查看下hadoop源码 ...
Hadoop学习笔记—11.MapReduce中的排序和分组
一.写在之前的 1.1 回顾Map阶段四大步骤首先,我们回顾一下在MapReduce中,排序和分组在哪里被执行: 从上图中可以清楚地看出,在Step1.4也就是第四步中,需要对不同分区中的数据进行排 ...
Hadoop学习之自定义二次排序
一.概述 MapReduce框架对处理结果的输出会根据key值进行默认的排序,这个默认排序可以满足一部分需求,但是也是十分有限的.在我们实际的需求当中,往往有要对reduce输出结果进行二次排 ...
Hadoop学习之路(7)MapReduce自定义排序
本文测试文本: tom 20 8000 nancy 22 8000 ketty 22 9000 stone 19 10000 green 19 11000 white 39 29000 socrate ...
Hadoop【MR的分区、排序、分组】
[toc] 一.分区问题:按照条件将结果输出到不同文件中自定义分区步骤 1.自定义继承Partitioner类,重写getPartition()方法 2.在job驱动Driver中设置自定义的Pa ...
eclipse 提交作业到JobTracker Hadoop的数据类型要求必须实现Writable接口
问:在eclipse中的写的代码如何提交作业到JobTracker中的哪?答:(1)在eclipse中调用的job.waitForCompletion(true)实际上执行如下方法 connect() ...
自定义排序及Hadoop序列化
自定义排序将两列数据进行排序,第一列按照升序排列,当第一列相同时,第二列升序排列. 在map和reduce阶段进行排序时,比较的是k2.v2是不参与排序比较的.如果要想让v2也进行排序,需要把k2和 ...

随机推荐

2.kafka单节点broker的安装与启动
下载kafka,http://kafka.apache.org/downloads kafka下面的文件结构如下: 进入bin目录,启动kafka之前要先启动zookeeper ./zookeeper ...
[ Python - 2 ] 常见内置函数
1. abs(): 绝对值 In [1]: abs(-10) Out[1]: 10 2. all(): 当参数中任何一个值为False时,all() 都为False all(iterable) ...
解决vim没有颜色的办法
首先打开vim,输入命令 scriptnames看看vim加载了哪些脚本. :scriptnames 输出入下 : /home/users/xxx/.vimrc : /home/users/xxx/t ...
seneca的一段代码（原创）
var seneca=require('seneca')() seneca.add({cmd:'wordcount'},function(msg,respond){ var length=0; if( ...
Spring boot集成redis初体验
pom.xml: <?xml version="1.0" encoding="UTF-8"?> <project xmlns="ht ...
css深入理解之border
1. border-width border-width不支持百分比,类似的还有outline,box-shadow,text-shadow等 border-width支持关键字:thin(1px, ...
C#给IIS添加禁止IP限制
/// <summary> /// 给IIS添加禁止IP限制 /// 仅针对iis 7及以上版本 /// 首先需要引入Microsoft.Web.Administration.dll // ...
错误 NETSDK1068: 框架依赖型应用程序主机需要一个至少 “netcoreapp2.1” 的目标框架
错误 NETSDK1068: 框架依赖型应用程序主机需要一个至少 “netcoreapp2.1” 的目标框架我有一个ASP.NET Core 2网站应用程序,编译运行都没有问题,但是发布时却出了错, ...
洛谷 P3927 SAC E#1 - 一道中档题 Factorial【数论//】
题目描述 SOL君很喜欢阶乘.而SOL菌很喜欢研究进制. 这一天,SOL君跟SOL菌炫技,随口算出了n的阶乘. SOL菌表示不服,立刻就要算这个数在k进制表示下末尾0的个数. 但是SOL菌太菜了于是请 ...
Hash算法详解
这篇不错: https://blog.csdn.net/u014209205/article/details/80820263

hadoop提交作业自定义排序和分组

hadoop提交作业自定义排序和分组的更多相关文章

随机推荐

热门专题