spark java API 实现二次排序

package com.spark.sort;

import java.io.Serializable;

import scala.math.Ordered;

public class SecondSortKey implements Serializable, Ordered<SecondSortKey> {

	/**

	 * serialVersionUID

	 */

	private static final long serialVersionUID = -2749925310062789494L;

	private String first;

	private long second;

	public SecondSortKey(String first, long second) {

		super();

		this.first = first;

		this.second = second;

	}

	public String getFirst() {

		return first;

	}

	public void setFirst(String first) {

		this.first = first;

	}

	public long getSecond() {

		return second;

	}

	public void setSecond(long second) {

		this.second = second;

	}

	@Override

	public int hashCode() {

		final int prime = 31;

		int result = 1;

		result = prime * result + ((first == null) ? 0 : first.hashCode());

		result = prime * result + (int) (second ^ (second >>> 32));

		return result;

	}

	@Override

	public boolean equals(Object obj) {

		if (this == obj)

			return true;

		if (obj == null)

			return false;

		if (getClass() != obj.getClass())

			return false;

		SecondSortKey other = (SecondSortKey) obj;

		if (first == null) {

			if (other.first != null)

				return false;

		} else if (!first.equals(other.first))

			return false;

		if (second != other.second)

			return false;

		return true;

	}

	@Override

	public boolean $greater(SecondSortKey that) {

		if (this.first.compareTo(that.getFirst()) > 0) {

			return true;

		} else if (this.first.equals(that.getFirst()) && this.second > that.getSecond()) {

			return true;

		}

		return false;

	}

	@Override

	public boolean $greater$eq(SecondSortKey that) {

		if (this.$greater(that)) {

			return true;

		}else if(this.first.equals(that.getFirst()) && this.second == that.getSecond()){

			return true;

		}

		return false;

	}

	@Override

	public boolean $less(SecondSortKey that) {

		if (this.first.compareTo(that.getFirst()) < 0) {

			return true;

		} else if (this.first.equals(that.getFirst()) && this.second < that.getSecond()) {

			return true;

		}

		return false;

	}

	@Override

	public boolean $less$eq(SecondSortKey that) {

		if (this.$less(that)) {

			return true;

		}else if(this.first.equals(that.getFirst()) && this.second == that.getSecond()){

			return true;

		}

		return false;

	}

	@Override

	public int compare(SecondSortKey that) {

		if (this.first.compareTo(that.getFirst()) != 0) {

			return this.first.compareTo(that.getFirst());

		} else {

			return (int) (this.second - that.getSecond());

		}

	}

	@Override

	public int compareTo(SecondSortKey that) {

		if (this.first.compareTo(that.getFirst()) != 0) {

			return this.first.compareTo(that.getFirst());

		} else {

			return (int) (this.second - that.getSecond());

		}

	}

}

package com.spark.sort;

 2

 3 import org.apache.spark.SparkConf;

 4 import org.apache.spark.api.java.JavaPairRDD;

 5 import org.apache.spark.api.java.JavaRDD;

 6 import org.apache.spark.api.java.JavaSparkContext;

 7 import org.apache.spark.api.java.function.Function;

 8 import org.apache.spark.api.java.function.PairFunction;

 9

10 import scala.Tuple2;

11

12 public class SecondSort {

13

14     public static void main(String[] args) {

15         SparkConf sparkConf = new SparkConf().setAppName("secondsort").setMaster("local");

16         JavaSparkContext jsc = new JavaSparkContext(sparkConf);

17         JavaRDD<String> textFileRDD = jsc.textFile("D:\\test\\input\\sort");

18         JavaPairRDD<SecondSortKey,String> pairRDD = textFileRDD.mapToPair(new PairFunction<String, SecondSortKey, String>() {

19             @Override

20             public Tuple2<SecondSortKey, String> call(String t) throws Exception {

21                 String[] split = t.split("\t");

22                 String first = split[0];

23                 Long second = Long.valueOf(split[1]);

24                 SecondSortKey ssk = new SecondSortKey(first, second);

25                 return new Tuple2<SecondSortKey, String>(ssk, t);

26             }

27         });

28

29         //排序

30         JavaPairRDD<SecondSortKey, String> sortByKeyRDD =pairRDD.sortByKey();

31

32         //过滤自定义的key

33         JavaRDD<String> mapRDD = sortByKeyRDD.map(new Function<Tuple2<SecondSortKey,String>, String>() {

34

35             @Override

36             public String call(Tuple2<SecondSortKey, String> v1) throws Exception {

37

38                 return v1._2;

39             }

40         });

41

42         mapRDD.saveAsTextFile("D:\\test\\output\\sort");

43

44         jsc.close();

45     }

46

47

48 }

源数据：

a 12
a 2
b 26
c 85
ab 32
ab 23
ac 12
b 85
a 36
b 69
c 25

排序之后：

a 2
a 12
a 36
ab 23
ab 32
ac 12
b 26
b 69
b 85
c 25
c 85

spark java API 实现二次排序的更多相关文章

spark函数sortByKey实现二次排序
最近在项目中遇到二次排序的需求,和平常开发spark的application一样,开始查看API,编码,调试,验证结果.由于之前对spark的API使用过,知道API中的sortByKey()可以自定 ...
Spark Java API 计算 Levenshtein 距离
Spark Java API 计算 Levenshtein 距离在上一篇文章中,完成了Spark开发环境的搭建,最终的目标是对用户昵称信息做聚类分析,找出违规的昵称.聚类分析需要一个距离,用来衡量两 ...
Spark Java API 之 CountVectorizer
Spark Java API 之 CountVectorizer 由于在Spark中文本处理与分析的一些机器学习算法的输入并不是文本数据,而是数值型向量.因此,需要进行转换.而将文本数据转换成数值型的 ...
在 IntelliJ IDEA 中配置 Spark(Java API) 运行环境
1. 新建Maven项目初始Maven项目完成后,初始的配置(pom.xml)如下: 2. 配置Maven 向项目里新建Spark Core库 <?xml version="1.0& ...
spark (java API) 在Intellij IDEA中开发并运行
概述:Spark 程序开发,调试和运行,intellij idea开发Spark java程序. 分两部分,第一部分基于intellij idea开发Spark实例程序并在intellij IDEA中 ...
【spark】示例：二次排序
我们有这样一个文件首先我们的思路是把输入文件数据转化成键值对的形式进行比较不就好了嘛! 但是你要明白这一点,我们平时所使用的键值对是不具有比较意义的,也就说他们没法拿来直接比较. ...
spark java api数据分析实战
1 spark关键包  <dependency> <groupId>fakepath</groupId> <artifac ...
spark分组统计及二次排序案例一枚
组织数据形式: aa 11 bb 11 cc 34 aa 22 bb 67 cc 29 aa 36 bb 33 cc 30 aa 42 bb 44 cc 49 需求: 1.对上述数据按key值进行分组 ...
【Spark Java API】broadcast、accumulator
转载自:http://www.jianshu.com/p/082ef79c63c1 broadcast 官方文档描述: Broadcast a read-only variable to the cl ...

随机推荐

Service Fabric —— Actor / Stateless Service 概念
作者:潘罡 (Van Pan) @ Microsoft 上一节我们谈到了Stateful Service.在Service Fabric中,Stateful Service是理解Micro Servi ...
解析Job，bpmn文件的小项目总结
1.在使用String类中split(String regex)切割字符串abcd.job遇得到job字符串时,直接使用split("."),导致数组超出界限错误原因:得到的数组 ...
NDKr10的各种BUG
NDKr10有几个BUG,所以推荐使用NDKr9 bug1:不支持srand() bug2: 链接异常,找不到stpcpy()
Postman简明教程
一.Postman简介 Postman是一款接口测试工具,常用于日常工作的接口类功能测试和简单的自动化测试. 二.Postman功能介绍 1.常见get请求的接口测试我们现在有这样一个获取学生信息的 ...
Jekens Source Code Management None 源码管理没有Git
jekens安装完成后,在配置中Source Code Management没有Git的选项,只有none,搞了大半天,一直安装插件报错,网上找的各种文章均未能解决我的问题,多次尝试后终于解决了这个问 ...
用Grub4dos引导，硬盘安装ArchLinux
本来在工作机上用winXP,最近想深入Linux开发,于是决定装个Linux.家里的archLinux + awesome用得很好, 于是决定在工作机上也装一套. 不想刻盘,也不想用U盘,通过Grub ...
Codeforces刷题计划
Codeforces刷题计划已完成:-- / -- [Codeforces370E]370E - Summer Reading:构造:(给定某些数,在空白处填数,要求不下降,并且相邻差值<=1 ...
20155213 2016-2017-2 《Java程序设计》第七周学习总结
20155213 2016-2017-2 <Java程序设计>第七周学习总结教材学习内容总结 Lambda 如果使用JDK8的话,可以使用Lambda特性去除重复的信息. 在只有Lamb ...
CodeForces - 1040B Shashlik Cooking
Long story short, shashlik is Miroslav's favorite food. Shashlik is prepared on several skewers simu ...
css3 加载动画效果
Loading 动画效果一 HTML 代码: <div class="spinner"> <div class="rect1&quo ...

spark java API 实现二次排序

spark java API 实现二次排序的更多相关文章

随机推荐

热门专题