spark java API 实现二次排序
package com.spark.sort;
import java.io.Serializable;
import scala.math.Ordered;
public class SecondSortKey implements Serializable, Ordered<SecondSortKey> {
/**
* serialVersionUID
*/
private static final long serialVersionUID = -2749925310062789494L;
private String first;
private long second;
public SecondSortKey(String first, long second) {
super();
this.first = first;
this.second = second;
}
public String getFirst() {
return first;
}
public void setFirst(String first) {
this.first = first;
}
public long getSecond() {
return second;
}
public void setSecond(long second) {
this.second = second;
}
@Override
public int hashCode() {
final int prime = 31;
int result = 1;
result = prime * result + ((first == null) ? 0 : first.hashCode());
result = prime * result + (int) (second ^ (second >>> 32));
return result;
}
@Override
public boolean equals(Object obj) {
if (this == obj)
return true;
if (obj == null)
return false;
if (getClass() != obj.getClass())
return false;
SecondSortKey other = (SecondSortKey) obj;
if (first == null) {
if (other.first != null)
return false;
} else if (!first.equals(other.first))
return false;
if (second != other.second)
return false;
return true;
}
@Override
public boolean $greater(SecondSortKey that) {
if (this.first.compareTo(that.getFirst()) > 0) {
return true;
} else if (this.first.equals(that.getFirst()) && this.second > that.getSecond()) {
return true;
}
return false;
}
@Override
public boolean $greater$eq(SecondSortKey that) {
if (this.$greater(that)) {
return true;
}else if(this.first.equals(that.getFirst()) && this.second == that.getSecond()){
return true;
}
return false;
}
@Override
public boolean $less(SecondSortKey that) {
if (this.first.compareTo(that.getFirst()) < 0) {
return true;
} else if (this.first.equals(that.getFirst()) && this.second < that.getSecond()) {
return true;
}
return false;
}
@Override
public boolean $less$eq(SecondSortKey that) {
if (this.$less(that)) {
return true;
}else if(this.first.equals(that.getFirst()) && this.second == that.getSecond()){
return true;
}
return false;
}
@Override
public int compare(SecondSortKey that) {
if (this.first.compareTo(that.getFirst()) != 0) {
return this.first.compareTo(that.getFirst());
} else {
return (int) (this.second - that.getSecond());
}
}
@Override
public int compareTo(SecondSortKey that) {
if (this.first.compareTo(that.getFirst()) != 0) {
return this.first.compareTo(that.getFirst());
} else {
return (int) (this.second - that.getSecond());
}
}
}
package com.spark.sort;
2
3 import org.apache.spark.SparkConf;
4 import org.apache.spark.api.java.JavaPairRDD;
5 import org.apache.spark.api.java.JavaRDD;
6 import org.apache.spark.api.java.JavaSparkContext;
7 import org.apache.spark.api.java.function.Function;
8 import org.apache.spark.api.java.function.PairFunction;
9
10 import scala.Tuple2;
11
12 public class SecondSort {
13
14 public static void main(String[] args) {
15 SparkConf sparkConf = new SparkConf().setAppName("secondsort").setMaster("local");
16 JavaSparkContext jsc = new JavaSparkContext(sparkConf);
17 JavaRDD<String> textFileRDD = jsc.textFile("D:\\test\\input\\sort");
18 JavaPairRDD<SecondSortKey,String> pairRDD = textFileRDD.mapToPair(new PairFunction<String, SecondSortKey, String>() {
19 @Override
20 public Tuple2<SecondSortKey, String> call(String t) throws Exception {
21 String[] split = t.split("\t");
22 String first = split[0];
23 Long second = Long.valueOf(split[1]);
24 SecondSortKey ssk = new SecondSortKey(first, second);
25 return new Tuple2<SecondSortKey, String>(ssk, t);
26 }
27 });
28
29 //排序
30 JavaPairRDD<SecondSortKey, String> sortByKeyRDD =pairRDD.sortByKey();
31
32 //过滤自定义的key
33 JavaRDD<String> mapRDD = sortByKeyRDD.map(new Function<Tuple2<SecondSortKey,String>, String>() {
34
35 @Override
36 public String call(Tuple2<SecondSortKey, String> v1) throws Exception {
37
38 return v1._2;
39 }
40 });
41
42 mapRDD.saveAsTextFile("D:\\test\\output\\sort");
43
44 jsc.close();
45 }
46
47
48 }
源数据:
a 12
a 2
b 26
c 85
ab 32
ab 23
ac 12
b 85
a 36
b 69
c 25
排序之后:
a 2
a 12
a 36
ab 23
ab 32
ac 12
b 26
b 69
b 85
c 25
c 85
spark java API 实现二次排序的更多相关文章
- spark函数sortByKey实现二次排序
最近在项目中遇到二次排序的需求,和平常开发spark的application一样,开始查看API,编码,调试,验证结果.由于之前对spark的API使用过,知道API中的sortByKey()可以自定 ...
- Spark Java API 计算 Levenshtein 距离
Spark Java API 计算 Levenshtein 距离 在上一篇文章中,完成了Spark开发环境的搭建,最终的目标是对用户昵称信息做聚类分析,找出违规的昵称.聚类分析需要一个距离,用来衡量两 ...
- Spark Java API 之 CountVectorizer
Spark Java API 之 CountVectorizer 由于在Spark中文本处理与分析的一些机器学习算法的输入并不是文本数据,而是数值型向量.因此,需要进行转换.而将文本数据转换成数值型的 ...
- 在 IntelliJ IDEA 中配置 Spark(Java API) 运行环境
1. 新建Maven项目 初始Maven项目完成后,初始的配置(pom.xml)如下: 2. 配置Maven 向项目里新建Spark Core库 <?xml version="1.0& ...
- spark (java API) 在Intellij IDEA中开发并运行
概述:Spark 程序开发,调试和运行,intellij idea开发Spark java程序. 分两部分,第一部分基于intellij idea开发Spark实例程序并在intellij IDEA中 ...
- 【spark】示例:二次排序
我们有这样一个文件 首先我们的思路是把输入文件数据转化成键值对的形式进行比较不就好了嘛! 但是你要明白这一点,我们平时所使用的键值对是不具有比较意义的,也就说他们没法拿来直接比较. ...
- spark java api数据分析实战
1 spark关键包 <!--spark--> <dependency> <groupId>fakepath</groupId> <artifac ...
- spark分组统计及二次排序案例一枚
组织数据形式: aa 11 bb 11 cc 34 aa 22 bb 67 cc 29 aa 36 bb 33 cc 30 aa 42 bb 44 cc 49 需求: 1.对上述数据按key值进行分组 ...
- 【Spark Java API】broadcast、accumulator
转载自:http://www.jianshu.com/p/082ef79c63c1 broadcast 官方文档描述: Broadcast a read-only variable to the cl ...
随机推荐
- P3275 [SCOI2011]糖果 && 差分约束(二)
学习完了差分约束是否有解, 现在我们学习求解最大解和最小解 首先我们回想一下是否有解的求解过程, 不难发现最后跑出来任意两点的最短路关系即为这两元素的最短路关系. 即: 最后的最短路蕴含了所有元素之间 ...
- Hadoop生态圈-Hbase的协处理器(coprocessor)应用
Hadoop生态圈-Hbase的协处理器(coprocessor)应用 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任.
- vue-router 实践
1. vue-router2学习实践笔记 2. router.push() 3. 使用vue-router跳转页面
- Java并发编程原理与实战二十八:信号量Semaphore
1.Semaphore简介 Semaphore,是JDK1.5的java.util.concurrent并发包中提供的一个并发工具类. 所谓Semaphore即 信号量 的意思. 这个叫法并不能很好地 ...
- 关于node的setTimeout的延时最大限制
node的setTimeout有最大值限制,最大值为2^31-1.一旦超过了最大值,其效果就跟延时值为0的情况一样,也就是马上执行.chrome测试并未发现该问题,解决方案如下,重写setTimeou ...
- HDU 4521 小明系列问题——小明序列 (线段树 单点更新)
题目连接 Problem Description 大家都知道小明最喜欢研究跟序列有关的问题了,可是也就因为这样,小明几乎已经玩遍各种序列问题了.可怜的小明苦苦地在各大网站上寻找着新的序列问题,可是找来 ...
- 系统学习(javascript)_基础(数据类型之间的转换)
在js中数据类型转换一般分为两种,即强制类型转换和隐式类型转换(利用javascript弱变量类型转换). 强制转换: 利用js提供的函数parseInt(),parseFloat(),Number( ...
- sql_injection之基本get注入
1.代码篇 <?php error_reporting(0); include("../conn.php"); if(isset($_GET['id'])){ $id=$_G ...
- 【codeforces】【比赛题解】#862 CF Round #435 (Div.2)
这次比赛打得很舒服,莫名得了个Rank41,涨了219的Rating,就比较优秀.不过还是没有闫神厉害啊.题目链接::P. [A]MEX 题意: Evil博士把Mahmoud和Ehab绑架到了邪恶之地 ...
- Ubuntu使用apt-get upgrade升级时出错
今天在按照常规的sudo apt-get update更新软件列表后,再使用sudo apt-get upgrade升级软件时,出现了以下的错误: 正在设置 linux-image-extra-4.4 ...