【spark】示例：二次排序

我们有这样一个文件

首先我们的思路是把输入文件数据转化成键值对的形式进行比较不就好了嘛！

但是你要明白这一点，我们平时所使用的键值对是不具有比较意义的，也就说他们没法拿来直接比较。

我们可以通过sortByKey，sortBy(pair._2)来进行单列的排序，但是没法进行两列的同时排序。

那么我们该如何做呢？

我们可以自定义一个键值对的比较类来实现比较，

类似于JAVA中自定义类实现可比较性实现comparable接口。

我们需要继承Ordered和Serializable特质来实现自定义的比较类。

1.读取数据创建rdd

2.根据要求来定义比较类

　　任务要求，先根据key进行排序，相同再根据value进行排序。

　　我们可以把键值对当成一个数据有两个数字，先通过第一个数字比大小，再通过第二个数字比大小。

　　（1）我们定义两个Int参数的比较类

　　（2）继承Ordered 和 Serializable 接口实现 compare 方法实现可以比较

class UDFSort (val first:Int,val second:Int) extends Ordered[UDFSort] with Serializable {

    override def compare(that: UDFSort): Int = {

        if(this.first - that.first != 0){//第一个值不相等的时候，直接返回大小

            this.first - that.first //返回值

        }

        else {//第一个值相等的时候,比较第二个值

            this.second - that.second

        }

    }

}

其实，懂java的人能看出来这个跟实现comparable很类似。

3.处理rdd

我们将原始数据按照每行拆分成一个含有两个数字的数组，然后传入我们自定义的比较类中

不是可以通过UDFSort就可以比较出结果了吗，

但是我们不能把结果给拆分掉，也就是说，我们只能排序，不能改数据。

我们这样改怎么办？

我们可以生成键值对的形式，key为UDFSort(line(0),line(1)),value为原始数据lines。

这样，我们通过sortByKey就能完成排序，然后通过取value就可以保持原始数据不变。

4.排序取结果

完整代码

package SparkDemo

import org.apache.spark.{SparkConf, SparkContext}

class UDFSort (val first:Int,val second:Int) extends Ordered[UDFSort] with Serializable {//自定义比较类

    override def compare(that: UDFSort): Int = {

        if(this.first - that.first != 0){//第一个值不相等的时候，直接返回大小

            this.first - that.first //返回值

        }

        else {//第一个值相等的时候,比较第二个值

            this.second - that.second

        }

    }

}

object Sort{

    def main(args:Array[String]): Unit ={

        //初始化配置：设置主机名和程序主类的名字

        val conf = new SparkConf().setAppName("UdfSort");

        //通过conf来创建sparkcontext

        val sc = new SparkContext(conf);

        val lines = sc.textFile("file:///...")

        //转换为( udfsort( line(0),line(1) ),line ) 的形式

        val pair = lines.map(line => (new UDFSort(line.split(" ")(0).toInt,line.split(" ")(1).toInt),line))

        //对key进行排序，然后取value

        val result = pair.sortByKey().map( x => x._2)

    }

}

【spark】示例：二次排序的更多相关文章

分别使用Hadoop和Spark实现二次排序
零.序(注意本部分与标题无太大关系,可直接调至第一部分) 既然没用为啥会有序?原因不想再开一篇文章,来抒发点什么感想或者计划了,就在这里写点好了: 前些日子买了几本书,打算学习和研究大数据方面的知识, ...
spark的二次排序
通过scala实现二次排序 package _core.SortAndTopN import org.apache.spark.{SparkConf, SparkContext} /** * Auth ...
Spark实现二次排序
一.代码实现 package big.data.analyse.scala.secondsort import org.apache.log4j.{Level, Logger} import org. ...
Spark基础排序+二次排序（java+scala）
1.基础排序算法 sc.textFile()).reduceByKey(_+_,).map(pair=>(pair._2,pair._1)).sortByKey(false).map(pair= ...
spark函数sortByKey实现二次排序
最近在项目中遇到二次排序的需求,和平常开发spark的application一样,开始查看API,编码,调试,验证结果.由于之前对spark的API使用过,知道API中的sortByKey()可以自定 ...
详细讲解MapReduce二次排序过程
我在15年处理大数据的时候还都是使用MapReduce, 随着时间的推移, 计算工具的发展, 内存越来越便宜, 计算方式也有了极大的改变. 到现在再做大数据开发的好多同学都是直接使用spark, hi ...
Spark（二）算子详解
目录 Spark(二)算子讲解一.wordcountcount 二.编程模型三.RDD数据集和算子的使用 Spark(二)算子讲解 @ 一.wordcountcount 基于上次的wordcoun ...
MapReduce二次排序
默认情况下,Map 输出的结果会对 Key 进行默认的排序,但是有时候需要对 Key 排序的同时再对 Value 进行排序,这时候就要用到二次排序了.下面让我们来介绍一下什么是二次排序. 二次排序原理 ...
Hadoop Mapreduce分区、分组、二次排序过程详解[转]
原文地址:Hadoop Mapreduce分区.分组.二次排序过程详解[转]作者: 徐海蛟教学用途 1.MapReduce中数据流动 (1)最简单的过程: map - reduce (2) ...
Hadoop.2.x_高级应用_二次排序及MapReduce端join
一.对于二次排序案例部分理解 1. 分析需求(首先对第一个字段排序,然后在对第二个字段排序) 杂乱的原始数据排序完成的数据 a,1 a,1 b,1 a,2 a,2 [排序] a,100 b,6 == ...

随机推荐

Redis配置文件的使用
Redis基本配置常规配置进到配置文件下 vi /etc/redis.conf 写入配置项 port 1111 # 配置端口号 daemonize yes # 是否后台运行 daemonize y ...
IntelliJ创建main函数、for循环，System.out.println()等快捷建（转载）
在编写代码的时候直接输入psv就会看到一个psvm的提示,此时点击tab键一个main方法就写好了. psvm 也就是public static void main的首字母. 依次还有在方法体内键入f ...
HTML中的SEO和HTML语义化
SEO 1) <title>网站SEO标题</title>, 百度搜索出来的记录, 其标题基本就提取至网站的title, 标签, 因此标题起的好, 不论对点击率还是SEO都至关 ...
Python HTML Resolution Demo - SGMLParser & PyQuery
1. SGMLParser: 这里定义了一个Parse类,继承SGMLParser里面的方法.使用一个变量is_h4做标记判定html文件中的h4标签,如果遇到h4标签,则将标签内的内容加入到Pars ...
linux网络基础设置以及软件安装
ifconfig #查看所有已激活的网卡信息临时配置 #yum install net-tools -y 默认ifconfig是没有安装的,可能需要安装 ifconfig eth0 #查看单独一块网 ...
第一课 C语言简明教程
1序言: 1与Java.C#等高级语言相比,C语言使用简单但是也非常重要更容易出错,到目前为止基本上操作系统的内核代码超过百分之九十使用C语言完成,因此学好C语言是学好计算机这门课程的基础,特别是进入 ...
pt-osc原理
pt-osc原理 1.检查设置环境测试db是否可连通,并且验证database是否存在 SET SESSION innodb_lock_wait_timeout=1 //InnoDB事务等待行锁的超 ...
20145201 《Java程序设计》第二周学习总结
20145201 <Java程序设计>第二周学习总结教材学习内容总结本周学习了课本第三章内容,即JAVA基础语法. 3.1 类型.变量与运算符基本类型:在java中基本类型主要可区分 ...
COS-5资源分配与调度
操作系统是用户和计算机的接口,同时也是计算机硬件和其他软件的接口.操作系统的功能包括管理计算机系统的硬件.软件及数据资源,控制程序运行,改善人机界面,为其它应用软件提供支持,让计算机系统所有资源最大限 ...
《Pro Git》第1章起步
关于版本控制什么是版本控制:记录文件内容变化,将来可查阅特定版本修订情况的系统. 版本控制演进 1)本地版本控制系统 2)集中化的版本控制系统(Centralized Version Control ...

【spark】示例：二次排序

【spark】示例：二次排序的更多相关文章

随机推荐

热门专题