Spark实现二次排序

一.代码实现

 package big.data.analyse.scala.secondsort

 import org.apache.log4j.{Level, Logger}

 import org.apache.spark.sql.SparkSession

 /** 二次排序

   * Created by zhen on 2019/5/29.

   */

 class SecondSortByKey(val first:Int,val second:Int) extends Ordered[SecondSortByKey] with Serializable{

   def compare(other : SecondSortByKey): Int ={

     if(this.first - other.first != 0){//正序

       this.first - other.first

     }else{//倒序

       other.second - this.second

     }

   }

 }

 object SecondSortByKey{

   /**

     * 设置日志级别

     */

   Logger.getLogger("org").setLevel(Level.WARN)

   def main(args: Array[String]) {

     val spark = SparkSession

       .builder()

       .appName("SecondSortByKey")

       .master("local[2]")

       .getOrCreate()

     val sc = spark.sparkContext

     val rows = sc.textFile("src/big/data/analyse/scala/secondsort/sort.txt")

     val pairWithSortByKey = rows

       .filter(row=>row.split(" ").length==3)//过滤错误的数据

       .map(row=>{

         val array = row.split(" ")

         (new SecondSortByKey(array(0).toInt,array(1).toInt),row)

     })

     println("先正序后倒序")

     pairWithSortByKey

       .sortByKey(true) // 排序,true：先正序后倒序，false：先倒序后正序

       .map(map => map._2)

       .collect()

       .foreach(println)

     println("先倒序后正序")

     pairWithSortByKey

       .sortByKey(false) // 排序,true：先正序后倒序，false：先倒序后正序

       .map(map => map._2)

       .collect()

       .foreach(println)

     sc.stop()

   }

 }

二.结果

先正序后倒序

1 9 ES

1 8 HBase

2 4 Tachyon日渐成熟

2 3 《黑豹》异军突起

2 3 Radis

3 3 HDFS

3 3 搜索引擎

5 3 spark发布2.4版本，性能提升巨大

5 2 《复仇者联盟3:无限战争》火热上映

6 3 Maven

7 2 Solr

先倒序后正序

7 2 Solr

6 3 Maven

5 2 《复仇者联盟3:无限战争》火热上映

5 3 spark发布2.4版本，性能提升巨大

3 3 HDFS

3 3 搜索引擎

2 3 《黑豹》异军突起

2 3 Radis

2 4 Tachyon日渐成熟

1 8 HBase

1 9 ES

Process finished with exit code 0

Spark实现二次排序的更多相关文章

分别使用Hadoop和Spark实现二次排序
零.序(注意本部分与标题无太大关系,可直接调至第一部分) 既然没用为啥会有序?原因不想再开一篇文章,来抒发点什么感想或者计划了,就在这里写点好了: 前些日子买了几本书,打算学习和研究大数据方面的知识, ...
spark的二次排序
通过scala实现二次排序 package _core.SortAndTopN import org.apache.spark.{SparkConf, SparkContext} /** * Auth ...
Spark基础排序+二次排序（java+scala）
1.基础排序算法 sc.textFile()).reduceByKey(_+_,).map(pair=>(pair._2,pair._1)).sortByKey(false).map(pair= ...
spark函数sortByKey实现二次排序
最近在项目中遇到二次排序的需求,和平常开发spark的application一样,开始查看API,编码,调试,验证结果.由于之前对spark的API使用过,知道API中的sortByKey()可以自定 ...
详细讲解MapReduce二次排序过程
我在15年处理大数据的时候还都是使用MapReduce, 随着时间的推移, 计算工具的发展, 内存越来越便宜, 计算方式也有了极大的改变. 到现在再做大数据开发的好多同学都是直接使用spark, hi ...
Spark（二）算子详解
目录 Spark(二)算子讲解一.wordcountcount 二.编程模型三.RDD数据集和算子的使用 Spark(二)算子讲解 @ 一.wordcountcount 基于上次的wordcoun ...
MapReduce二次排序
默认情况下,Map 输出的结果会对 Key 进行默认的排序,但是有时候需要对 Key 排序的同时再对 Value 进行排序,这时候就要用到二次排序了.下面让我们来介绍一下什么是二次排序. 二次排序原理 ...
Hadoop Mapreduce分区、分组、二次排序过程详解[转]
原文地址:Hadoop Mapreduce分区.分组.二次排序过程详解[转]作者: 徐海蛟教学用途 1.MapReduce中数据流动 (1)最简单的过程: map - reduce (2) ...
Hadoop.2.x_高级应用_二次排序及MapReduce端join
一.对于二次排序案例部分理解 1. 分析需求(首先对第一个字段排序,然后在对第二个字段排序) 杂乱的原始数据排序完成的数据 a,1 a,1 b,1 a,2 a,2 [排序] a,100 b,6 == ...

随机推荐

目前流行前端几大UI框架排行榜
在前端项目开发过程中,总是会引入一些UI框架,已为方便自己的使用,很多大公司都有自己的一套UI框架,下面就是最近经常使用并且很流行的UI框架. 一.Mint UI 流行指数:★★★★ Mint UI是 ...
Java 文件句柄泄露问题解决小记（转）
转:Java 文件句柄泄露问题解决小记维护 WebIDE 免不了要管理很多的文件, 自从我们线上系统增加了资源回收功能,便一直受一个问题困扰:后台线程解绑目录时偶尔报错,看症状因为是某些文件被占用了 ...
FineReport简单部署
一.部署方式 1.官网发布包部署 2.自定义tomcat部署二.发布包部署 1.下载一个发布包:https://www.finereport.com/product/download 解压后打开bi ...
【SpringBoot】SpringBoot与SpringMVC自动配置（五）
本文介绍SpringBoot对Spring MVC自动配置,SpringBoot自动配置原理可以参考:[SpringBoot]SpringBoot配置与单元测试(二) 首先新建一个SpringBoot ...
python初级（302） 7 列表
一.列表的概念: 1.创建一个列表 friends = list() 2.列表可以包含的内容: m_list = [5, 7, 9, 20] letters = ['a', 'b', 'e'] 3.从 ...
PMP 第7章错题总结
这一章全是公式,是计算量最大的一章 1.进度安排的灵活性是由总时差决定的2.三点估算通过考虑估算中的不确定性和风险,可以提高活动持续时间估算的准确性3.快速跟进是一种进度压缩技术,将正常情况下按顺序进 ...
C++内存管理2-内存泄漏
1 C++中动态内存分配引发问题的解决方案假设我们要开发一个String类,它可以方便地处理字符串数据.我们可以在类中声明一个数组,考虑到有时候字符串极长,我们可以把数组大小设为200,但一般的情况 ...
postgrelsql base64加密，JS base64解密
项目中做云桌面对接,需要在项目中查出用户的明文密码,拼接到云桌面登陆地址中,防止明文传输,做了base64加密解密,防止小白黑客盗取用户密码. postgrelsql base64加密SQL语句: 查 ...
AIX日志相关的命令
常用的命令有: 1.列出简短的出错信息 errpt | more 2.列出所有硬件出错信息 errpt -d H 3.列出所有软件错误信息 errpt -d S 4.列出详细的出错信息 errpt – ...
1 RAID技术入门
序 RAID一页通整理所有RAID技术.原理并配合相应RAID图解,给所有存储新人提供一个迅速学习.理解RAID技术的网上资源库,本文将持续更新,欢迎大家补充及投稿.中国存储网一如既往为广大存储界 ...

Spark实现二次排序

一.代码实现

二.结果

Spark实现二次排序的更多相关文章

随机推荐

热门专题