Spark排序之SortBy

sortBy函数源码：接收三个参数，第一个参数必须，第二个和第三个参数非必要

def sortBy[K](

f: (T) => K,

ascending: Boolean = true,

numPartitions: Int = this.partitions.length)

(implicit ord: Ordering[K], ctag: ClassTag[K]): RDD[T] = withScope {

this.keyBy[K](f)

.sortByKey(ascending, numPartitions)

.values

}

1、例子1：按照value进行降序排序

package com.test.spark

import org.apache.spark.{SparkConf, SparkContext}

/**

  * @author admin

  * SortBy是SortByKey的增强版

  * 按照value进行排序

  */

object SparkSortByApplication {

  def main(args: Array[String]): Unit = {

    val conf = new SparkConf().setAppName("SortSecond").setMaster("local[1]")

    val sc = new SparkContext(conf)

    val datas = sc.parallelize(Array(("cc",12),("bb",32),("cc",22),("aa",18),("bb",16),("dd",16),("ee",54),("cc",1),("ff",13),("gg",32),("bb",4)))

    // 统计key出现的次数

    val counts = datas.reduceByKey(_+_)

    // 按照value进行降序排序

    val sorts = counts.sortBy(_._2,false)

    sorts.collect().foreach(println)
    sc.stop()

  }

}

输出结果：

(ee,54)
(bb,52)
(cc,35)
(gg,32)
(aa,18)
(dd,16)
(ff,13)

2、例子2：先按照第一个元素升序排序，如果第一个元素相同，再进行第三个元素进行升序排序

package com.sudiyi.spark

import org.apache.spark.{SparkConf, SparkContext}

/**

  * @author xubiao

  * SortBy是SortByKey的增强版

  * 先按照第一个，再按照第三个元素进行升序排序

  */

object SparkSortByApplication {

  def main(args: Array[String]): Unit = {

    val conf = new SparkConf().setAppName("SortSecond").setMaster("local[1]")

    val sc = new SparkContext(conf)

    val arr = Array((1, 6, 3), (2, 3, 3), (1, 1, 2), (1, 3, 5), (2, 1, 2))

    val datas2 = sc.parallelize(arr)

    val sorts2 = datas2.sortBy(e => (e._1,e._2))

    sorts2.collect().foreach(println)

    sc.stop()

  }

}

输出结果：

(1,1,2)
(1,3,5)
(1,6,3)
(2,1,2)
(2,3,3)

Spark排序之SortBy的更多相关文章

Spark排序与去重遇见的问题
答案: Spark的distinct是通过聚集去重的,可以简单理解为group by去重: 代码1:是先去重之后再排序取limit20是正确的, 代码2:是先排序之后再到各个节点进行去重之后再limi ...
Spark排序之SortByKey
sortByKey函数作用于Key-Value形式的RDD,并对Key进行排序. package com.test.spark import org.apache.spark.{SparkConf, ...
Spark排序方式集锦
一.简介 spark中的排序一般可以使用orderBy或sort算子,可以结合负号.ASC/DESC和col进行简单排序.二次排序等情况二.代码实现 package big.data.analyse ...
【Spark篇】---Spark中Transformations转换算子
一.前述 Spark中默认有两大类算子,Transformation(转换算子),懒执行.action算子,立即执行,有一个action算子 ,就有一个job. 通俗些来说由RDD变成RDD就是Tra ...
spark 算子之RDD
map map(func) Return a new distributed dataset formed by passing each element of the source through ...
spark中产生shuffle的算子
Spark中产生shuffle的算子作用算子名能否替换,由谁替换去重 distinct() 不能聚合 reduceByKey() groupByKey groupBy() groupByKe ...
Spark Core知识点复习-1
Day1111 Spark任务调度 Spark几个重要组件 Spark Core RDD的概念和特性生成RDD的两种类型 RDD算子的两种类型算子练习分区 RDD的依赖关系 DAG:有向无环图 ...
spark 机器学习 knn 代码实现(二)
通过knn 算法规则,计算出s2表中的员工所属的类别原始数据:某公司工资表 s1(训练数据)格式:员工ID,员工类别,工作年限,月薪(K为单位) 101 a类 8年 ...
spark 系列之一 RDD的使用
spark中常用的两种数据类型,一个是RDD,一个是DataFrame,本篇主要介绍RDD的一些应用场景见代码本代码的应用场景是在spark本地调试(windows环境) /** * 创建 spark ...

随机推荐

python测试开发django-49.allow_tags和mark_safe
前言前面一篇使用allow_tags方法可以在xadmin的后台页面中插入html代码,在2.x版本ModelAdmin里面删除了allow_tags属性的支持,使用mark_safe函数代替 al ...
微信小程序wxss的background本地图片问题
在web 或者webapp开发中我们习惯了直接饮用本地图片做背景,例如 .aaa { background: url('img/1.png'); } 但是这种引用方式在微信小程序中是无法使用的,控制台 ...
mysql insert锁机制
https://blog.csdn.net/zhanghongzheng3213/article/details/53436240
使用Amalgamate将C/C++项目合并成一个.h/.c[pp]文件
简述 C/C++开源库一般是一堆的头文件和源文件,做到声明和实现分离,减小单个模块大小,这在设计上是很好的,但是用起来稍显麻烦.在网上看到有好心人推荐了一个开源工具Amalgamate,专门用来对C/ ...
redis 频率限制
方式1: $redis = new Redis(); //以自然时间控制一自然分钟内超过100次进行限制, 屏蔽多久的时间必须为计数key时间的倍数 $key = 'xxxx'.date('Y-m- ...
Ubuntu18.04命令行连接WiFi
查看是否已经正确安装无线网卡 iwconfig .启动无线网卡, 如果网卡是wlan0 # 方式1 ifconfig wlan0 up # 或者方式2 ip link set wlan0 up .扫描 ...
Linux下的两种磁盘分区工具的使用
如何使用fdisk和parted分区工具来进行硬盘分区,下面我来说一下在Linux系统中这两种硬盘分区工具的使用方法: ----------fdisk分区工具---------- ...
JS 遍历JSON中每个key值
JS 遍历JSON中的每个key值,可以按键值对进行存储: var myVar = { typeA: { option1: "one", option2: "two&qu ...
11G新特性 -- flashback data archive(2)
创建Flashback Data Archive用户需要授予dba或flashback archive administer系统特权.flashback archive administer系统特权包 ...
MySQL 管理之道读书总结
最近读了<MySQL 管理之道>一书,做了以下总结,希望对大家有所帮助.在这里非常感谢作者的辛勤付出. 影响 MySQL 性能的因素: 影响 MySQL InnoDB 引擎性能的最 ...

Spark排序之SortBy

Spark排序之SortBy的更多相关文章

随机推荐

热门专题