Spark(三)【RDD中的自定义排序】

在RDD中默认的算子sortBy，sortByKey只能真的值类型数据升序或者降序

现需要对自定义对象进行自定义排序。

一组Person对象

  /**

   * Person 样例类

   * @param name

   * @param age

   */

  case class Person1(name: String, age: Int) {

    override def toString = {

      "name: " + name + ",age: " + age

    }

val list = List(Person1("tom", 12), Person1("tom1", 13), Person1("tom2", 13))

sortBy：单Value类型RDD排序

方法一：类继承Ordered

  //类继承Ordered

  case class Person(name: String, age: Int) extends Ordered[Person] with Serializable {

    //重写toString

    override def toString = {

      "name: " + name + ",age: " + age

    }

    //自定义排序

    override def compare(that: Person): Int = {

      //先按照age降序排序

      var result = -this.age.compareTo(that.age)

      //如果age相同，按照name升序排序

      if (result == 0) {

        result = this.name.compareTo(that.name)

      }

      result

    }

  }

使用

    val list = List(Person("tom", 12), Person("tom1", 13), Person("tom2", 13))

    val conf = new SparkConf().setAppName("RDDTest").setMaster("local[*]")

    val sc = new SparkContext(conf)

    sc.makeRDD(list).sortBy(x=>x).saveAsTextFile("output2")

方法二：实现Ordering

   //类不需要改动

   case class Person1(name: String, age: Int) {

    override def toString = {

      "name: " + name + ",age: " + age

    }

使用

    val list = List(Person1("tom", 12), Person1("tom1", 13), Person1("tom2", 13))

    val rdd = sc.makeRDD(list)

    //自定义排序： age降序，name升序，先按照谁排序，就放在前面                        reverse：反转，降序

    rdd.sortBy(person => (person.age, person.name), numPartitions = 1)(Ordering.Tuple2(Ordering.Int.reverse, Ordering.String)

      , ClassTag(classOf[Tuple2[String, Int]])).saveAsTextFile("output5")

sortByKey：Key-Value类型RDD排序

只能针对key对k-v数据进行排序

方法一：类继承Ordered

同sortBy方法一，样例类继承ORdered

将单值转为K-V类型，key为Person对象。

方法二：实现Ordering

创建一个Person1类型的隐式Ordering[Person1]的比较器

import org.apache.spark.{SparkConf, SparkContext}

/**

 * @description: TODO

 * @author: HaoWu

 * @create: 2020年08月04日

 */

object SortByKeyOrderingTest {

  def main(args: Array[String]): Unit = {

    //创建一个Person1类型的隐式Ordering[Person1]的比较器

    implicit val ord = new Ordering[Person1] {

      //自定义排序：age降序，name升序

      override def compare(x: Person1, y: Person1): Int = {

        //age降序

        var result = -x.age.compareTo(y.age)

        //name升序

        if (result == 0){

          result = x.name.compareTo(y.name)

        }

        result

      }

    }

    val list = List(Person1("tom", 12), Person1("tom1", 13), Person1("tom2", 13))

    val conf = new SparkConf().setAppName("RDDTest").setMaster("local[*]")

    val sc = new SparkContext(conf)

    val rdd = sc.makeRDD(list)

    //转为K-V形式，按照key排序

    rdd.map((_,1)).sortByKey().coalesce(1).saveAsTextFile("output")

  }

}

/**

 * Person 样例类

 * @param name

 * @param age

 */

case class Person1(name: String, age: Int) {

  override def toString = {

    "name: " + name + ",age: " + age

  }

}

结果：

(name: tom1,age: 13,1)

(name: tom2,age: 13,1)

(name: tom,age: 12,1)

Spark(三)【RDD中的自定义排序】的更多相关文章

php中usort自定义排序如何使用
php中usort自定义排序如何使用一.总结一句话总结:多写一个规则函数,而这个函数的写法和普通函数一样,调用的时候规则函数用函数名的字符串. 1.用户自定义规则函数有哪三个? usort — 使 ...
php中数组自定义排序
php中数组自定义排序方法有很多,现在只提usort();不会保留原有键名. unsort调用方法就是unsrot($arr,func); 注意: 如果func是写在当前类中的话,那么调用的方式是 u ...
Access中的自定义排序设置方式
一.问题起因最近有网友提问说,Access中在用查询指定排序方式时,为什么只有升序跟降序,怎么米有自定义排序了?竟然比Excel都弱啊! 其实这是对Access的误解,我这就给大家来解一下疑惑.案例 ...
007_对go语言中的自定义排序sort的小练习
在go语言基础知识中,有个知识点是go语言的自定义排序,我在学习完之后,自己做了一些小练习和总结. 首先按照惯例,还是呈上代码演示: package main import "fmt&quo ...
Lucene 中自定义排序的实现
使用Lucene来搜索内容,搜索结果的显示顺序当然是比较重要的.Lucene中Build-in的几个排序定义在大多数情况下是不适合我们使用的.要适合自己的应用程序的场景,就只能自定义排序功能,本节我们 ...
php自定义排序数组usort和uasort（uasort保持索引关联）（usort($arr, "cmp");）（比较函数时很普通函数的写法：function cmp($a, $b)）
php自定义排序数组usort和uasort(uasort保持索引关联)(usort($arr, "cmp");)(比较函数时很普通函数的写法:function cmp($a, $ ...
Python自定义排序及我实际遇到的一些题目实例
写在前面,本文主要介绍Python基础排序和自定义排序的一些规则,如果都比较熟悉,可以直接翻到第三节,看下实际的笔试面试题中关于自定义排序的应用. 一.基础排序排序是比较基础的算法,与很多语言一样, ...
stl 自定义排序与删除重复元素
转: STL—vector删除重复元素 STL提供了很多实用的算法,这里主要讲解sort和unique算法. 删除重复元素,首先将vector排序. sort( vecSrc.begin(), vec ...
Spark:将RDD[List[String,List[Person]]]中的List[Person]通过spark api保存为hdfs文件时一直出现not serializable task，没办法找到"spark自定义Kryo序列化输入输出API"
声明:本文转自<在Spark中自定义Kryo序列化输入输出API> 在Spark中内置支持两种系列化格式:(1).Java serialization:(2).Kryo seriali ...

随机推荐

cf13B Letter A（分类+简单计算几何，，）
题意: 给三个线段(每个线段的两个端点的坐标),问这三个线段能否组成字母A. 组成字母A的条件: 1.两个线段有公共端点. 2.这两个线段夹角小于等于90度. 3.第三个线段的两个端点分别在这两个线段 ...
hdu 5057 Argestes and Sequence (数状数组+离线处理)
题意: 给N个数.a[1]....a[N]. M种操作: S X Y:令a[X]=Y Q L R D P:查询a[L]...a[R]中满足第D位上数字为P的数的个数数据范围: 1<=T< ...
Obsidian中使用Calendar插件快捷建立日记、周记
Calendar插件 Calendar插件是我第一个安装使用的插件,插件可以帮助我们很便捷的记录每天的工作插件效果图插件下载下载地址插件安装 # Obsidian如何手动下载并安装插件-以看板 ...
linux环境下redis安装（redis伪集群搭建）
redis在linux环境下搭建 1.创建目录 [root@192 local]# mkdir /usr/local/redis 2.下载redis,并解压 [root@192 local]# wge ...
js点击事件登录
<!DOCTYPE html> <html> <head> <meta charset="utf-8"> <title> ...
子查询 & 联合查询
子查询嵌套在其他语句内部的select语句称为子查询或内查询,外层的语句可以是insert.update.delete.select等,一般select作为外层语句较多.外面如果为select语句, ...
CSS 海盗船加载特效
CSS 海盗船加载特效 <!DOCTYPE html> <html lang="en"> <head> <meta charset=
webpack 之一个简单的基本生产环境配置
webpack 之一个简单的基本生产环境配置 // 用来拼接绝对路径的方法 const {resolve} = require('path') const HtmlWebpackPlugin = r ...
解决create-react-app 后 npm start or yarn start 中出现的webpack版本问题
解决create-react-app 后 npm start or yarn start 中出现的webpack版本问题错误提示信息 There might be a problem with t ...
C#生成新浪微博短网址示例源码
using System; using System.Collections.Generic; using System.Linq; using System.Text; using DotN ...

Spark(三)【RDD中的自定义排序】

sortBy：单Value类型RDD排序

方法一：类继承Ordered

方法二：实现Ordering

sortByKey：Key-Value类型RDD排序

方法一：类继承Ordered

方法二：实现Ordering

Spark(三)【RDD中的自定义排序】的更多相关文章

随机推荐

热门专题