Spark2 Dataset分析函数--排名函数row_number,rank,dense_rank,percent

select gender,
       age,
       row_number() over(partition by gender order by age) as rowNumber,
       rank() over(partition by gender order by age) as ranks,
       dense_rank() over(partition by gender order by age) as denseRank,
       percent_rank() over(partition by gender order by age) as percentRank
from Affairs

val spark = SparkSession.builder().appName("Spark SQL basic example").config("spark.some.config.option", "some-value").getOrCreate()

// For implicit conversions like converting RDDs to DataFrames

import spark.implicits._

val dataList: List[(Double, String, Double, Double, String, Double, Double, Double, Double)] = List(

      (0, "male", 37, 10, "no", 3, 18, 7, 4),

      (0, "female", 27, 4, "no", 4, 14, 6, 4),

      (0, "female", 32, 15, "yes", 1, 12, 1, 4),

      (0, "male", 57, 15, "yes", 5, 18, 6, 5),

      (0, "male", 22, 0.75, "no", 2, 17, 6, 3),

      (0, "female", 32, 1.5, "no", 2, 17, 5, 5),

      (0, "female", 22, 0.75, "no", 2, 12, 1, 3),

      (0, "male", 57, 15, "yes", 2, 14, 4, 4),

      (0, "female", 32, 15, "yes", 4, 16, 1, 2),

      (0, "male", 22, 1.5, "no", 4, 14, 4, 5),

      (0, "male", 37, 15, "yes", 2, 20, 7, 2),

      (0, "male", 27, 4, "yes", 4, 18, 6, 4),

      (0, "male", 47, 15, "yes", 5, 17, 6, 4),

      (0, "female", 22, 1.5, "no", 2, 17, 5, 4),

      (0, "female", 27, 4, "no", 4, 14, 5, 4),

      (0, "female", 37, 15, "yes", 1, 17, 5, 5),

      (0, "female", 37, 15, "yes", 2, 18, 4, 3),

      (0, "female", 22, 0.75, "no", 3, 16, 5, 4),

      (0, "female", 22, 1.5, "no", 2, 16, 5, 5),

      (0, "female", 27, 10, "yes", 2, 14, 1, 5),

      (0, "female", 22, 1.5, "no", 2, 16, 5, 5),

      (0, "female", 22, 1.5, "no", 2, 16, 5, 5),

      (0, "female", 27, 10, "yes", 4, 16, 5, 4),

      (0, "female", 32, 10, "yes", 3, 14, 1, 5),

      (0, "male", 37, 4, "yes", 2, 20, 6, 4))

val data = dataList.toDF("affairs", "gender", "age", "yearsmarried", "children", "religiousness", "education", "occupation", "rating")

data.printSchema()

// 创建视图

data.createOrReplaceTempView("Affairs")

val s1="row_number() over(partition by gender order by age) as rowNumber,"

val s2="rank() over(partition by gender order by age) as ranks,"

val s3="dense_rank() over(partition by gender order by age) as denseRank,"

val s4="percent_rank() over(partition by gender order by age) as percentRank"

val df8=spark.sql("select gender,age,"+s1+s2+s3+s4+" from Affairs")

df8.show(50)

+------+----+---------+-----+---------+------------------+

|gender| age|rowNumber|ranks|denseRank|       percentRank|

+------+----+---------+-----+---------+------------------+

|female|22.0|        1|    1|        1|               0.0|

|female|22.0|        2|    1|        1|               0.0|

|female|22.0|        3|    1|        1|               0.0|

|female|22.0|        4|    1|        1|               0.0|

|female|22.0|        5|    1|        1|               0.0|

|female|22.0|        6|    1|        1|               0.0|

|female|27.0|        7|    7|        2|               0.4|

|female|27.0|        8|    7|        2|               0.4|

|female|27.0|        9|    7|        2|               0.4|

|female|27.0|       10|    7|        2|               0.4|

|female|32.0|       11|   11|        3|0.6666666666666666|

|female|32.0|       12|   11|        3|0.6666666666666666|

|female|32.0|       13|   11|        3|0.6666666666666666|

|female|32.0|       14|   11|        3|0.6666666666666666|

|female|37.0|       15|   15|        4|0.9333333333333333|

|female|37.0|       16|   15|        4|0.9333333333333333|

|  male|22.0|        1|    1|        1|               0.0|

|  male|22.0|        2|    1|        1|               0.0|

|  male|27.0|        3|    3|        2|              0.25|

|  male|37.0|        4|    4|        3|             0.375|

|  male|37.0|        5|    4|        3|             0.375|

|  male|37.0|        6|    4|        3|             0.375|

|  male|47.0|        7|    7|        4|              0.75|

|  male|57.0|        8|    8|        5|             0.875|

|  male|57.0|        9|    8|        5|             0.875|

+------+----+---------+-----+---------+------------------+

Spark2 Dataset分析函数--排名函数row_number,rank,dense_rank,percent_rank的更多相关文章

SQL Server中排名函数row_number,rank,dense_rank,ntile详解
SQL Server中排名函数row_number,rank,dense_rank,ntile详解从SQL SERVER2005开始,SQL SERVER新增了四个排名函数,分别如下:1.row_n ...
好用的排名函数~ROW_NUMBER(),RANK(),DENSE_RANK() 三兄弟
排名函数三兄弟,一看名字就知道,都是为了排名而生!但是各自有各自的特色!以下一个例子说明问题!(以下栗子没有使用Partition By 的关键字,整个结果集进行排序) RANK 每个值一个排名,同样 ...
SQL Server：排名函数row_number,rank,dense_rank,ntile详解
1.Row_Number函数 row_number函数大家比较熟悉一些,因为它的用途非常的广泛,我们经常在分页与排序中用到它,它的功能就是在每一行中生成一个连续的不重复的序号例如: select S ...
Oracle分析函数/排名函数/位移函数/同比环比
分析函数作用:分析函数可以在数据中进行分组,然后计算基于组的某种统计值,并且每一组的每一行都可以返回一个统计值.统计函数:MAX(字段名).MIN(字段名).AVG(字段名).SUM(字段名).CO ...
知方可补不足~row_number,rank,dense_rank,ntile排名函数的用法
回到目录这篇文章介绍SQL中4个很有意思的函数,我称它的行标函数,它们是row_number,rank,dense_rank和ntile,下面分别进行介绍. 一 row_number:它为数据表加一 ...
大数据学习day29-----spark09-------1. 练习：统计店铺按月份的销售额和累计到该月的总销售额（SQL, DSL,RDD） 2. 分组topN的实现（row_number(), rank(), dense_rank()方法的区别）3. spark自定义函数-UDF
1. 练习数据: (1)需求1:统计有过连续3天以上销售的店铺有哪些,并且计算出连续三天以上的销售额第一步:将每天的金额求和(同一天可能会有多个订单) SELECT sid,dt,SUM(mone ...
Hive学习之路（十四）Hive分析窗口函数(二) NTILE,ROW_NUMBER,RANK,DENSE_RANK
概述本文中介绍前几个序列函数,NTILE,ROW_NUMBER,RANK,DENSE_RANK,下面会一一解释各自的用途. 注意: 序列函数不支持WINDOW子句.(ROWS BETWEEN) 数据 ...
ROW_NUMBER()/RANK()/DENSE_RANK()/ntile() over()
ROW_NUMBER()/RANK()/DENSE_RANK()/ntile() over() 今天女票问我SqlServer的四种排序,当场写了几句Sql让她了解,现把相关Sql放上来. 首先, ...
SQL Server - 四种排序, ROW_NUMBER() /RANK() /DENSE_RANK() /ntile() over()
>>>>英文版 (更简洁易懂)<<<< 转载自:https://dzone.com/articles/difference-between-rownum ...

随机推荐

java okhhtp下载学信网学籍信息
学信网的登录有验证码,是那种计算数字或者汉字识别的,很难识别.最近连学籍信息和学历信息也换成图片了,常规的正则 css xpath都不能使. 下载图片,需要先登录,获取登陆后的cookie和学籍信息的 ...
[Bayesian] “我是bayesian我怕谁”系列 - Exact Inference
要整理这部分内容,一开始我是拒绝的.欣赏贝叶斯的人本就不多,这部分过后恐怕就要成为“从入门到放弃”系列. 但,这部分是基础,不管是Professor Daphne Koller,还是统计学习经典,都有 ...
使用d3.v3插件绘制出svg图
众所周知,这个插件使用的svg技术,而IE8(包括IE8)之前的浏览器是不支持svg的接下来看代码吧从后台获取到带id和父id的目录数据[json格式] var module = requestU ...
Present ViewController Modally (转)
一.主要用途弹出模态ViewController是IOS变成中很有用的一个技术,UIKit提供的一些专门用于模态显示的ViewController,如UIImagePickerController等 ...
5 -- Hibernate的基本用法 --2 Hibernate入门
5.2.1 Hibernate 下载和安装 5.2.2 Hibernate 的数据库操作 5.2.3 在Eclipse中使用Hibernate 啦啦啦
ajax简单手写了一个猜拳游戏
使用ajax简单写一个猜拳游戏 HTML代码 <!DOCTYPE HTML> <html lang="en-US"> <head> <me ...
采用Post方式提交数据实例
项目目录一.编写MainActivity.java package com.hyzhou.getdemo; import com.hyzhou.getdemo.service.LoginServer ...
MySQL复制搭建
1. 原理参考<涂抹MySQL 跟着三思一步一步学MySQL >这本书. 2.环境背景操作系统 :CentOS 6.5 数据库版本:MySQL 5.6 主库A:192.168.1.2 ...
【权限维持】window服务端常见后门技术
0x00 前言未知攻焉知防,攻击者在获取服务器权限后,通常会用一些后门技术来维持服务器权限,服务器一旦被植入后门,攻击者如入无人之境.这里整理一些window服务端常见的后门技术,了解攻击者的常见后 ...
c++的字节对齐
win32平台下的微软C编译器对齐策略: 1)结构体变量的首地址能够被其最宽数据类型成员的大小整除.编译器在为结构体变量开辟空间时,首先找到结构体中最宽的数据类型,然后寻找内存地址能被该数据类型大小整 ...

Spark2 Dataset分析函数--排名函数row_number,rank,dense_rank,percent_rank

Spark2 Dataset分析函数--排名函数row_number,rank,dense_rank,percent_rank的更多相关文章

随机推荐

热门专题