Spark之开窗函数

一.简介

　　开窗函数row_number()是按照某个字段分组，然后取另外一个字段排序的前几个值的函数，相当于分组topN。如果SQL语句里面使用了开窗函数，那么这个SQL语句必须使用HiveContext执行。

二.代码实践【使用HiveContext】

package big.data.analyse.sparksql

import org.apache.log4j.{Level, Logger}

import org.apache.spark.sql.types.{IntegerType, StringType, StructField, StructType}

import org.apache.spark.sql.{Row, SparkSession}

/**

  * Created by zhen on 2019/7/6.

  */

object RowNumber {

  /**

    * 设置日志级别

    */

  Logger.getLogger("org").setLevel(Level.WARN)

  def main(args: Array[String]) {

    /**

      * 创建spark入口，支持Hive

      */

    val spark = SparkSession.builder().appName("RowNumber")

      .master("local[2]").enableHiveSupport().getOrCreate()

    /**

      * 创建测试数据

      */

    val array = Array("1,Hadoop,12","5,Spark,6","3,Solr,15","3,HBase,8","6,Hive,16","6,TensorFlow,26")

    val rdd = spark.sparkContext.parallelize(array).map{ row =>

      val Array(id, name, age) = row.split(",")

      Row(id, name, age.toInt)

    }

    val structType = new StructType(Array(

      StructField("id", StringType, true),

      StructField("name", StringType, true),

      StructField("age", IntegerType, true)

    ))

    /**

      * 转化为df

      */

    val df = spark.createDataFrame(rdd, structType)

    df.show()

    df.createOrReplaceTempView("technology")

    /**

      * 应用开窗函数row_number

      * 注意：开窗函数只能在hiveContext下使用

      */

    val result_1 = spark.sql("select id,name,age from (select id,name,age," +

      "row_number() over (partition by id order by age desc) top from technology) t where t.top <= 1")

    result_1.show()

    val result_2 = spark.sql("select id,name,age from (select id,name,age," +

      "row_number() over (partition by id order by age desc) top from technology) t where t.top <= 2")

    result_2.show()

    val result_3 = spark.sql("select id,name,age from (select id,name,age," +

      "row_number() over (partition by id order by age desc) top from technology) t where t.top <= 3")

    result_3.show()

    val result_4 = spark.sql("select id,name,age from (select id,name,age," +

      "row_number() over (partition by id order by age desc) top from technology) t where t.top > 3")

    result_4.show()

  }

}

三.结果【使用HiveContext】

　　1.初始数据

　　2.top<=1时

　　3.top<=2时

　　4.top<=3时

　　5.top>3时【分组中最大为3】

四.代码实现【不使用HiveContext】　

package big.data.analyse.sparksql

import org.apache.log4j.{Level, Logger}

import org.apache.spark.sql.types.{IntegerType, StringType, StructField, StructType}

import org.apache.spark.sql.{Row, SparkSession}

/**

  * Created by zhen on 2019/7/6.

  */

object RowNumber {

  /**

    * 设置日志级别

    */

  Logger.getLogger("org").setLevel(Level.WARN)

  def main(args: Array[String]) {

    /**

      * 创建spark入口，不支持Hive

      */

    val spark = SparkSession.builder().appName("RowNumber")

      .master("local[2]").getOrCreate()

    /**

      * 创建测试数据

      */

    val array = Array("1,Hadoop,12","5,Spark,6","3,Solr,15","3,HBase,8","6,Hive,16","6,TensorFlow,26")

    val rdd = spark.sparkContext.parallelize(array).map{ row =>

      val Array(id, name, age) = row.split(",")

      Row(id, name, age.toInt)

    }

    val structType = new StructType(Array(

      StructField("id", StringType, true),

      StructField("name", StringType, true),

      StructField("age", IntegerType, true)

    ))

    /**

      * 转化为df

      */

    val df = spark.createDataFrame(rdd, structType)

    df.show()

    df.createOrReplaceTempView("technology")

    /**

      * 应用开窗函数row_number

      * 注意：开窗函数只能在hiveContext下使用

      */

    val result_1 = spark.sql("select id,name,age from (select id,name,age," +

      "row_number() over (partition by id order by age desc) top from technology) t where t.top <= 1")

    result_1.show()

    val result_2 = spark.sql("select id,name,age from (select id,name,age," +

      "row_number() over (partition by id order by age desc) top from technology) t where t.top <= 2")

    result_2.show()

    val result_3 = spark.sql("select id,name,age from (select id,name,age," +

      "row_number() over (partition by id order by age desc) top from technology) t where t.top <= 3")

    result_3.show()

    val result_4 = spark.sql("select id,name,age from (select id,name,age," +

      "row_number() over (partition by id order by age desc) top from technology) t where t.top > 3")

    result_4.show()

  }

}

五.结果【不使用HiveContext】

Spark之开窗函数的更多相关文章

【Spark篇】---SparkSQL中自定义UDF和UDAF，开窗函数的应用
一.前述 SparkSQL中的UDF相当于是1进1出,UDAF相当于是多进一出,类似于聚合函数. 开窗函数一般分组取topn时常用. 二.UDF和UDAF函数 1.UDF函数 java代码: Spar ...
Spark（十三）SparkSQL的自定义函数UDF与开窗函数
一自定义函数UDF 在Spark中,也支持Hive中的自定义函数.自定义函数大致可以分为三种: UDF(User-Defined-Function),即最基本的自定义函数,类似to_char,to_ ...
spark开窗函数
源文件内容示例: http://bigdata.beiwang.cn/laoli http://bigdata.beiwang.cn/laoli http://bigdata.beiwang.cn/h ...
【Spark-SQL学习之三】 UDF、UDAF、开窗函数
环境虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk1.8 scala-2.10.4(依赖jdk1.8) spark ...
SparkSQL开窗函数 row_number()
开始编写我们的统计逻辑,使用row_number()函数先说明一下,row_number()开窗函数的作用其实就是给每个分组的数据,按照其排序顺序,打上一个分组内行号比如说,有一个分组20151 ...
开窗函数 First_Value 和 Last_Value
在Sql server 2012里面,开窗函数丰富了许多,其中带出了2个新的函数 First_Value 和 Last Value .现在来介绍一下这2个函数的应用场景. 首先分析一下First_Va ...
Oracle开窗函数 over()（转）
copy文链接:http://blog.csdn.net/yjjm1990/article/details/7524167#,http://www.2cto.com/database/201402/2 ...
oracle的分析函数over 及开窗函数
转:http://www.2cto.com/database/201310/249722.html oracle的分析函数over 及开窗函数一:分析函数over Oracle从8.1.6开 ...
开窗函数 --over（）
一个学习性任务:每个人有不同次数的成绩,统计出每个人的最高成绩. 这个问题应该还是相对简单,其实就用聚合函数就好了. select id,name,max(score) from Student gr ...

随机推荐

Spring @RequestMapping 参数说明
@RequestMapping 参数说明: value: 指定请求的实际地址, 比如 /action/info之类.method: 指定请求的method类型, GET.POST.PUT.DELE ...
HandlerMethodReturnValueHandler SpringMVC 参数解析继承关系以及各解析器解析类型
I HandlerMethodReturnValueHandler (org.springframework.web.method.support) AbstractMessageConverterM ...
Java类成员初始化顺序
类中包含7中成员:1.静态变量 static2.final静态常量 final static3.静态代码块 static{} //多个代码块顺序执行 4.普通变量5.普通代码块 {} //多个代码 ...
odoo开发笔记 -- related用法
related:字面意思-关联字段,表示本字段引用关联表中的某字段. 格式为:fields.related(关系字段,引用字段,type,relation,string,...),关系字段是本对象的某 ...
flask 运行 flask db init 报错，init-db 命令找不到
flask init-db 结果是 `Error: No such command “init-db”. 那是因为init-db 已经被 flask db init 给代替了运行 flask db ...
WebGL学习笔记（八）：光照
局部光照与全局光照局部光照只考虑光源到模型表面的照射效果,运算量较小: 全局光照考虑到环境中所有表面和光源相互作用的照射效果,即让没有直接受光照射的位置也会受周围反射光的影响,运算量较大: Ph ...
【转】Revit二次开发——读取cad中的文字信息
Revit读取cad的文字信息需要借助Teigha的开源dll,在程序中添加下图中红色框的dll文件的引用,其他的dll文件全部放在同一个文件夹中即可,运行的时候,会自动把这些dll文件全部复制到bi ...
PyEchart--数据分析师的利器
Echart https://echarts.baidu.com/ ECharts,一个使用 JavaScript 实现的开源可视化库,可以流畅的运行在 PC 和移动设备上,兼容当前绝大部分浏览器(I ...
.net framework msbuild环境搭建 (不装vs)
1. 安装 .net framework sdk 小于等于 .net framework 4.5 版本的 .net framework sdk 通过 windows sdk 工具安装从下面额链接找到 ...
SQL Server:时间范围查询重叠
常常碰到要校验数据范围是否存在重叠冲突的情况,典型的场景是房间预订. 假如房间A已经有9月1日-9月10日的预订记录,当其它客人再来预订时,系统必须判断,不能与这个日期范围产生重叠. 有四种情况会产生 ...

Spark之开窗函数

一.简介

二.代码实践【使用HiveContext】

三.结果【使用HiveContext】

四.代码实现【不使用HiveContext】

五.结果【不使用HiveContext】

Spark之开窗函数的更多相关文章

随机推荐

热门专题

四.代码实现【不使用HiveContext】