Spark之开窗函数

一.简介

　　开窗函数row_number()是按照某个字段分组，然后取另外一个字段排序的前几个值的函数，相当于分组topN。如果SQL语句里面使用了开窗函数，那么这个SQL语句必须使用HiveContext执行。

二.代码实践【使用HiveContext】

package big.data.analyse.sparksql

import org.apache.log4j.{Level, Logger}

import org.apache.spark.sql.types.{IntegerType, StringType, StructField, StructType}

import org.apache.spark.sql.{Row, SparkSession}

/**

  * Created by zhen on 2019/7/6.

  */

object RowNumber {

  /**

    * 设置日志级别

    */

  Logger.getLogger("org").setLevel(Level.WARN)

  def main(args: Array[String]) {

    /**

      * 创建spark入口，支持Hive

      */

    val spark = SparkSession.builder().appName("RowNumber")

      .master("local[2]").enableHiveSupport().getOrCreate()

    /**

      * 创建测试数据

      */

    val array = Array("1,Hadoop,12","5,Spark,6","3,Solr,15","3,HBase,8","6,Hive,16","6,TensorFlow,26")

    val rdd = spark.sparkContext.parallelize(array).map{ row =>

      val Array(id, name, age) = row.split(",")

      Row(id, name, age.toInt)

    }

    val structType = new StructType(Array(

      StructField("id", StringType, true),

      StructField("name", StringType, true),

      StructField("age", IntegerType, true)

    ))

    /**

      * 转化为df

      */

    val df = spark.createDataFrame(rdd, structType)

    df.show()

    df.createOrReplaceTempView("technology")

    /**

      * 应用开窗函数row_number

      * 注意：开窗函数只能在hiveContext下使用

      */

    val result_1 = spark.sql("select id,name,age from (select id,name,age," +

      "row_number() over (partition by id order by age desc) top from technology) t where t.top <= 1")

    result_1.show()

    val result_2 = spark.sql("select id,name,age from (select id,name,age," +

      "row_number() over (partition by id order by age desc) top from technology) t where t.top <= 2")

    result_2.show()

    val result_3 = spark.sql("select id,name,age from (select id,name,age," +

      "row_number() over (partition by id order by age desc) top from technology) t where t.top <= 3")

    result_3.show()

    val result_4 = spark.sql("select id,name,age from (select id,name,age," +

      "row_number() over (partition by id order by age desc) top from technology) t where t.top > 3")

    result_4.show()

  }

}

三.结果【使用HiveContext】

　　1.初始数据

　　2.top<=1时

　　3.top<=2时

　　4.top<=3时

　　5.top>3时【分组中最大为3】

四.代码实现【不使用HiveContext】　

package big.data.analyse.sparksql

import org.apache.log4j.{Level, Logger}

import org.apache.spark.sql.types.{IntegerType, StringType, StructField, StructType}

import org.apache.spark.sql.{Row, SparkSession}

/**

  * Created by zhen on 2019/7/6.

  */

object RowNumber {

  /**

    * 设置日志级别

    */

  Logger.getLogger("org").setLevel(Level.WARN)

  def main(args: Array[String]) {

    /**

      * 创建spark入口，不支持Hive

      */

    val spark = SparkSession.builder().appName("RowNumber")

      .master("local[2]").getOrCreate()

    /**

      * 创建测试数据

      */

    val array = Array("1,Hadoop,12","5,Spark,6","3,Solr,15","3,HBase,8","6,Hive,16","6,TensorFlow,26")

    val rdd = spark.sparkContext.parallelize(array).map{ row =>

      val Array(id, name, age) = row.split(",")

      Row(id, name, age.toInt)

    }

    val structType = new StructType(Array(

      StructField("id", StringType, true),

      StructField("name", StringType, true),

      StructField("age", IntegerType, true)

    ))

    /**

      * 转化为df

      */

    val df = spark.createDataFrame(rdd, structType)

    df.show()

    df.createOrReplaceTempView("technology")

    /**

      * 应用开窗函数row_number

      * 注意：开窗函数只能在hiveContext下使用

      */

    val result_1 = spark.sql("select id,name,age from (select id,name,age," +

      "row_number() over (partition by id order by age desc) top from technology) t where t.top <= 1")

    result_1.show()

    val result_2 = spark.sql("select id,name,age from (select id,name,age," +

      "row_number() over (partition by id order by age desc) top from technology) t where t.top <= 2")

    result_2.show()

    val result_3 = spark.sql("select id,name,age from (select id,name,age," +

      "row_number() over (partition by id order by age desc) top from technology) t where t.top <= 3")

    result_3.show()

    val result_4 = spark.sql("select id,name,age from (select id,name,age," +

      "row_number() over (partition by id order by age desc) top from technology) t where t.top > 3")

    result_4.show()

  }

}

五.结果【不使用HiveContext】

Spark之开窗函数的更多相关文章

【Spark篇】---SparkSQL中自定义UDF和UDAF，开窗函数的应用
一.前述 SparkSQL中的UDF相当于是1进1出,UDAF相当于是多进一出,类似于聚合函数. 开窗函数一般分组取topn时常用. 二.UDF和UDAF函数 1.UDF函数 java代码: Spar ...
Spark（十三）SparkSQL的自定义函数UDF与开窗函数
一自定义函数UDF 在Spark中,也支持Hive中的自定义函数.自定义函数大致可以分为三种: UDF(User-Defined-Function),即最基本的自定义函数,类似to_char,to_ ...
spark开窗函数
源文件内容示例: http://bigdata.beiwang.cn/laoli http://bigdata.beiwang.cn/laoli http://bigdata.beiwang.cn/h ...
【Spark-SQL学习之三】 UDF、UDAF、开窗函数
环境虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk1.8 scala-2.10.4(依赖jdk1.8) spark ...
SparkSQL开窗函数 row_number()
开始编写我们的统计逻辑,使用row_number()函数先说明一下,row_number()开窗函数的作用其实就是给每个分组的数据,按照其排序顺序,打上一个分组内行号比如说,有一个分组20151 ...
开窗函数 First_Value 和 Last_Value
在Sql server 2012里面,开窗函数丰富了许多,其中带出了2个新的函数 First_Value 和 Last Value .现在来介绍一下这2个函数的应用场景. 首先分析一下First_Va ...
Oracle开窗函数 over()（转）
copy文链接:http://blog.csdn.net/yjjm1990/article/details/7524167#,http://www.2cto.com/database/201402/2 ...
oracle的分析函数over 及开窗函数
转:http://www.2cto.com/database/201310/249722.html oracle的分析函数over 及开窗函数一:分析函数over Oracle从8.1.6开 ...
开窗函数 --over（）
一个学习性任务:每个人有不同次数的成绩,统计出每个人的最高成绩. 这个问题应该还是相对简单,其实就用聚合函数就好了. select id,name,max(score) from Student gr ...

随机推荐

hive分区与实际分区文件不匹配导致spark读文件出错的问题解决
先解释下,由于历史原因导致hive中的看到分区比hdfs中的文件夹不匹配,存在hive中分区数有,实际hdfs中无此文件夹. spark中通过sparkSQL读取hive中的该表时,将会出现异常. 解 ...
Nginx返回固定json或者文本格式的方法
在系统还没有做集群的情况下,直接重启项目时刚好用户在使用的话,一般都会受到投诉,那么使用nginx返回类似“系统维护”的提示信息并且提前在应用上面做通知才是合适的做法那么记录一下nginx里面的配置 ...
Android闪屏问题的分析思路
http://www.devba.com/index.php/archives/6157.html Android闪屏问题的分析思路作者:孤风一剑发布:2015-01-22 12:35 ...
Redux counterpart rematch dva
rematch https://github.com/rematch/rematch#examples 数据模型一个文件定义, 不用分散到 action actiontype reducer 文件 e ...
https://www.jianshu.com/p/1038c6170775
import os # 方法一: os.walk实现 def items_dir(rootname): l = [] for main_dir, dirs, file_name_list in os. ...
Qt编写控件属性设计器
一.前言自从研究Qt编写自定义控件以来,一发不可收拾,越多越多人有类似的需求找我定制控件,陆陆续续写了上百个控件,目前已超过150个,于是逐渐衍生了另外一个需求,提供一个控件属性设计器,类似QtDe ...
Srping的IOC
XML方式: IOC:控制反转的底层原理就是:工厂模式+反射+配置文件DI:依赖注入就是通过配置文件设置属性值 BeanFactory 是老版本的工厂类:调用getBean的时候,才会生成类的实例Ap ...
词向量词嵌入 word embedding
词嵌入 word embedding embedding 嵌入 embedding: 嵌入, 在数学上表示一个映射f:x->y, 是将x所在的空间映射到y所在空间上去,并且在x空间中每一个x有y ...
iOS - 截取数组前几个元素放入新的数组,剩余的放入另外一个数组
NSArray *array = [NSArray arrayWithObjects:@"Crystal",@"Maisie",@"Lukas&quo ...
git worktree 目录修复
三种方式挨个尝试,1不行用2 2不行用3 1.拉取阶段失败 git worktree add -f -B xxx_branch ./xxx_branch origin/xxx_branch 强制拉取 ...

Spark之开窗函数

一.简介

二.代码实践【使用HiveContext】

三.结果【使用HiveContext】

四.代码实现【不使用HiveContext】

五.结果【不使用HiveContext】

Spark之开窗函数的更多相关文章

随机推荐

热门专题

四.代码实现【不使用HiveContext】