Spark（十三）SparkSQL的自定义函数UDF与开窗函数

一自定义函数UDF

在Spark中，也支持Hive中的自定义函数。自定义函数大致可以分为三种：

UDF(User-Defined-Function)，即最基本的自定义函数，类似to_char,to_date等
UDAF（User- Defined Aggregation Funcation），用户自定义聚合函数，类似在group by之后使用的sum,avg等
UDTF(User-Defined Table-Generating Functions),用户自定义生成函数，有点像stream里面的flatMap

自定义一个UDF函数需要继承UserDefinedAggregateFunction类，并实现其中的8个方法

示例

import org.apache.spark.sql.Row

import org.apache.spark.sql.expressions.{MutableAggregationBuffer, UserDefinedAggregateFunction}

import org.apache.spark.sql.types.{DataType, StringType, StructField, StructType}

object GetDistinctCityUDF extends UserDefinedAggregateFunction{

  /**

    * 输入的数据类型

    * */

  override def inputSchema: StructType = StructType(

    StructField("status",StringType,true) :: Nil

  )

  /**

    * 缓存字段类型

    * */

  override def bufferSchema: StructType = {

    StructType(

      Array(

        StructField("buffer_city_info",StringType,true)

      )

    )

  }

/**

  * 输出结果类型

  * */

  override def dataType: DataType = StringType

/**

  * 输入类型和输出类型是否一致

  * */

  override def deterministic: Boolean = true

/**

  * 对辅助字段进行初始化

  * */

  override def initialize(buffer: MutableAggregationBuffer): Unit = {

    buffer.update(0,"")

  }

/**

  *修改辅助字段的值

  * */

  override def update(buffer: MutableAggregationBuffer, input: Row): Unit = {

    //获取最后一次的值

    var last_str = buffer.getString(0)

    //获取当前的值

    val current_str = input.getString(0)

    //判断最后一次的值是否包含当前的值

    if(!last_str.contains(current_str)){

      //判断是否是第一个值，是的话走if赋值，不是的话走else追加

      if(last_str.equals("")){

        last_str = current_str

      }else{

        last_str += "," + current_str

      }

    }

    buffer.update(0,last_str)

  }

/**

  *对分区结果进行合并

  * buffer1是机器hadoop1上的结果

  * buffer2是机器Hadoop2上的结果

  * */

  override def merge(buffer1: MutableAggregationBuffer, buffer2: Row): Unit = {

    var buf1 = buffer1.getString(0)

    val buf2 = buffer2.getString(0)

    //将buf2里面存在的数据而buf1里面没有的数据追加到buf1

    //buf2的数据按照，进行切分

    for(s <- buf2.split(",")){

      if(!buf1.contains(s)){

        if(buf1.equals("")){

          buf1 = s

        }else{

          buf1 += s

        }

      }

    }

    buffer1.update(0,buf1)

  }

/**

  * 最终的计算结果

  * */

  override def evaluate(buffer: Row): Any = {

    buffer.getString(0)

  }

}

注册自定义的UDF函数为临时函数

def main(args: Array[String]): Unit = {

    /**

      * 第一步 创建程序入口

      */

    val conf = new SparkConf().setAppName("AralHotProductSpark")

    val sc = new SparkContext(conf)

    val hiveContext = new HiveContext(sc)

　　//注册成为临时函数

    hiveContext.udf.register("get_distinct_city",GetDistinctCityUDF)

　　//注册成为临时函数

    hiveContext.udf.register("get_product_status",(str:String) =>{

      var status =

      for(s <- str.split(",")){

        if(s.contains("product_status")){

          status = s.split(":")().toInt

        }

      }

    })

}

二开窗函数

row_number() 开窗函数是按照某个字段分组，然后取另一字段的前几个的值，相当于分组取topN

如果SQL语句里面使用到了开窗函数，那么这个SQL语句必须使用HiveContext来执行，HiveContext默认情况下在本地无法创建。

开窗函数格式：

row_number() over (partitin by XXX order by XXX)

java:

 SparkConf conf = new SparkConf();

   conf.setAppName("windowfun");

   JavaSparkContext sc = new JavaSparkContext(conf);

   HiveContext hiveContext = new HiveContext(sc);

   hiveContext.sql("use spark");

   hiveContext.sql("drop table if exists sales");

   hiveContext.sql("create table if not exists sales (riqi string,leibie string,jine Int) "

      + "row format delimited fields terminated by '\t'");

   hiveContext.sql("load data local inpath '/root/test/sales' into table sales");

   /**

    * 开窗函数格式：

    * 【 rou_number() over (partitin by XXX order by XXX) 】

    */

   DataFrame result = hiveContext.sql("select riqi,leibie,jine "

             + "from ("

            + "select riqi,leibie,jine,"

           + "row_number() over (partition by leibie order by jine desc) rank "

            + "from sales) t "

         + "where t.rank<=3");

   result.show();

   sc.stop();

scala:

 val conf = new SparkConf()

 conf.setAppName("windowfun")

 val sc = new SparkContext(conf)

 val hiveContext = new HiveContext(sc)

 hiveContext.sql("use spark");

 hiveContext.sql("drop table if exists sales");

 hiveContext.sql("create table if not exists sales (riqi string,leibie string,jine Int) "

  + "row format delimited fields terminated by '\t'");

 hiveContext.sql("load data local inpath '/root/test/sales' into table sales");

 /**

  * 开窗函数格式：

  * 【 rou_number() over (partitin by XXX order by XXX) 】

  */

 val result = hiveContext.sql("select riqi,leibie,jine "

       + "from ("

    + "select riqi,leibie,jine,"

    + "row_number() over (partition by leibie order by jine desc) rank "

    + "from sales) t "

   + "where t.rank<=3");

 result.show();

 sc.stop()

Spark（十三）SparkSQL的自定义函数UDF与开窗函数的更多相关文章

SQL ServerOVER 子句,over开窗函数,SQL SERVER 开窗函数
https://technet.microsoft.com/zh-cn/library/ms189461(v=sql.105).aspx http://www.cnblogs.com/85538649 ...
SQL Server聚合函数与聚合开窗函数（转载）
以下面这个表的数据作为示例. 什么是聚合函数?聚合函数:聚合函数就是对一组值进行计算后返回单个值(即分组).聚合函数在计算时都会忽略空值(null).所有的聚合函数均为确定性函数.即任何时候使用一组相 ...
SQL Server聚合函数与聚合开窗函数
以下面这个表的数据作为示例. 什么是聚合函数? 聚合函数:聚合函数就是对一组值进行计算后返回单个值(即分组).聚合函数在计算时都会忽略空值(null). 所有的聚合函数均为确定性函数.即任何时候使用一 ...
SQL Server排名函数与排名开窗函数
什么是排名函数?说实话我也不甚清楚,我知道 order by 是排序用的,那么什么又是排名函数呢? 接下来看几个示例就明白了. 首先建立一个表,随便插入一些数据. ROW_NUMBER 函数:直接排序 ...
【SQL学习笔记】排名开窗函数，聚合开窗函数（Over by）
处理一些分组后,该组按照某列排序后 ,取其中某条完整数据的问题. 或按照其中不同列分组后的聚合比如 sum,avg之类. MSDN上语法: Ranking Window Functions < ...
SparkSQL中的自定义函数UDF
在Spark中,也支持Hive中的自定义函数.自定义函数大致可以分为三种: UDF(User-Defined-Function),即最基本的自定义函数,类似to_char,to_date等 UDAF( ...
spark开窗函数
源文件内容示例: http://bigdata.beiwang.cn/laoli http://bigdata.beiwang.cn/laoli http://bigdata.beiwang.cn/h ...
hive常用函数 wordCount--Hive窗口函数1.1.1 聚合开窗函数聚合开窗函数实战
第三天笔记第三天笔记 SQL练习Hive 常用函数关系运算数值计算条件函数日期函数重点!!!字符串函数Hive 中的wordCount1.1 Hive窗口函数1.1.1 聚合开窗函数聚合开窗函数实战 ...
Oracle开窗函数 over()（转）
copy文链接:http://blog.csdn.net/yjjm1990/article/details/7524167#,http://www.2cto.com/database/201402/2 ...

随机推荐

笔记 jquery 的一个bug解决方法积累
本博客是自己在学习和工作途中的积累与总结,仅供自己参考,也欢迎大家转载,转载时请注明出处当id或匹配条件中包含特殊字符时,浏览器控制台会报缺少")"的异常,解决办法目前有两个: ...
JVM加载一个类的过程
类的加载过程 Java源代码被编译成class字节码,JVM把描述类数据的字节码.Class文件加载到内存,并对数据进行校验.转换解析和初始化,最终形成可以被虚拟机直接使用的java类型,这就是虚拟机 ...
JS动态更新微信浏览器中的title
问题: 最近在做一个微信中分享的宣传页,分不同的场景,切换不同的场景时需要设置不同的title,实现的方案很简单,当用户切换场景的时候,修改document对象的title属性,可是在实际测试中,io ...
webpack的基础入门
webpack的基础入门这里对于 webpack 的基础入门进行一些总结,可以参考 github 上的 webpack-demo ,链接是 https://github.com/RealAndMe/ ...
Git之初始化及提交操作
Git 的配置文件有三个: Git 把管理的文件分为了两个区域四个状态: 工作区: 当前开发程序所在目录称为工作区,该区域的文件会有状态的变化且状态由 git自动检测,程序中文件做任何操作(增.删.改 ...
Machine Learning Trick of the Day (1): Replica Trick
Machine Learning Trick of the Day (1): Replica Trick 'Tricks' of all sorts are used throughout machi ...
单进程单线程的Redis如何能够高并发
redis快的原因: 1.纯内存操作2.异步非阻塞 IO 参考文档: (1)http://yaocoder.blog.51cto.com/2668309/888374 (2)http://www.cn ...
numpy多项式拟合
关于解决使用numpy.ployfit进行多项式拟合的时候请注意数据类型,解决问题的思路就是统一把数据变成浮点型,就可以了.这是numpy里面的一个bug,非常low希望后面改善. # coding: ...
align-items和align-content的区别
最近在研究flex布局,容器中有两个属性,是用来定义crossAxis测轴排列方式的.一开始接触align-items还可以理解感觉不难,后来看到align-content就感觉有点混淆了,特开一篇博 ...
JS模块规范
ES6标准发布后,module成为标准,标准的使用是以export指令导出接口,以import引入模块,但是在我们一贯的node模块中,我们采用的是CommonJS规范,使用require引入模块,使 ...

Spark（十三）SparkSQL的自定义函数UDF与开窗函数

一 自定义函数UDF

二开窗函数

Spark（十三）SparkSQL的自定义函数UDF与开窗函数的更多相关文章

随机推荐

热门专题

一自定义函数UDF