048 SparkSQL自定义UDAF函数

一：程序

1.需求

　　实现一个求平均值的UDAF。

　　这里保留Double格式化，在完成求平均值后与系统的AVG进行对比，观察正确性。

2.SparkSQLUDFDemo程序

 package com.scala.it

 import org.apache.spark.sql.hive.HiveContext

 import org.apache.spark.{SparkConf, SparkContext}

 import scala.math.BigDecimal.RoundingMode

 object SparkSQLUDFDemo {

   def main(args: Array[String]): Unit = {

     val conf = new SparkConf()

       .setMaster("local[*]")

       .setAppName("udf")

     val sc = SparkContext.getOrCreate(conf)

     val sqlContext = new HiveContext(sc)

     // ==================================

     // 写一个Double数据格式化的自定义函数(给定保留多少位小数部分)

     sqlContext.udf.register(

       "doubleValueFormat", // 自定义函数名称

       (value: Double, scale: Int) => {

         // 自定义函数处理的代码块

         BigDecimal.valueOf(value).setScale(scale, RoundingMode.HALF_DOWN).doubleValue()

       })

     // 自定义UDAF

     sqlContext.udf.register("selfAvg", AvgUDAF)

     sqlContext.sql(

       """

         |SELECT

         |  deptno,

         |  doubleValueFormat(AVG(sal), 2) AS avg_sal,

         |  doubleValueFormat(selfAvg(sal), 2) AS self_avg_sal

         |FROM hadoop09.emp

         |GROUP BY deptno

       """.stripMargin).show()

   }

 }

3.AvgUDAF程序

 package com.scala.it

 import org.apache.spark.sql.Row

 import org.apache.spark.sql.expressions.{MutableAggregationBuffer, UserDefinedAggregateFunction}

 import org.apache.spark.sql.types._

 object AvgUDAF extends UserDefinedAggregateFunction{

   override def inputSchema: StructType = {

     // 给定UDAF的输出参数类型

     StructType(

       StructField("sal", DoubleType) :: Nil

     )

   }

   override def bufferSchema: StructType = {

     // 在计算过程中会涉及到的缓存数据类型

     StructType(

       StructField("total_sal", DoubleType) ::

         StructField("count_sal", LongType) :: Nil

     )

   }

   override def dataType: DataType = {

     // 给定该UDAF返回的数据类型

     DoubleType

   }

   override def deterministic: Boolean = {

     // 主要用于是否支持近似查找，如果为false：表示支持多次查询允许结果不一样，为true表示结果必须一样

     true

   }

   override def initialize(buffer: MutableAggregationBuffer): Unit = {

     // 初始化 ===> 初始化缓存数据

     buffer.update(0, 0.0) // 初始化total_sal

     buffer.update(1, 0L) // 初始化count_sal

   }

   override def update(buffer: MutableAggregationBuffer, input: Row): Unit = {

     // 根据输入的数据input，更新缓存buffer的内容

     // 获取输入的sal数据

     val inputSal = input.getDouble(0)

     // 获取缓存中的数据

     val totalSal = buffer.getDouble(0)

     val countSal = buffer.getLong(1)

     // 更新缓存数据

     buffer.update(0, totalSal + inputSal)

     buffer.update(1, countSal + 1L)

   }

   override def merge(buffer1: MutableAggregationBuffer, buffer2: Row): Unit = {

     // 当两个分区的数据需要进行合并的时候，该方法会被调用

     // 功能：将buffer2中的数据合并到buffer1中

     // 获取缓存区数据

     val buf1Total = buffer1.getDouble(0)

     val buf1Count = buffer1.getLong(1)

     val buf2Total = buffer2.getDouble(0)

     val buf2Count = buffer2.getLong(1)

     // 更新缓存区

     buffer1.update(0, buf1Total + buf2Total)

     buffer1.update(1, buf1Count + buf2Count)

   }

   override def evaluate(buffer: Row): Any = {

     // 求返回值

     buffer.getDouble(0) / buffer.getLong(1)

   }

 }

4.效果

二：知识点

1.udf注册

2.解释上面的update

　　重要的是两个参数的意思，不然程序有些看不懂。

　　所以，程序的意思是，第一位存储总数，第二位存储个数。

3.还要解释一个StructType的生成

　　在以前的程序中，是使用Array来生成的。如：

　　在上面的程序中，不是这种方式，使用集合的方式。

048 SparkSQL自定义UDAF函数的更多相关文章

hive自定义udaf函数
自定义udaf函数的代码框架 //首先继承一个类AbstractGenericUDAFResolver,然后实现里面的getevaluate方法 public GenericUDAFEvaluator ...
sparksql 自定义用户函数（UDF）
自定义用户函数有两种方式,区别:是否使用强类型,参考demo:https://github.com/asker124143222/spark-demo 1.不使用强类型,继承UserDefinedAg ...
047 SparkSQL自定义UDF函数
一:程序部分 1.需求 Double数据类型格式化,可以给定小数点位数 2.程序 package com.scala.it import org.apache.spark.{SparkConf, Sp ...
关于CDH5.2+ 添加hive自定义UDAF函数的方法
Spark(十三)【SparkSQL自定义UDF/UDAF函数】
目录一.UDF(一进一出) 二.UDAF(多近一出) spark2.X 实现方式案例 ①继承UserDefinedAggregateFunction,实现其中的方法 ②创建函数对象,注册函数,在s ...
【Spark篇】---SparkSql之UDF函数和UDAF函数
一.前述 SparkSql中自定义函数包括UDF和UDAF UDF:一进一出 UDAF:多进一出 (联想Sum函数) 二.UDF函数 UDF:用户自定义函数,user defined functio ...
Spark基于自定义聚合函数实现【列转行、行转列】
一.分析 Spark提供了非常丰富的算子,可以实现大部分的逻辑处理,例如,要实现行转列,可以用hiveContext中支持的concat_ws(',', collect_set('字段'))实现.但是 ...
自定义Hive函数
7. 函数 7.1 系统内置函数查看系统自带的函数:show functions; 显示自带的函数的用法:desc function upper(函数名); 详细显示自带的函数的用法:desc fu ...
入门大数据---SparkSQL常用聚合函数
一.简单聚合 1.1 数据准备 // 需要导入 spark sql 内置的函数包 import org.apache.spark.sql.functions._ val spark = SparkSe ...

随机推荐

DML_DDL_触发器
Oracle触发器1-介绍Oracle官方参考:PL/SQL Language Referenc->9 PL/SQL TriggerReasons to Use Trigger:■ Automa ...
springmvc框架原理分析和简单入门程序
一.什么是springmvc? 我们知道三层架构的思想,并且如果你知道ssh的话,就会更加透彻的理解这个思想,struts2在web层,spring在中间控制,hibernate在dao层与数据库打交 ...
Sybase·调用存储过程并返回结果
最近项目要用Sybase数据库实现分页,第一次使用Sybase数据库,也是第一次使用他的存储过程.2个多小时才调用成功,在此记录: 项目架构:SSM 1.Sybase本身不支持分页操作,需要写存储过程 ...
python1113
点点滴滴才可以来开距离,人与人的差距是在点点滴滴中拉开的 break 语句可以跳出 for 和 while 的循环体的当前循环 continue语句被用来告诉Python跳过当前循环块中的剩余语句,然 ...
phpstudy添加redis扩展
操作系统 windows: 直接贴步骤记录下一. 划重点,运行phpinfo(), 观察第四行 x86 好了记住这个 x86 三. http://pecl.php.net/pa ...
Nginx详解二十九：基于Nginx的中间件架构设计
基于Nginx的中间件架构一:了解需求 1.定义Nginx在服务体系中的角色 1.静态资源服务 2.代理服务 3.动静分离 2.静态资源服务的功能设计 3.代理服务二:设计评估三:配置注意事项
Python序列[1,2,3,4,5]
序列是用于存放多个值得连续空间,并按一定顺序排列,每一个值(称为元素)都分配一个数,称为索引或位置.通过该索引可以取出相应的值. 索引序列中的元素都是有序的.拥有自己编号(从0开始),我们可以通过索 ...
jQuery 常用的方法
<!DOCTYPE html><html lang="en"><head> <meta charset="utf-8" ...
C/C++中二进制与文本方式打开文件的区别
二进制与文本文件主要有两个大的区别: 1.换行符的区别: Windows平台下对于Windows文本文件,它们使用回车和换行来表示换行符:如果以“文本”方式打开文件,当读取文件的时候,系统会将所有 ...
SQLSERVER 数据量太大，重启服务器后，数据库显示正在恢复
问题:如题. 解决方法:右键数据库属性——选项——恢复模式:简单

048 SparkSQL自定义UDAF函数

048 SparkSQL自定义UDAF函数的更多相关文章

随机推荐

热门专题