Spark SQL中UDF和UDAF

转载自：https://blog.csdn.net/u012297062/article/details/52227909

UDF: User Defined Function，用户自定义的函数，函数的输入是一条具体的数据记录，实现上讲就是普通的Scala函数；
UDAF：User Defined Aggregation Function，用户自定义的聚合函数，函数本身作用于数据集合，能够在聚合操作的基础上进行自定义操作；

实质上讲，例如说UDF会被Spark SQL中的Catalyst封装成为Expression，最终会通过eval方法来计算输入的数据Row（此处的Row和DataFrame中的Row没有任何关系）

不说太多直接上代码

1、创建Spark的配置对象SparkConf，设置Spark程序的运行时的配置信息

val conf = new SparkConf() //创建SparkConf对象

conf.setAppName("SparkSQLUDFUDAF") //设置应用程序的名称，在程序运行的监控界面可以看到名称

//conf.setMaster("spark://DaShuJu-040:7077") //此时，程序在Spark集群

conf.setMaster("local[4]")

2、创建SparkContext对象和SQLContext对象

//创建SparkContext对象，通过传入SparkConf实例来定制Spark运行的具体参数和配置信息

val sc = new SparkContext(conf)

val sqlContext = new SQLContext(sc) //构建SQL上下文

3、模拟实际使用的数据

val bigData = Array("Spark", "Spark", "Hadoop", "Spark", "Hadoop", "Spark", "Spark", "Hadoop", "Spark", "Hadoop")

4、基于提供的数据创建DataFrame

val bigDataRDD =  sc.parallelize(bigData)

val bigDataRDDRow = bigDataRDD.map(item => Row(item))

val structType = StructType(Array(StructField("word", StringType, true)))

val bigDataDF = sqlContext.createDataFrame(bigDataRDDRow,structType)

5、注册成为临时表

bigDataDF.registerTempTable("bigDataTable")

6、通过SQLContext注册UDF，在Scala 2.10.x版本UDF函数最多可以接受22个输入参数

sqlContext.udf.register("computeLength", (input: String) => input.length)

//直接在SQL语句中使用UDF，就像使用SQL自动的内部函数一样

sqlContext.sql("select word, computeLength(word) as length from bigDataTable").show

7、通过SQLContext注册UDAF

sqlContext.udf.register("wordCount", new MyUDAF)

sqlContext.sql("select word,wordCount(word) as count,computeLength(word) as length" +

" from bigDataTable group by word").show()

8、按照模板实现UDAF

class  MyUDAF extends UserDefinedAggregateFunction {

  // 该方法指定具体输入数据的类型

  override def inputSchema: StructType = StructType(Array(StructField("input", StringType, true)))

  //在进行聚合操作的时候所要处理的数据的结果的类型

  override def bufferSchema: StructType = StructType(Array(StructField("count", IntegerType, true)))

  //指定UDAF函数计算后返回的结果类型

  override def dataType: DataType = IntegerType

  // 确保一致性 一般用true

  override def deterministic: Boolean = true

  //在Aggregate之前每组数据的初始化结果

  override def initialize(buffer: MutableAggregationBuffer): Unit = {buffer() =}

  // 在进行聚合的时候，每当有新的值进来，对分组后的聚合如何进行计算

  // 本地的聚合操作，相当于Hadoop MapReduce模型中的Combiner

  override def update(buffer: MutableAggregationBuffer, input: Row): Unit = {

    buffer() = buffer.getAs[Int]() +

  }

  //最后在分布式节点进行Local Reduce完成后需要进行全局级别的Merge操作

  override def merge(buffer1: MutableAggregationBuffer, buffer2: Row): Unit = {

    buffer1() = buffer1.getAs[Int]() + buffer2.getAs[Int]()

  }

  //返回UDAF最后的计算结果

  override def evaluate(buffer: Row): Any = buffer.getAs[Int]()

}

Spark SQL中UDF和UDAF的更多相关文章

Spark Sql的UDF和UDAF函数
Spark Sql提供了丰富的内置函数供猿友们使用,辣为何还要用户自定义函数呢?实际的业务场景可能很复杂,内置函数hold不住,所以spark sql提供了可扩展的内置函数接口:哥们,你的业务太变态了 ...
Spark SQL中列转行（UNPIVOT）的两种方法
行列之间的互相转换是ETL中的常见需求,在Spark SQL中,行转列有内建的PIVOT函数可用,没什么特别之处.而列转行要稍微麻烦点.本文整理了2种可行的列转行方法,供参考. 本文链接:https: ...
spark sql中进行sechema合并
spark sql中支持sechema合并的操作. 直接上官方的代码吧. val sqlContext = new org.apache.spark.sql.SQLContext(sc) // sql ...
Spark SQL中出现 CROSS JOIN 问题解决
Spark SQL中出现 CROSS JOIN 问题解决 1.问题显示如下所示: Use the CROSS JOIN syntax to allow cartesian products b ...
Spark SQL中的Catalyst 的工作机制
Spark SQL中的Catalyst 的工作机制答:不管是SQL.Hive SQL还是DataFrame.Dataset触发Action Job的时候,都会经过解析变成unresolved的逻 ...
Spark sql -- Spark sql中的窗口函数和对应的api
一.窗口函数种类 ranking 排名类 analytic 分析类 aggregate 聚合类 Function Type SQL DataFrame API Description Ranking ...
【原创】大叔经验分享（84）spark sql中设置hive.exec.max.dynamic.partitions无效
spark 2.4 spark sql中执行 set hive.exec.max.dynamic.partitions=10000; 后再执行sql依然会报错: org.apache.hadoop.h ...
Spark SQL中Not in Subquery为何低效以及如何规避
首先看个Not in Subquery的SQL: // test_partition1 和 test_partition2为Hive外部分区表 select * from test_partition ...
Spark(Hive) SQL中UDF的使用（Python）
相对于使用MapReduce或者Spark Application的方式进行数据分析,使用Hive SQL或Spark SQL能为我们省去不少的代码工作量,而Hive SQL或Spark SQL本身内 ...

随机推荐

vmware无法打开内核设备“\\.\Global\vmx86”: 系统找不到指定的文件
原因: 是虚拟机服务没有开启解决方法:(以管理员的方式运行) 点击“开始→运行”,在运行框中输入 CMD 回车打开命令提示符,然后依次执行以下命令. net start vmcinet start ...
Entity Framework（七）：Fluent API配置案例
一.配置主键要显式将某个属性设置为主键,可使用 HasKey 方法.在以下示例中,使用了 HasKey 方法对 Product 类型配置 ProductId 主键. 1.新加Product类 usi ...
C#_GDI+编程教程
第7章 C#图形图像编程基础本章主要介绍使用C#进行图形图像编程基础,其中包括GDI+绘图基础.C#图像处理基础以及简单的图像处理技术. 7.1 GDI+绘图基础编写图形程序时需要使用GDI( ...
关于Unity的C#基础学习（二）
一.Debug的使用 int a=3; Debug.Log("a="+a); 二.整数的定义 int m; Debug.Log(m); //C#比C更严谨,没有初始化的变量打印出 ...
Key-Value是用一个不可重复的key集合对应可重复的value集合
Key-Value是用一个不可重复的key集合对应可重复的value集合.(典型的例子是字典:通过页码的key值找字的value值). 例子: key1—value1; key2—value2; ke ...
多媒体开发之分场图像和交错图像interlacing---一个破解版的迅雷云点播网站
[-] 目录编辑描述编辑去交错方法编辑去交错源自电影的影像编辑去交错交错式影像编辑单一场去交错intra-field deinterlacing 编辑场间去交错inter-field dei ...
【BZOJ】1637: [Usaco2007 Mar]Balanced Lineup（前缀和+差分+特殊的技巧）
http://www.lydsy.com/JudgeOnline/problem.php?id=1637 很神思想.. 前缀和应用到了极点... 我们可以发现当数量一定时,这个区间最前边的牛的前边一个 ...
Android动态禁用或开启屏幕旋转工具
package com.gwtsz.gts2.util; import android.content.Context; import android.provider.Settings; impor ...
JBPM4.4_工作流基础_准备jBPM4.4环境
1. 工作流基础 1.1. 工作流相关概念工作流(Workflow),就是“业务过程的部分或整体在计算机应用环境下的自动化”,它主要解决的是“使在多个参与者之间按照某种预定义的规则传递文档.信息或任 ...
GSAP 官方文档（结贴）
好久没写GSAP的教程的(其实我也不懂哈哈),国内也没什么人用,不对动画要求特别高的话,其实也没必要用GSAP,现在工作上没用到这个东西,也懒得写了,所以有问题的话去找一下greensock的官方文档 ...

Spark SQL中UDF和UDAF

Spark SQL中UDF和UDAF的更多相关文章

随机推荐

热门专题