Spark Sql的UDF和UDAF函数

Spark Sql提供了丰富的内置函数供猿友们使用，辣为何还要用户自定义函数呢？实际的业务场景可能很复杂，内置函数hold不住，所以spark sql提供了可扩展的内置函数接口：哥们，你的业务太变态了，我满足不了你，自己按照我的规范去定义一个sql函数，该怎么折腾就怎么折腾！

这里还是先以Scala实现一个简单的hello world级别的小样为例，来体验udf与udaf的使用好了。

问题

将如下数组：

val bigData = Array("Spark","Hadoop","Flink","Spark","Hadoop","Flink",

"Spark","Hadoop","Flink","Spark","Hadoop","Flink")

中的字符分组聚合并计算出每个字符的长度及字符出现的个数。正常结果
如下：

+------+-----+------+

|  name|count|length|

+------+-----+------+

| Spark|    |     |

| Flink|    |     |

|Hadoop|    |     |

+------+-----+------+

注：‘spark’ 这个字符的长度为5 ，共出现了4次。

分析

自定义个一个求字符串长度的函数
自定义的sql函数，与scala中的普通函数一样，只不过在使用上前者需要先在sqlContext中进行注册。
自定义一个聚合函数
按照字符串名称分组后，调用自定义的聚合函数实现累加。
啊，好抽象，直接看代码吧！

代码

package com.hand.datasafe

import org.apache.spark.rdd.RDD

import org.apache.spark.sql.{Row, SQLContext, SparkSession}

import org.apache.spark.sql.types.StructType

import org.apache.spark.sql.types.StructField

import org.apache.spark.sql.types.StringType

/**

  * Spark SQL UDAF：user defined aggregation function

  * UDF: 函数的输入是一条具体的数据记录，实现上讲就是普通的scala函数-只不过需要注册

  * UDAF：用户自定义的聚合函数，函数本身作用于数据集合，能够在具体操作的基础上进行自定义操作

  */

object SparkSQLUDF {

  def main(args: Array[String]): Unit = {

    val spark = SparkSession.builder().appName("datasafe").master("local").getOrCreate()

    val bigData = Array("Spark", "Hadoop", "Flink", "Spark", "Hadoop", "Flink", "Spark", "Hadoop", "Flink", "Spark", "Hadoop", "Flink")

    val bigDataRDD = spark.sparkContext.parallelize(bigData)

    val bigDataRowRDD: RDD[Row] = bigDataRDD.map(line => Row(line))

    val structType = StructType(Array(StructField("name", StringType, true)))

    val bigDataDF = spark.createDataFrame(bigDataRowRDD, structType)

    bigDataDF.printSchema()

    bigDataDF.createTempView("bigDataTable")

    /*

     * 通过saprk注册UDF，在scala2.1.x版本UDF函数最多可以接受22个输入参数

     */

    spark.udf.register("computeLength", (input: String) => input.length)

    spark.sql("select name,computeLength(name)  as length from bigDataTable").show

    //while(true){}

    spark.udf.register("wordCount", new MyUDAF)

    spark.sql("select name,wordCount(name) as count,computeLength(name) as length from bigDataTable group by name ").show

    spark.sql("select name,wordCount(name) as count,computeLength(name) as length from bigDataTable group by name ").printSchema()

  }

}

package com.hand.datasafe

import org.apache.spark.sql.Row

import org.apache.spark.sql.expressions.{MutableAggregationBuffer, UserDefinedAggregateFunction}

import org.apache.spark.sql.types._

/**

  * 用户自定义函数

  */

class MyUDAF extends UserDefinedAggregateFunction

{

  /**

    * 指定具体的输入数据的类型

    * 自段名称随意：Users can choose names to identify the input arguments - 这里可以是“name”，或者其他任意串

    */

  override def inputSchema:StructType = StructType(Array(StructField("name",StringType,true)))

  /**

    * 在进行聚合操作的时候所要处理的数据的中间结果类型

    */

  override def bufferSchema:StructType = StructType(Array(StructField("count",IntegerType,true)))

  /**

    * 返回类型

    */

  override def dataType:DataType = IntegerType

  /**

    * whether given the same input,

    * always return the same output

    * true: yes

    */

  override def deterministic:Boolean = true

  /**

    * Initializes the given aggregation buffer

    */

  override def initialize(buffer:MutableAggregationBuffer):Unit = {buffer()=}

  /**

    * 在进行聚合的时候，每当有新的值进来，对分组后的聚合如何进行计算

    * 本地的聚合操作，相当于Hadoop MapReduce模型中的Combiner

    */

  override def update(buffer:MutableAggregationBuffer,input:Row):Unit={

    buffer() = buffer.getInt()+

  }

  /**

    * 最后在分布式节点进行local reduce完成后需要进行全局级别的merge操作

    */

  override def merge(buffer1:MutableAggregationBuffer,buffer2:Row):Unit={

    buffer1() = buffer1.getInt()+buffer2.getInt()

  }

  /**

    * 返回UDAF最后的计算结果

    */

  override def evaluate(buffer:Row):Any = buffer.getInt()

}

总结

呼叫spark大神升级udaf实现
为了自己实现一个sql聚合函数，我需要继承UserDefinedAggregateFunction并实现8个抽象方法！8个方法啊！what’s a disaster ! 然而，要想在sql中完成符合特定业务场景的聚合类（a = aggregation）功能,就得udaf。
怎么理解MutableAggregationBuffer呢？就是存储中间结果的，聚合就意味着多条记录的累加等操作。

Spark Sql的UDF和UDAF函数的更多相关文章

Spark SQL中UDF和UDAF
转载自:https://blog.csdn.net/u012297062/article/details/52227909 UDF: User Defined Function,用户自定义的函数,函数 ...
Spark SQL概念学习系列之用户自定义函数
不多说,直接上干货! 用户自定义函数注册udf 我们可以使用Spark 支持的编程语言编写好函数,然后通过Spark SQL 内建的方法传递进来,非常便捷地注册我们自己的UDF 在Scala 和Py ...
【Spark篇】---SparkSQL中自定义UDF和UDAF，开窗函数的应用
一.前述 SparkSQL中的UDF相当于是1进1出,UDAF相当于是多进一出,类似于聚合函数. 开窗函数一般分组取topn时常用. 二.UDF和UDAF函数 1.UDF函数 java代码: Spar ...
Spark(十三)【SparkSQL自定义UDF/UDAF函数】
目录一.UDF(一进一出) 二.UDAF(多近一出) spark2.X 实现方式案例 ①继承UserDefinedAggregateFunction,实现其中的方法 ②创建函数对象,注册函数,在s ...
Databricks 第9篇：Spark SQL 基础（数据类型、NULL语义）
Spark SQL 支持多种数据类型,并兼容Python.Scala等语言的数据类型. 一,Spark SQL支持的数据类型整数系列: BYTE, TINYINT:表示1B的有符号整数 SHORT, ...
Spark SQL 用户自定义函数UDF、用户自定义聚合函数UDAF 教程（Java踩坑教学版）
在Spark中,也支持Hive中的自定义函数.自定义函数大致可以分为三种: UDF(User-Defined-Function),即最基本的自定义函数,类似to_char,to_date等 UDAF( ...
详解Spark sql用户自定义函数:UDF与UDAF
UDAF = USER DEFINED AGGREGATION FUNCTION Spark sql提供了丰富的内置函数供猿友们使用,辣为何还要用户自定义函数呢?实际的业务场景可能很复杂,内置函数ho ...
【Spark篇】---SparkSql之UDF函数和UDAF函数
一.前述 SparkSql中自定义函数包括UDF和UDAF UDF:一进一出 UDAF:多进一出 (联想Sum函数) 二.UDF函数 UDF:用户自定义函数,user defined functio ...
Kafka：ZK+Kafka+Spark Streaming集群环境搭建（十五）Spark编写UDF、UDAF、Agg函数
Spark Sql提供了丰富的内置函数让开发者来使用,但实际开发业务场景可能很复杂,内置函数不能够满足业务需求,因此spark sql提供了可扩展的内置函数. UDF:是普通函数,输入一个或多个参数, ...

随机推荐

【转】【Linux】sed命令详解
sed命令详解 sed是stream editor的简称,也就是流编辑器.它一次处理一行内容,处理时,把当前处理的行存储在临时缓冲区中,称为“模式空间”(pattern space),接着用sed命令 ...
UML概述
UML (Unified Modeling Language)统一建模语言,是描述.构造和文档化系统制品的可视化语言,是一种图形表示法. UML用途:UML是一种工具,主要用在我们对软件用面向对象的方 ...
linux 下简单的ftp客户端程序
该ftp的客服端是在linux下面写,涉及的东西也比较简单,如前ftp的简单介绍,知道ftp主要的工作流程架构,套接字的创建,还有就是字符串和字符的处理.使用的函数都是比较简单平常易见的,写的时候感觉 ...
Elasticsearch JVM Heap Size大于32G，有什么影响？
0.引言在规划ES部署的时候,会涉及到data node的分配堆内存大小,而Elasticsearch默认安装后设置的内存是1GB,对于任何一个业务部署来说,这个都太小了. 设置Heap Size的 ...
jQuery实现提交按钮点击后变成正在处理字样并禁止点击的方法
本文实例讲述了jQuery实现提交按钮点击后变成正在处理字样并禁止点击的方法.分享给大家供大家参考.具体实现方法如下: 这里主要通过val方法设置按钮的文字,并用attr方法修改disabled属性实 ...
MFC WinInetHttp抓取网页代码内容
Windows Internet编程主要包括两方面: l 服务器端 l 客户端 WinInet编程 Internet客户端主要实现的功能,主要是通过Internet协议(HTTP.FTP等)获 ...
Angular2 表单（一）用户输入
绑定到用户输入事件等号左边的 (click) 表示把按钮的点击事件作为绑定目标. 等号右边引号中的文本是模板语句,通过调用组件的 onClickMe 方法来响应这个点击事件. <button ...
iOS开发之--去除按钮的点击效果
Button.adjustsImageWhenHighlighted = NO; 去除按钮的点击效果,用这句代码就可以了!
利用hugo生成静态站点
动机使用Markdown撰写博客,并以静态页面形式发布. 选择hugo 现在jekyll似乎更加流行,但是jekyll是基于Ruby的,在windows下安装很繁琐. 而hugo是用go写的,win ...
[Web] 如何实现Web服务器和应用服务器的负载均衡？
本文对Web服务器和应用服务器的负载均衡进行说明. 在负载均衡的思路下,多台服务器为对称方式,每台服务器都具有同等的地位,可以单独对外提供服务而无须其他服务器的辅助.通过负载分担技术,将外部发送来的请 ...

Spark Sql的UDF和UDAF函数

问题

分析

代码

总结

Spark Sql的UDF和UDAF函数的更多相关文章

随机推荐

热门专题