Spark之UDAF

一.简介

　　Spark的自定义udf和udaf是为了提供函数扩展，Spark本身提供了几十上百个算子，在数据分析的各个方面的常用计算方式都有提到，但计算场景千差万别，算子也不会面面俱到，如何在单机或集群上定义函数就是要重点关注的地方。特别是在集群模式中，函数需要使用spark注册才能在各个节点上使用，因此，udf和udaf就显得比较重要了。

二.设置日志级别

Logger.getLogger("org").setLevel(Level.WARN) // 设置日志级别为WARN

三.创建spark入口

val spark = SparkSession.builder().appName("UdfUdaf").master("local[2]").getOrCreate()

val sc = spark.sparkContext

val sqlContext = spark.sqlContext

四.创建测试数据

val userData = Array(

  "2015,11,www.baidu.com", "2016,14,www.google.com",

  "2017,13,www.apache.com", "2015,21,www.spark.com",

  "2016,32,www.hadoop.com", "2017,18,www.solr.com",

  "2017,14,www.hive.com"

)

val userDataRDD = sc.parallelize(userData) // 转化为RDD

val userDataType = userDataRDD.map(line => {

   val Array(age, id, url) = line.split(",")

   Row(age, id.toInt, url)

})

val structTypes = StructType(Array(

   StructField("age", StringType, true),

   StructField("id", IntegerType, true),

   StructField("url", StringType, true)

))

// RDD转化为DataFrame

val userDataFrame = sqlContext.createDataFrame(userDataType,structTypes)

// 注冊临时表
userDataFrame.createOrReplaceTempView("udf")

五.自定义udf并测试

def isAdult(age : Int) ={

  if(age > 18){

    true

  }else{

    false

  }

}

// 注册udf(方式一)

spark.udf.register("isAdult_1", (id : Int) => if(id > 18) true else false) // 匿名函数

// 注册udf(方式二)

spark.udf.register("isAdult_2", isAdult _) // 预先定义好的普通函数

// 验证udf方式一

val result_1 = sqlContext.sql("select * from udf where isAdult_1(udf.id)")

result_1.show(false)

// 验证udf方式二

val result_2 = sqlContext.sql("select * from udf where isAdult_2(udf.id)")

result_2.show(false)

六.执行结果

七.自定义udaf并测试

object AverageUserDefinedAggregateFunction extends UserDefinedAggregateFunction{

  //聚合函数输入数据结构

  override def inputSchema:StructType = StructType(StructField("input", LongType) :: Nil)

  //缓存区数据结构

  override def bufferSchema: StructType = StructType(StructField("sum", LongType) :: StructField("count", LongType) :: Nil)

  //结果数据结构

  override def dataType : DataType = DoubleType

  // 是否具有唯一性

  override def deterministic : Boolean = true

  //初始化

  override def initialize(buffer : MutableAggregationBuffer) : Unit = {

    buffer(0) = 0L

    buffer(1) = 0L

  }

  //数据处理 : 必写，其它方法可选，使用默认

  override def update(buffer: MutableAggregationBuffer, input: Row): Unit = {

    if(input.isNullAt(0)) return

    buffer(0) = buffer.getLong(0) + input.getLong(0) //求和

    buffer(1) = buffer.getLong(1) + 1 //计数

  }

  //合并

  override def merge(bufferLeft: MutableAggregationBuffer, bufferRight: Row): Unit ={

    bufferLeft(0) = bufferLeft.getLong(0) + bufferRight.getLong(0)

    bufferLeft(1) = bufferLeft.getLong(1) + bufferRight.getLong(1)

  }

  //计算结果

  override def evaluate(buffer: Row): Any  = buffer.getLong(0).toDouble / buffer.getLong(1)

}

    /**

      * 测试udaf

      */

    spark.udf.register("average", AverageUserDefinedAggregateFunction)

    spark.sql("select count(*) count,average(age) avg_age from udf").show(false)

八.执行结果

Spark之UDAF的更多相关文章

Spark SQL UDAF示例
UDAF:用户自定义聚合函数 Scala 2.10.7,spark 2.0.0 package UDF_UDAF import java.util import org.apache.spark.Sp ...
Spark笔记之使用UDAF（User Defined Aggregate Function）
一.UDAF简介先解释一下什么是UDAF(User Defined Aggregate Function),即用户定义的聚合函数,聚合函数和普通函数的区别是什么呢,普通函数是接受一行输入产生一个输出 ...
Kafka：ZK+Kafka+Spark Streaming集群环境搭建（十五）Spark编写UDF、UDAF、Agg函数
Spark Sql提供了丰富的内置函数让开发者来使用,但实际开发业务场景可能很复杂,内置函数不能够满足业务需求,因此spark sql提供了可扩展的内置函数. UDF:是普通函数,输入一个或多个参数, ...
Spark Sql的UDF和UDAF函数
Spark Sql提供了丰富的内置函数供猿友们使用,辣为何还要用户自定义函数呢?实际的业务场景可能很复杂,内置函数hold不住,所以spark sql提供了可扩展的内置函数接口:哥们,你的业务太变态了 ...
spark编写UDF和UDAF
UDF: 一.编写udf类,在其中定义udf函数 package spark._sql.UDF import org.apache.spark.sql.functions._ /** * AUTHOR ...
spark自定义函数之——UDAF使用详解及代码示例
UDAF简介 UDAF(User Defined Aggregate Function)即用户定义的聚合函数,聚合函数和普通函数的区别是什么呢,普通函数是接受一行输入产生一个输出,聚合函数是接受一组( ...
【转】Spark-Sql版本升级对应的新特性汇总
Spark-Sql版本升级对应的新特性汇总 SparkSQL的前身是Shark.由于Shark自身的不完善,2014年6月1日Reynold Xin宣布:停止对Shark的开发.SparkSQL抛弃原 ...
转：Spark User Defined Aggregate Function (UDAF) using Java
Sometimes the aggregate functions provided by Spark are not adequate, so Spark has a provision of ac ...
Spark SQL 用户自定义函数UDF、用户自定义聚合函数UDAF 教程（Java踩坑教学版）
在Spark中,也支持Hive中的自定义函数.自定义函数大致可以分为三种: UDF(User-Defined-Function),即最基本的自定义函数,类似to_char,to_date等 UDAF( ...

随机推荐

mysql 开发基础系列14 字符集
字符集是一套文字符号及其编码,比较规则的集合.第一个字符集是ascll(american standard code for information interchange). 1. 选择合适的字 ...
为hexo博客添加基于gitment评论功能
关于gitment gitment其实就是利用你的代码仓库的Issues,来实现评论.每一篇文章对应该代码仓库中的一个Issues,Issues中的评论对应你的博客每篇文章中的评论.如果你是用git ...
leetcode — unique-paths-ii
/** * Source : https://oj.leetcode.com/problems/unique-paths-ii/ * * * Follow up for "Unique Pa ...
【原创】NVIC中断
(1)NVIC 全称为Next Vector Interrupt Controoler,嵌套中断向量控制器,是ARM Cortex M3的内部设备之一,任何一款基于ARM Cortex M3的 ...
TCP/IP原理浅析
TCP/IP概述 TCP/IP起源于1969年美国国防部(DOD:The United States Department Of Defense)高级研究项目管理局(APRA:AdvancedRese ...
kubernetes之收集集群的events，监控集群行为
一.概述线上部署的k8s已经扛过了双11的洗礼,期间先是通过对网络和监控的优化顺利度过了双11并且表现良好.先简单介绍一下我们kubernetes的使用方式: 物理机系统:Ubuntu-16.04( ...
Pytorch1.0入门实战二：LeNet、AleNet、VGG、GoogLeNet、ResNet模型详解
LeNet 1998年,LeCun提出了第一个真正的卷积神经网络,也是整个神经网络的开山之作,称为LeNet,现在主要指的是LeNet5或LeNet-5,如图1.1所示.它的主要特征是将卷积层和下采样 ...
OJ：又一道考察多态的题目
Description 下面的程序输出结果是: A::Fun A::Do A::Fun C::Do 请填空: 程序代码如下 #include <iostream> using namesp ...
python模块之pickle、shelve、json
一什么是序列化序列化指的是将内存中的数据结构转化为一种中间格式,并存储到硬盘上. (反序列化:将硬盘上存储的中间格式数据再还原为内存中的数据结构) 二为什么要序列化持久保持状态需知一个软件/ ...
Linux核心命令
Linux核心命令 strace(查看系统调用的一个过程) 例:strace cat /test.txt netstat perf top pidstat mpstat dstat vmstat sl ...

Spark之UDAF

一.简介

二.设置日志级别

三.创建spark入口

四.创建测试数据

五.自定义udf并测试

六.执行结果

七.自定义udaf并测试

八.执行结果

Spark之UDAF的更多相关文章

随机推荐

热门专题