UDAF(用户自定义聚合函数)求众数

除了逐行处理数据的udf，还有比较常见的就是聚合多行处理udaf，自定义聚合函数。类比rdd编程就是map和reduce算子的区别。
自定义UDAF，需要extends org.apache.spark.sql.expressions.UserDefinedAggregateFunction，并实现接口中的8个方法。
udaf写起来比较麻烦，我下面列一个之前写的取众数聚合函数，在我们通常在聚合统计的时候可能会受某条脏数据的影响。
举个栗子：
对于一个app日志聚合的时候，有id与ip，原则上一个id有一个ip，但是在多条数据里有一条ip是错误的或者为空的，这时候group能会聚合成两条数据了就，如果使用max，min对ip也进行聚合，那也不太合理，这时候可以进行投票，去类似多数对结果，从而聚合后只有一个设备。
废话少说，上代码：

import org.apache.spark.sql.Row

import org.apache.spark.sql.expressions.{MutableAggregationBuffer, UserDefinedAggregateFunction}

import org.apache.spark.sql.types._

/**

  * Description: 自定义聚合函数：众数（取列内频率最高的一条）

  */

class UDAFGetMode extends UserDefinedAggregateFunction {

  override def inputSchema: StructType = {

    StructType(StructField("inputStr", StringType, true) :: Nil)

  }

  override def bufferSchema: StructType = {

    StructType(StructField("bufferMap", MapType(keyType = StringType, valueType = IntegerType), true) :: Nil)

  }

  override def dataType: DataType = StringType

  override def deterministic: Boolean = false

  //初始化map

  override def initialize(buffer: MutableAggregationBuffer): Unit = {

    buffer() = scala.collection.immutable.Map[String, Int]()

  }

  //如果包含这个key则value+1,否则写入key,value=1

  override def update(buffer: MutableAggregationBuffer, input: Row): Unit = {

    val key = input.getAs[String]()

    val immap = buffer.getAs[Map[String, Int]]()

    val bufferMap = scala.collection.mutable.Map[String, Int](immap.toSeq: _*)

    val ret = if (bufferMap.contains(key)) {

      //      val new_value = bufferMap.get(key).get + 1

      val new_value = bufferMap(key) +

      bufferMap.put(key, new_value)

      bufferMap

    } else {

      bufferMap.put(key, )

      bufferMap

    }

    buffer.update(, ret)

  }

  override def merge(buffer1: MutableAggregationBuffer, buffer2: Row): Unit = {

    //合并两个map 相同的key的value累加

    val tempMap = (buffer1.getAs[Map[String, Int]]() /: buffer2.getAs[Map[String, Int]]()) {

      case (map, (k, v)) => map + (k -> (v + map.getOrElse(k, )))

    }

    buffer1.update(, tempMap)

  }

  override def evaluate(buffer: Row): Any = {

    //返回值最大的key

    var max_value =

    var max_key = ""

    buffer.getAs[Map[String, Int]]().foreach({ x =>

      val key = x._1

      val value = x._2

      if (value > max_value) {

        max_value = value

        max_key = key

      }

    })

    max_key

  }

}

测试类：

object UDAFTest {

  def main(args: Array[String]): Unit = {

    val spark = SparkSession.builder().master("local").appName(this.getClass.getSimpleName).getOrCreate()

    spark.udf.register("get_mode", new UDAFGetMode)

    import spark.implicits._

    val df = Seq(

      (, "10.10.1.1", "start"),

      (, "10.10.1.1", "search"),

      (, "123.123.123.1", "search"),

      (, "10.10.1.0", "stop"),

      (, "123.123.123.1", "start")

    ).toDF("id", "ip", "action")

    df.createTempView("tb")

    spark.sql(s"select id,get_mode(ip) as u_ip,count(*) as cnt from tb group by id").show()

  }

}

UDAF(用户自定义聚合函数)求众数的更多相关文章

Spark SQL 用户自定义函数UDF、用户自定义聚合函数UDAF 教程（Java踩坑教学版）
在Spark中,也支持Hive中的自定义函数.自定义函数大致可以分为三种: UDF(User-Defined-Function),即最基本的自定义函数,类似to_char,to_date等 UDAF( ...
hive学习笔记之十：用户自定义聚合函数(UDAF)
欢迎访问我的GitHub 这里分类和汇总了欣宸的全部原创(含配套源码):https://github.com/zq2599/blog_demos 本篇概览本文是<hive学习笔记>的第十 ...
【Spark篇】---SparkSQL中自定义UDF和UDAF，开窗函数的应用
一.前述 SparkSQL中的UDF相当于是1进1出,UDAF相当于是多进一出,类似于聚合函数. 开窗函数一般分组取topn时常用. 二.UDF和UDAF函数 1.UDF函数 java代码: Spar ...
【Spark-SQL学习之三】 UDF、UDAF、开窗函数
环境虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk1.8 scala-2.10.4(依赖jdk1.8) spark ...
SQL Server 2008 R2——PIVOT 行转列以及聚合函数的选择
==================================声明================================== 本文原创,转载在正文中显要的注明作者和出处,并保证文章的完 ...
2、SQL基础整理（聚合函数）
聚合函数 --求平均 select AVG(age) as 年龄 from xuesheng select AVG(chinese) as 语文 from xuesheng where class ...
Hive学习之自己定义聚合函数
Hive支持用户自己定义聚合函数(UDAF),这样的类型的函数提供了更加强大的数据处理功能. Hive支持两种类型的UDAF:简单型和通用型.正如名称所暗示的,简单型UDAF的实现很easy,但因为使 ...
Kafka：ZK+Kafka+Spark Streaming集群环境搭建（十五）Spark编写UDF、UDAF、Agg函数
Spark Sql提供了丰富的内置函数让开发者来使用,但实际开发业务场景可能很复杂,内置函数不能够满足业务需求,因此spark sql提供了可扩展的内置函数. UDF:是普通函数,输入一个或多个参数, ...
Mongodb学习笔记四(Mongodb聚合函数)
第四章 Mongodb聚合函数插入测试数据 ;j<;j++){ for(var i=1;i<3;i++){ var person={ Name:"jack"+i, ...

随机推荐

HTML中 javascript 相对根路径问题
在HTML文档中,有很多引用的JS或者CSS文件,一般都是用相对路径来引用的,例如: ./../.. ,但是,有没有类似ASP.NET中的路径: ~/Scripts/myScript.js 但是有的: ...
JVM核心知识体系（转http://www.cnblogs.com/wxdlut/p/10670871.html）
1.问题 1.如何理解类文件结构布局? 2.如何应用类加载器的工作原理进行将应用辗转腾挪? 3.热部署与热替换有何区别,如何隔离类冲突? 4.JVM如何管理内存,有何内存淘汰机制? 5.JVM执行引擎 ...
python 搭建一个http服务的小例子
一.创建Server 1.Dos 命令 python -m BaseHTTPServer [port] 默认端口是8000, 2.Python 脚本启动 #coding:utf-8 ''' Creat ...
[tomcat启动报错]registered the JDBC driver [com.alibaba.druid.proxy.DruidDriver] but failed to unregister it when the web application was stopped
环境:一个tomcat ,一个工程配置了多数据源,在启动的时候报如下错误: SEVERE: The web application [/qdp-resource-job] registered the ...
HTML空格占位符
== 普通的英文半角空格 == == == no-break space (普通的英文半角空格但不换行) 　 == 中文全角空格 (一个中文宽度) == == en空格 (半个中文 ...
.net framework 项目 build 出现未能加载文件或程序集“netfx.force.conflicts”或它的某一个依赖项
问题描述 Severity Code Description Project File Line Suppression State Error 未能加载文件或程序集"netfx.force ...
【深入Java虚拟机】二类加载与双亲委派
https://blog.csdn.net/zhangliangzi/article/details/51338291 -参考双亲委派过程:当一个类加载器收到类加载任务时,立即将任务委派给它的父类 ...
javap的使用
今天听的分享里在介绍String时,提到了javap,学习了好久的java,但是好像从来没有了解过这个工具. javap是JDK提供的一个命令行工具,javap能对给定的class文件提供的字节代码进 ...
自动化测试工具Katalon简单使用
前一段时间接触了下Katalon,当时只是简单用了下,今天看到Katalon给发邮件,发现都忘记了,因此重新学习并记录下来 Katalon是在Selemium相同的内核上构建起来的一个自动化测试工具 ...
python 为空判断场景
判定为空的场景: 取值为数字0.None.''.[]四种情况.

UDAF(用户自定义聚合函数)求众数

UDAF(用户自定义聚合函数)求众数的更多相关文章

随机推荐

热门专题