SparkSQL中的自定义函数UDF

在Spark中，也支持Hive中的自定义函数。自定义函数大致可以分为三种：

UDF(User-Defined-Function)，即最基本的自定义函数，类似to_char,to_date等
UDAF（User- Defined Aggregation Funcation），用户自定义聚合函数，类似在group by之后使用的sum,avg等
UDTF(User-Defined Table-Generating Functions),用户自定义生成函数，有点像stream里面的flatMap

Notes: 自定义一个UDF函数需要继承UserDefinedAggregateFunction类，并实现其中的8个方法

自定义函数UDF的编写

GetDistinctCityUDF.scala

package com.UDF.TestUDF

import org.apache.spark.sql.Row

import org.apache.spark.sql.expressions.{MutableAggregationBuffer, UserDefinedAggregateFunction}

import org.apache.spark.sql.types.{DataType, StringType, StructField, StructType}

/**

  * 获取不同城市的UDF函数

  */

object GetDistinctCityUDF extends UserDefinedAggregateFunction{

  /**

    * 输入的数据类型

    */

  override def inputSchema: StructType = StructType(

    StructField("status",StringType,true) :: Nil

  )

  /**

    * 缓存字段类型

    */

  override def bufferSchema: StructType = {

    StructType(

      Array(

        StructField("buffer_city_info",StringType,true)

      )

    )

  }

  /**

    * 输出结果类型

    */

  override def dataType: DataType = StringType

  /**

    * 输入类型和输出类型是否一种

    */

  override def deterministic: Boolean = true

  /**

    * 对辅助字段进行初始化

    */

  override def initialize(buffer: MutableAggregationBuffer): Unit = {

    buffer.update(0,"")

  }

  /**

    * 修改辅助字段的值

    */

  override def update(buffer: MutableAggregationBuffer, input: Row): Unit = {

    // 获取最后一次的值

    var last_str = buffer.getString(0)

    // 获取当前的值

    val current_str = input.getString(0)

    if (!last_str.contains(current_str)) {

      if (last_str.equals("")) {

        last_str = current_str

      } else {

        last_str += "," + current_str

      }

    }

    buffer.update(0,last_str)

  }

  /**

    * 对分区结果进行合并

    * buffer1是机器Slave1上的结果

    * buffer2是机器Slave2上的结果

    */

  override def merge(buffer1: MutableAggregationBuffer, buffer2: Row): Unit = {

    var buf1 = buffer1.getString(0)

    val buf2 = buffer2.getString(0)

    // 将buf2里面存在的数据，而在buf1里面没有的数据，追加到buf1

    // buf2的数据按照 逗号 进行切分

    for (s <- buf2.split(",")) {

      if (!buf1.contains(s)) {

        if (buf1.equals("")) {

          buf1 = s

        } else {

          buf1 += s

        }

      }

    }

    buffer1.update(0,buf1)

  }

  /**

    * 最终的计算结果

    */

  override def evaluate(buffer: Row): Any = {

    buffer.getString(0)

  }

}

注册自定义的UDF函数为临时函数

TestUDFApp.scala

package com.UDF.TestUDF

import org.apache.spark.sql.SparkSession

/**

  * 注册自定义的UDF函数为临时函数

  */

object TestUDFApp extends App {

  /**

    * 第一步： 创建程序入口

    */

  val spark = SparkSession

    .builder()

    .appName("TestUDFApp")

    .master("local[2]")

    .getOrCreate()

  /**

    * 注册成为临时函数

    */

  spark.udf.register("get_distinct_city",GetDistinctCityUDF)

  /**

    * 注册成为临时函数

    */

  spark.udf.register("get_product_status", (str:String) => {

    var status = 0

    for (s <- str.split(",")) {

      if (s.contains("product_status")) {

        status = s.split(":")(1).toInt

      }

    }

  })

}

SparkSQL中的自定义函数UDF的更多相关文章

Spark学习之路（十九）SparkSQL的自定义函数UDF
在Spark中,也支持Hive中的自定义函数.自定义函数大致可以分为三种: UDF(User-Defined-Function),即最基本的自定义函数,类似to_char,to_date等 UDAF( ...
Spark（十三）SparkSQL的自定义函数UDF与开窗函数
一自定义函数UDF 在Spark中,也支持Hive中的自定义函数.自定义函数大致可以分为三种: UDF(User-Defined-Function),即最基本的自定义函数,类似to_char,to_ ...
Spark学习之路（十九）SparkSQL的自定义函数UDF[转]
在Spark中,也支持Hive中的自定义函数.自定义函数大致可以分为三种: UDF(User-Defined-Function),即最基本的自定义函数,类似to_char,to_date等 UDAF( ...
T-SQL: 17 个与日期时间相关的自定义函数(UDF),周日作为周的最后一天,均不受 @@DateFirst、语言版本影响!
原文:T-SQL: 17 个与日期时间相关的自定义函数(UDF),周日作为周的最后一天,均不受 @@DateFirst.语言版本影响! CSDN 的 Blog 太滥了!无时不刻地在坏! 开始抢救性搬家 ...
Hive中的用户自定义函数UDF
Hive中的自定义函数允许用户扩展HiveQL,是一个非常强大的功能.Hive中具有多种类型的用户自定义函数.show functions命令可以列举出当前Hive会话中的所加载进来的函数,包括内置的 ...
三 Hive 数据处理自定义函数UDF和Transform
三 Hive 自定义函数UDF和Transform 开篇提示: 快速链接beeline的方式: ./beeline -u jdbc:hive2://hadoop1:10000 -n hadoop 1 ...
10_Hive自定义函数UDF
Hive官方的UDF手册地址是:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF 1.使用内置函数的快捷方法: 创 ...
hive自定义函数UDF UDTF UDAF
Hive 自定义函数 UDF UDTF UDAF 1.UDF:用户定义(普通)函数,只对单行数值产生作用: UDF只能实现一进一出的操作. 定义udf 计算两个数最小值 public class Mi ...
大数据学习day29-----spark09-------1. 练习：统计店铺按月份的销售额和累计到该月的总销售额（SQL, DSL,RDD） 2. 分组topN的实现（row_number(), rank(), dense_rank()方法的区别）3. spark自定义函数-UDF
1. 练习数据: (1)需求1:统计有过连续3天以上销售的店铺有哪些,并且计算出连续三天以上的销售额第一步:将每天的金额求和(同一天可能会有多个订单) SELECT sid,dt,SUM(mone ...

随机推荐

php防止会话固定攻击
问题:希望确保应用不会受到会话固定攻击,即攻击者强制用户使用一个预定义的会话id. 解决方案:要求使用会话cookie但会话标识符不追加到URL,另外要频繁地生成新会话ID: <?php ini ...
监测IIS上网站的连接数
1.运行,输入,perfmon.msc 2.性能监视器>右侧区域>右键添加计数器 3.在“可用计数器” 区域,选择Web Service,展开Web Service,选择Current ...
在Linux下访问Windows共享文件夹
说明以下操作以Ubuntu为例,大家可以参考. 我在Ubuntu 14.04和16.04都试过了. Windows共享文件夹如果局域网内有一台Windows主机,将指定文件夹设为共享,就可以在局域 ...
VMware workstation 语言包切换
VMware-workstation-full-10.0.2-1744117安装默认为中文版,如果要使用英文版做如下操作: 找到你的VMware安装目录:例如:D:\Program Files (x8 ...
C++继承-重载-多态-虚函数
C++ 继承基类 & 派生类一个类可以派生自多个类,这意味着,它可以从多个基类继承数据和函数.定义一个派生类,我们使用一个类派生列表来指定基类.类派生列表以一个或多个基类命名,形式如下: ...
Redis-3.2.0集群配置（redis cluster）
版本:redis-3.0.5 redis-3.2.0 redis-3.2.9 redis-4.0.11 参考:http://redis.io/topics/cluster-tutorial. 目录 ...
CocoaPods安装和使用教程[转]
目录 CocoaPods是什么? 如何下载和安装CocoaPods? 如何使用CocoaPods? 场景1:利用CocoaPods,在项目中导入AFNetworking类库场景2:如何正确编译运行一 ...
mysql - json串新增字段
1.建表 -- 建表 drop table if exists ta_product2; CREATE TABLE ta_product2( id int primary key auto_incre ...
Python学习-13.Python的输入输出（二）
在Python中,读取文件使用open函数 file=open(r'E:\temp\test.txt','r') var = file.read() print(var) file.close() 第 ...
MYC编译器源码分析之程序入口
前文.NET框架源码解读之MYC编译器讲了MyC编译器的架构,整个编译器是用C#语言写的,上图列出了MyC编译器编译一个C源文件的过程,编译主路径如下: 首先是入口Main函数用来解析命令行参数,读取 ...

SparkSQL中的自定义函数UDF

自定义函数UDF的编写

注册自定义的UDF函数为临时函数

SparkSQL中的自定义函数UDF的更多相关文章

随机推荐

热门专题