SparkSQL中的自定义函数UDF
在Spark中,也支持Hive中的自定义函数。自定义函数大致可以分为三种:
- UDF(User-Defined-Function),即最基本的自定义函数,类似to_char,to_date等
- UDAF(User- Defined Aggregation Funcation),用户自定义聚合函数,类似在group by之后使用的sum,avg等
- UDTF(User-Defined Table-Generating Functions),用户自定义生成函数,有点像stream里面的flatMap
Notes: 自定义一个UDF函数需要继承UserDefinedAggregateFunction类,并实现其中的8个方法
自定义函数UDF的编写
GetDistinctCityUDF.scala
package com.UDF.TestUDF
import org.apache.spark.sql.Row
import org.apache.spark.sql.expressions.{MutableAggregationBuffer, UserDefinedAggregateFunction}
import org.apache.spark.sql.types.{DataType, StringType, StructField, StructType}
/**
* 获取不同城市的UDF函数
*/
object GetDistinctCityUDF extends UserDefinedAggregateFunction{
/**
* 输入的数据类型
*/
override def inputSchema: StructType = StructType(
StructField("status",StringType,true) :: Nil
)
/**
* 缓存字段类型
*/
override def bufferSchema: StructType = {
StructType(
Array(
StructField("buffer_city_info",StringType,true)
)
)
}
/**
* 输出结果类型
*/
override def dataType: DataType = StringType
/**
* 输入类型和输出类型是否一种
*/
override def deterministic: Boolean = true
/**
* 对辅助字段进行初始化
*/
override def initialize(buffer: MutableAggregationBuffer): Unit = {
buffer.update(0,"")
}
/**
* 修改辅助字段的值
*/
override def update(buffer: MutableAggregationBuffer, input: Row): Unit = {
// 获取最后一次的值
var last_str = buffer.getString(0)
// 获取当前的值
val current_str = input.getString(0)
if (!last_str.contains(current_str)) {
if (last_str.equals("")) {
last_str = current_str
} else {
last_str += "," + current_str
}
}
buffer.update(0,last_str)
}
/**
* 对分区结果进行合并
* buffer1是机器Slave1上的结果
* buffer2是机器Slave2上的结果
*/
override def merge(buffer1: MutableAggregationBuffer, buffer2: Row): Unit = {
var buf1 = buffer1.getString(0)
val buf2 = buffer2.getString(0)
// 将buf2里面存在的数据,而在buf1里面没有的数据,追加到buf1
// buf2的数据按照 逗号 进行切分
for (s <- buf2.split(",")) {
if (!buf1.contains(s)) {
if (buf1.equals("")) {
buf1 = s
} else {
buf1 += s
}
}
}
buffer1.update(0,buf1)
}
/**
* 最终的计算结果
*/
override def evaluate(buffer: Row): Any = {
buffer.getString(0)
}
}
注册自定义的UDF函数为临时函数
TestUDFApp.scala
package com.UDF.TestUDF
import org.apache.spark.sql.SparkSession
/**
* 注册自定义的UDF函数为临时函数
*/
object TestUDFApp extends App {
/**
* 第一步: 创建程序入口
*/
val spark = SparkSession
.builder()
.appName("TestUDFApp")
.master("local[2]")
.getOrCreate()
/**
* 注册成为临时函数
*/
spark.udf.register("get_distinct_city",GetDistinctCityUDF)
/**
* 注册成为临时函数
*/
spark.udf.register("get_product_status", (str:String) => {
var status = 0
for (s <- str.split(",")) {
if (s.contains("product_status")) {
status = s.split(":")(1).toInt
}
}
})
}
SparkSQL中的自定义函数UDF的更多相关文章
- Spark学习之路 (十九)SparkSQL的自定义函数UDF
在Spark中,也支持Hive中的自定义函数.自定义函数大致可以分为三种: UDF(User-Defined-Function),即最基本的自定义函数,类似to_char,to_date等 UDAF( ...
- Spark(十三)SparkSQL的自定义函数UDF与开窗函数
一 自定义函数UDF 在Spark中,也支持Hive中的自定义函数.自定义函数大致可以分为三种: UDF(User-Defined-Function),即最基本的自定义函数,类似to_char,to_ ...
- Spark学习之路 (十九)SparkSQL的自定义函数UDF[转]
在Spark中,也支持Hive中的自定义函数.自定义函数大致可以分为三种: UDF(User-Defined-Function),即最基本的自定义函数,类似to_char,to_date等 UDAF( ...
- T-SQL: 17 个与日期时间相关的自定义函数(UDF),周日作为周的最后一天,均不受 @@DateFirst、语言版本影响!
原文:T-SQL: 17 个与日期时间相关的自定义函数(UDF),周日作为周的最后一天,均不受 @@DateFirst.语言版本影响! CSDN 的 Blog 太滥了!无时不刻地在坏! 开始抢救性搬家 ...
- Hive中的用户自定义函数UDF
Hive中的自定义函数允许用户扩展HiveQL,是一个非常强大的功能.Hive中具有多种类型的用户自定义函数.show functions命令可以列举出当前Hive会话中的所加载进来的函数,包括内置的 ...
- 三 Hive 数据处理 自定义函数UDF和Transform
三 Hive 自定义函数UDF和Transform 开篇提示: 快速链接beeline的方式: ./beeline -u jdbc:hive2://hadoop1:10000 -n hadoop 1 ...
- 10_Hive自定义函数UDF
Hive官方的UDF手册地址是:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF 1.使用内置函数的快捷方法: 创 ...
- hive自定义函数UDF UDTF UDAF
Hive 自定义函数 UDF UDTF UDAF 1.UDF:用户定义(普通)函数,只对单行数值产生作用: UDF只能实现一进一出的操作. 定义udf 计算两个数最小值 public class Mi ...
- 大数据学习day29-----spark09-------1. 练习: 统计店铺按月份的销售额和累计到该月的总销售额(SQL, DSL,RDD) 2. 分组topN的实现(row_number(), rank(), dense_rank()方法的区别)3. spark自定义函数-UDF
1. 练习 数据: (1)需求1:统计有过连续3天以上销售的店铺有哪些,并且计算出连续三天以上的销售额 第一步:将每天的金额求和(同一天可能会有多个订单) SELECT sid,dt,SUM(mone ...
随机推荐
- Golang之strings包
只列举了部分函数方法的使用: 太多了....... package main import ( "fmt" "strings" ) func main() { ...
- 自动创建orcl表
using System;using System.Collections.Generic;using System.Data;using System.Linq;using System.Text; ...
- etl业务验证方法1
/* Copyright (c) 2015 Xiamen Weixin Software Co., Ltd. All rights reserved * * Create by huanglc@ho ...
- SpringMvc 全局异常处理器定义,友好的返回后端错误信息
import com.google.common.collect.Maps; import org.apache.log4j.Logger; import org.springframework.be ...
- sklearn.metrics import precision_recall_fscore_support
二分类/多分类/多标签 对于二分类来说,必须定义一些matrics(f1_score,roc_auc_score).在这些case中,缺省只评估正例的label,缺省的正例label被标为1(可以通过 ...
- 用Swift实现一款天气预报APP(二)
这个系列的目录: 用Swift实现一款天气预报APP(一) 用Swift实现一款天气预报APP(二) 用Swift实现一款天气预报APP(三) 上篇中主要讲了界面的一些内容,这篇主要讨论网络请求,获得 ...
- [Selenium With C#基础教程] Lesson-02 Web元素定位
作者:Surpassme 来源:http://www.jianshu.com/p/cfd4ed1daabd 声明:本文为原创文章,如需转载请在文章页面明显位置给出原文链接,谢谢. 使用Selenium ...
- Appium常用API(二)
接前面的常用API(一),本文接着介绍如下: 1.press_keycode press_keycode(self, keycode, metastate=None): Sends a keycode ...
- HDU1863 畅通工程 2017-04-12 19:25 59人阅读 评论(0) 收藏
畅通工程 Time Limit : 1000/1000ms (Java/Other) Memory Limit : 32768/32768K (Java/Other) Total Submissi ...
- ModelSim 修改测量时间显示的单位
经常有网友问,ModelSim仿真时,测量两个点之间的时间,想显示合适的单位怎么设置,例如下图显示的两个测量光标间的时间,是以频率为单位显示的,当希望设置为以时间显示,例如ns或者ms的时候怎么办呢? ...