案例解析丨 Spark Hive 自定义函数应用

摘要：Spark目前支持UDF，UDTF，UDAF三种类型的自定义函数。

1. 简介

Spark目前支持UDF，UDTF，UDAF三种类型的自定义函数。UDF使用场景：输入一行，返回一个结果，一对一，比如定义一个函数，功能是输入一个IP地址，返回一个对应的省份。UDTF使用场景: 输入一行，返回多行(hive),一对多, 而sparkSQL中没有UDTF， spark中用flatMap即可实现该功能。UDAF: 输入多行,返回一行, aggregate(主要用于聚合功能，比如groupBy，count，sum), 这些是spark自带的聚合函数,但是复杂相对复杂。

Spark底层其实以CatalogFunction结构封装了一个函数，其中FunctionIdentifier描述了函数名字等基本信息，FunctionResource描述了文件类型（jar或者file）和文件路径；Spark的SessionCatalog提供了函数注册，删除，获取等一些列接口，Spark的Executor在接收到函数执行sql请求时，通过缓存的CatalogFunction信息，找到CatalogFunction中对应的jar地址以及ClassName, JVM动态加载jar，并通过ClassName反射执行对应的函数。

图1. CatalogFunction结构体

图2. 注册加载函数逻辑

Hive的HiveSessionCatalog是继承Spark的SessionCatalog，对Spark的基本功能做了一层装饰以适配Hive的基本功能，其中包括函数功能。HiveSimpleUDF对应UDF，HiveGenericUDF对应GenericUDF，HiveUDAFFunction对应AbstractGenericUDAFResolve以及UDAF，HiveGenericUDTF对应GenericUDTF

图3. Hive装饰spark函数逻辑

2. UDF

UDF是最常用的函数，使用起来相对比较简单，主要分为两类UDF：简单数据类型，继承UDF接口；复杂数据类型，如Map，List，Struct等数据类型，继承GenericUDF接口。

简单类型实现UDF时，可自定义若干个名字evaluate为的方法，参数和返回类型根据需要自己设置。因为UDF接口默认使用DefaultUDFMethodResolver去方法解析器获取方法，解析器是根据用户输入参数和写死的名字evaluate去反射寻找方法元数据。当然用户也可以自定义解析器解析方法。

图4. 自定义UDF简单示例

图5.默认UDF方法解析器

3. UDAF

UDAF是聚合函数，目前实现方式主要有三种：实现UDAF接口，比较老的简答实现方式，目前已经被废弃；实现UserDefinedAggregateFunction，目前使用比较普遍方式，按阶段实现接口聚集数据；实现AbstractGenericUDAFResolver，实现相对UserDefinedAggregateFunction方式稍微复杂点，还需要实现一个计算器Evaluator（如通用计算器GenericUDAFEvaluator），UDAF的逻辑处理主要发生在Evaluator。

UserDefinedAggregateFunction定义输入输出数据结构，实现初始化缓冲区（initialize），聚合单条数据（update），聚合缓存区（merge）以及计算最终结果（evaluate）。

图6.自定义UDAF简单示例

4. UDTF

UDTF简单粗暴的理解是一行生成多行的自动函数，可以生成多行多列，又被称为表生成函数。目前实现方式是实现GenericUDTF接口，实现2个接口，initialize接口参数校验，列的定义，process接口接受一行数据，切割数据。

图7.自定义UDTF简单示例

案例解析丨 Spark Hive 自定义函数应用的更多相关文章

hive -- 自定义函数和Transform
hive -- 自定义函数和Transform UDF操作单行数据, UDAF:聚合函数,接受多行数据,并产生一个输出数据行 UDTF:操作单个数据使用udf方法: 第一种: add jar xxx ...
Hive自定义函数的学习笔记(1)
前言: hive本身提供了丰富的函数集, 有普通函数(求平方sqrt), 聚合函数(求和sum), 以及表生成函数(explode, json_tuple)等等. 但不是所有的业务需求都能涉及和覆盖到 ...
hive自定义函数（UDF）
首先什么是UDF,UDF的全称为user-defined function,用户定义函数,为什么有它的存在呢?有的时候你要写的查询无法轻松地使用Hive提供的内置函数来表示,通过写UDF,Hive就 ...
hive自定义函数学习
1介绍 Hive自定义函数包括三种UDF.UDAF.UDTF UDF(User-Defined-Function) 一进一出 UDAF(User- Defined Aggregation Funcat ...
hive自定义函数UDF UDTF UDAF
Hive 自定义函数 UDF UDTF UDAF 1.UDF:用户定义(普通)函数,只对单行数值产生作用: UDF只能实现一进一出的操作. 定义udf 计算两个数最小值 public class Mi ...
Spark SQL 自定义函数类型
Spark SQL 自定义函数类型一.spark读取数据二.自定义函数结构三.附上长长的各种pom 一.spark读取数据前段时间一直在研究GeoMesa下的Spark JTS,Spark J ...
Hive 自定义函数（转）
Hive是一种构建在Hadoop上的数据仓库,Hive把SQL查询转换为一系列在Hadoop集群中运行的MapReduce作业,是MapReduce更高层次的抽象,不用编写具体的MapReduce方法 ...
Hive 自定义函数
hive 支持自定义UDF,UDTF,UDAF函数以自定义UDF为例: 使用一个名为evaluate的方法 package com.hive.custom; import org.apache.ha ...
Hive 自定义函数 UDF UDAF UDTF
1.UDF:用户定义(普通)函数,只对单行数值产生作用: 继承UDF类,添加方法 evaluate() /** * @function 自定义UDF统计最小值 * @author John * */ ...
Hadoop之Hive自定义函数的陷阱
A left join B, 这个B会连到A. 如<A1,B>, <A2,B>,在处理第一条记录的时候将B.clear(),则第二条记录的B是[]空的这是自定义UDF函数必须注 ...

随机推荐

vue框架，input相同标签如何定位-label定位
一.问题提出: 后台前端框架改版,之前是angularjs,现在用vue,导致input标签定位失败,只能定位到第一个input标签,查看后台源代码发现这两个标签是一模一样,如下图: 二.问题思考过程 ...
Util应用框架 7.x 来了
什么是Util应用框架? Util是一个.Net平台下的应用框架,旨在提升中小团队的开发能力,由工具类.分层架构基类.Ui组件,配套代码生成模板,权限等组成. Util应用框架 7.x介绍 Util应 ...
CSP初赛知识点
初赛知识点计算机基础知识 1946年,世界上第一台计算机 ENIAC(埃尼阿克)在美国宾夕法尼亚大学诞生. 冯·诺依曼:计算机之父,提出了计算机体系结构(冯·诺依曼架构) 运算器控制器存储器:存 ...
快速掌握keepalived
转载请注明出处: Keepalived是一个基于VRRP(虚拟路由冗余协议)的开源软件,用于在Linux系统上实现高可用性和负载均衡.它的主要功能是通过多台服务器之间的协作,确保在其中一台服务器发生故 ...
unity2017自定义编译dll
适用于自定义编译平台和编译符合,把C#源码文件编译成dll.(用于InjectFix之类的热更方案) 适用于unity2017环境,代码暂时不方便贴出记述一下思路. 参考:Unity官方C#源码 ht ...
使用 Jenkins + Github + dokcer-compose 部署项目-实战篇
使用 Jenkins + Github + dokcer-compose 部署项目-实战篇需要声明的一点是,此处实现的项目自动构建原理是 Github+Jenkins 的 webhook,因此得保证 ...
整理unity资料
https://www.cnblogs.com/fly-100/p/3910515.html 协同的概念介绍
python之if语句处理列表
目录检查特殊元素确定列表不是空的使用多个列表检查特殊元素在我们上期讲的python之史上最详细if教程就提到过有关于列表的关系运算符那我们现在来创建并且打印一个列表先 list_1 = [ ...
Linux 运维人员最常用 150+命令汇总
版权声明:原创作品,谢绝转载!否则将追究法律责任. ----- 作者:kirin 目录版权声明:原创作品,谢绝转载!否则将追究法律责任. ----- 作者:kirin 命令帮助手册1 命令帮助手册2 ...
【解决方案】MySQL5.7 百万数据迁移到 ElasticSearch7.x 的思考
目录前言一.一次性全量二.定时任务增量三.强一致性问题四.canal 框架 4.1基本原理 4.2安装使用(重点) 版本说明 4.3引入依赖(测试) 4.4代码示例(测试) 五.文章小结前 ...

案例解析丨 Spark Hive 自定义函数应用

案例解析丨 Spark Hive 自定义函数应用的更多相关文章

随机推荐

热门专题