hive学习笔记之十：用户自定义聚合函数(UDAF)

欢迎访问我的GitHub

这里分类和汇总了欣宸的全部原创(含配套源码)：https://github.com/zq2599/blog_demos

本篇概览

本文是《hive学习笔记》的第十篇，前文实践过UDF的开发、部署、使用，那个UDF适用于一进一出的场景，例如将每条记录的指定字段转为大写；
除了一进一出，在使用group by的SQL中，多进一出也是常见场景，例如hive自带的avg、sum都是多进一出，这个场景的自定义函数叫做用户自定义聚合函数(User Defiend Aggregate Function，UDAF)，UDAF的开发比一进一出要复杂一些，本篇文章就一起来实战UDAF开发；
本文开发的UDAF名为udf_fieldlength ，用于group by的时候，统计指定字段在每个分组中的总长度；

准备工作

在一些旧版的教程和文档中，都会提到UDAF开发的关键是继承UDAF.java；
打开hive-exec的1.2.2版本源码，却发现UDAF类已被注解为Deprecated；
UDAF类被废弃后，推荐的替代品有两种：实现GenericUDAFResolver2接口，或者继承AbstractGenericUDAFResolver类；
现在新问题来了：上述两种替代品，咱们在做UDAF的时候该用哪一种呢？
打开AbstractGenericUDAFResolver类的源码瞅一眼，如下所示，是否有种恍然大悟的感觉，这个类自身就是GenericUDAFResolver2接口的实现类：

public abstract class AbstractGenericUDAFResolver

    implements GenericUDAFResolver2

{

  @SuppressWarnings("deprecation")

  @Override

  public GenericUDAFEvaluator getEvaluator(GenericUDAFParameterInfo info)

    throws SemanticException {

    if (info.isAllColumns()) {

      throw new SemanticException(

          "The specified syntax for UDAF invocation is invalid.");

    }

    return getEvaluator(info.getParameters());

  }

  @Override

  public GenericUDAFEvaluator getEvaluator(TypeInfo[] info)

    throws SemanticException {

    throw new SemanticException(

          "This UDAF does not support the deprecated getEvaluator() method.");

  }

}

既然源码都看了，也就没啥好纠结的了，继承父类还是实现接口都可以，您自己看着选吧，我这里选的是继承AbstractGenericUDAFResolver类；

关于UDAF的四个阶段

在编码前，要先了解UDAF的四个阶段，定义在GenericUDAFEvaluator的Mode枚举中：

COMPLETE：如果mapreduce只有map而没有reduce，就会进入这个阶段；
PARTIAL1：正常mapreduce的map阶段；
PARTIAL2：正常mapreduce的combiner阶段；
FINAL：正常mapreduce的reduce阶段；

每个阶段被调用的方法

开发UDAF时，要继承抽象类GenericUDAFEvaluator，里面有多个抽象方法，在不同的阶段，会调用到这些方法中的一个或多个；
下图对每个阶段调用了哪些方法说得很清楚：

下图对顺序执行的三个阶段和涉及方法做了详细说明：

以上两张图片的出处都是kent7306的文章《Hive UDAF开发详解》，地址：https://blog.csdn.net/kent7306/article/details/50110067
上面两幅图将抽象方法和每个阶段的关系都梳理得很清晰了，接下来咱们开始编码；

源码下载

如果您不想编码，可以在GitHub下载所有源码，地址和链接信息如下表所示：

名称	链接	备注
项目主页	https://github.com/zq2599/blog_demos	该项目在GitHub上的主页
git仓库地址(https)	https://github.com/zq2599/blog_demos.git	该项目源码的仓库地址，https协议
git仓库地址(ssh)	git@github.com:zq2599/blog_demos.git	该项目源码的仓库地址，ssh协议

这个git项目中有多个文件夹，本章的应用在hiveudf文件夹下，如下图红框所示：

UDAF开发步骤简述

开发UDAF分为以下几步：

新建类FieldLengthAggregationBuffer，用于保存中间结果，该类需继承AbstractAggregationBuffer；
新建类FieldLengthUDAFEvaluator，用于实现四个阶段中会被调用的方法，该类需继承GenericUDAFEvaluator；
新建类FieldLength，用于在hive中注册UDAF，里面会实例化FieldLengthUDAFEvaluator，该类需继承AbstractGenericUDAFResolver；
编译构建，得到jar；
在hive添加jar；
在hive注册函数；

接下来就按照上述步骤开始操作；

开发

打开前文新建的hiveudf工程，新建FieldLengthAggregationBuffer.java，这个类的作用是缓存中间计算结果，每次计算的结果都放入这里面，被传递给下个阶段，其成员变量value用来保存累加数据：

package com.bolingcavalry.hiveudf.udaf;

import org.apache.hadoop.hive.ql.udf.generic.GenericUDAFEvaluator;

import org.apache.hadoop.hive.ql.util.JavaDataModel;

public class FieldLengthAggregationBuffer extends GenericUDAFEvaluator.AbstractAggregationBuffer {

    private Integer value = 0;

    public Integer getValue() {

        return value;

    }

    public void setValue(Integer value) {

        this.value = value;

    }

    public void add(int addValue) {

        synchronized (value) {

            value += addValue;

        }

    }

    /**

     * 合并值缓冲区大小，这里是用来保存字符串长度，因此设为4byte

     * @return

     */

    @Override

    public int estimate() {

        return JavaDataModel.PRIMITIVES1;

    }

}

新建FieldLengthUDAFEvaluator.java，里面是整个UDAF逻辑实现，关键代码已经添加了注释，请结合前面的图片来理解，核心思路是iterate将当前分组的字段处理完毕，merger把分散的数据合并起来，再由terminate决定当前分组计算结果：

package com.bolingcavalry.hiveudf.udaf;

import org.apache.hadoop.hive.ql.metadata.HiveException;

import org.apache.hadoop.hive.ql.udf.generic.GenericUDAFEvaluator;

import org.apache.hadoop.hive.serde2.objectinspector.ObjectInspector;

import org.apache.hadoop.hive.serde2.objectinspector.ObjectInspectorFactory;

import org.apache.hadoop.hive.serde2.objectinspector.PrimitiveObjectInspector;

/**

 * @Description: 这里是UDAF的实际处理类

 * @author: willzhao E-mail: zq2599@gmail.com

 * @date: 2020/11/4 9:57

 */

public class FieldLengthUDAFEvaluator extends GenericUDAFEvaluator {

    PrimitiveObjectInspector inputOI;

    ObjectInspector outputOI;

    PrimitiveObjectInspector integerOI;

    /**

     * 每个阶段都会被执行的方法，

     * 这里面主要是把每个阶段要用到的输入输出inspector好，其他方法被调用时就能直接使用了

     * @param m

     * @param parameters

     * @return

     * @throws HiveException

     */

    @Override

    public ObjectInspector init(Mode m, ObjectInspector[] parameters) throws HiveException {

        super.init(m, parameters);

        // COMPLETE或者PARTIAL1，输入的都是数据库的原始数据

        if(Mode.PARTIAL1.equals(m) || Mode.COMPLETE.equals(m)) {

            inputOI = (PrimitiveObjectInspector) parameters[0];

        } else {

            // PARTIAL2和FINAL阶段，都是基于前一个阶段init返回值作为parameters入参

            integerOI = (PrimitiveObjectInspector) parameters[0];

        }

        outputOI = ObjectInspectorFactory.getReflectionObjectInspector(

                Integer.class,

                ObjectInspectorFactory.ObjectInspectorOptions.JAVA

        );

        // 给下一个阶段用的，即告诉下一个阶段，自己输出数据的类型

        return outputOI;

    }

    public AggregationBuffer getNewAggregationBuffer() throws HiveException {

        return new FieldLengthAggregationBuffer();

    }

    /**

     * 重置，将总数清理掉

     * @param agg

     * @throws HiveException

     */

    public void reset(AggregationBuffer agg) throws HiveException {

        ((FieldLengthAggregationBuffer)agg).setValue(0);

    }

    /**

     * 不断被调用执行的方法，最终数据都保存在agg中

     * @param agg

     * @param parameters

     * @throws HiveException

     */

    public void iterate(AggregationBuffer agg, Object[] parameters) throws HiveException {

        if(null==parameters || parameters.length<1) {

            return;

        }

        Object javaObj = inputOI.getPrimitiveJavaObject(parameters[0]);

        ((FieldLengthAggregationBuffer)agg).add(String.valueOf(javaObj).length());

    }

    /**

     * group by的时候返回当前分组的最终结果

     * @param agg

     * @return

     * @throws HiveException

     */

    public Object terminate(AggregationBuffer agg) throws HiveException {

        return ((FieldLengthAggregationBuffer)agg).getValue();

    }

    /**

     * 当前阶段结束时执行的方法，返回的是部分聚合的结果（map、combiner）

     * @param agg

     * @return

     * @throws HiveException

     */

    public Object terminatePartial(AggregationBuffer agg) throws HiveException {

        return terminate(agg);

    }

    /**

     * 合并数据，将总长度加入到缓存对象中（combiner或reduce）

     * @param agg

     * @param partial

     * @throws HiveException

     */

    public void merge(AggregationBuffer agg, Object partial) throws HiveException {

        ((FieldLengthAggregationBuffer) agg).add((Integer)integerOI.getPrimitiveJavaObject(partial));

    }

}

最后是FieldLength.java，该类注册UDAF到hive时用到的，负责实例化FieldLengthUDAFEvaluator，给hive使用：

package com.bolingcavalry.hiveudf.udaf;

import org.apache.hadoop.hive.ql.parse.SemanticException;

import org.apache.hadoop.hive.ql.udf.generic.AbstractGenericUDAFResolver;

import org.apache.hadoop.hive.ql.udf.generic.GenericUDAFEvaluator;

import org.apache.hadoop.hive.ql.udf.generic.GenericUDAFParameterInfo;

import org.apache.hadoop.hive.serde2.typeinfo.TypeInfo;

public class FieldLength extends AbstractGenericUDAFResolver {

    @Override

    public GenericUDAFEvaluator getEvaluator(GenericUDAFParameterInfo info) throws SemanticException {

        return new FieldLengthUDAFEvaluator();

    }

    @Override

    public GenericUDAFEvaluator getEvaluator(TypeInfo[] info) throws SemanticException {

        return new FieldLengthUDAFEvaluator();

    }

}

至此，编码完成，接下来是部署和体验；

部署和体验

本次部署的注册方式是临时函数，如果您想注册为永久函数，请参考前文；

在pom.xml所在目录执行mvn clean package -U，即可编译构建；
在target目录得到文件hiveudf-1.0-SNAPSHOT.jar；
上传到hive服务器，我这里是放在/home/hadoop/udf目录；
进入hive会话，执行以下命令添加jar：

add jar /home/hadoop/udf/hiveudf-1.0-SNAPSHOT.jar;

执行以下命令注册：

create temporary function udf_fieldlength as 'com.bolingcavalry.hiveudf.udaf.FieldLength';

找一个适合执行group by的表试试，我这里是前面的文章中创建的address表，完整数据如下：

hive> select * from address;

OK

1	guangdong	guangzhou

2	guangdong	shenzhen

3	shanxi	xian

4	shanxi	hanzhong

6	jiangshu	nanjing

执行下面的SQL：

select province, count(city), udf_fieldlength(city) from address group by province;

执行结果如下，可见guangdong的guangzhou和shenzhen总长度为17，jiangsu的nanjing为7，shanxi的xian和hanzhong总长度12，符合预期：

Total MapReduce CPU Time Spent: 2 seconds 730 msec

OK

guangdong	2	17

jiangshu	1	7

shanxi	2	12

Time taken: 28.484 seconds, Fetched: 3 row(s)

至此，UDAF的学习和实践就完成了，咱们掌握了多进一出的函数开发，由于涉及到多个阶段和外部调用的逻辑，使得UDAF的开发难度略大，接下来的文章是一进多出的开发，会简单一些。

你不孤单，欣宸原创一路相伴

欢迎关注公众号：程序员欣宸

微信搜索「程序员欣宸」，我是欣宸，期待与您一同畅游Java世界...

https://github.com/zq2599/blog_demos

hive学习笔记之十：用户自定义聚合函数(UDAF)的更多相关文章

hive学习笔记之七：内置函数
欢迎访问我的GitHub https://github.com/zq2599/blog_demos 内容:所有原创文章分类汇总及配套源码,涉及Java.Docker.Kubernetes.DevOPS ...
python3.4学习笔记(二十) python strip()函数去空格\n\r\t函数的用法
python3.4学习笔记(二十) python strip()函数去空格\n\r\t函数的用法在Python中字符串处理函数里有三个去空格(包括'\n', '\r', '\t', ' ')的函数 ...
Spark SQL 用户自定义函数UDF、用户自定义聚合函数UDAF 教程（Java踩坑教学版）
在Spark中,也支持Hive中的自定义函数.自定义函数大致可以分为三种: UDF(User-Defined-Function),即最基本的自定义函数,类似to_char,to_date等 UDAF( ...
C#学习笔记（十）：函数和参数
函数 using System; using System.Collections.Generic; using System.Linq; using System.Text; using Syste ...
ES[7.6.x]学习笔记（十）聚合查询
聚合查询,它是在搜索的结果上,提供的一些聚合数据信息的方法.比如:求和.最大值.平均数等.聚合查询的类型有很多种,每一种类型都有它自己的目的和输出.在ES中,也有很多种聚合查询,下面我们看看聚合查询的 ...
Python学习笔记（十）匿名函数
摘抄自:https://www.liaoxuefeng.com/wiki/0014316089557264a6b348958f449949df42a6d3a2e542c000/001431843456 ...
hive学习笔记之一：基本数据类型
欢迎访问我的GitHub https://github.com/zq2599/blog_demos 内容:所有原创文章分类汇总及配套源码,涉及Java.Docker.Kubernetes.DevOPS ...
hive学习笔记之三：内部表和外部表
欢迎访问我的GitHub https://github.com/zq2599/blog_demos 内容:所有原创文章分类汇总及配套源码,涉及Java.Docker.Kubernetes.DevOPS ...
hive学习笔记之四：分区表
欢迎访问我的GitHub https://github.com/zq2599/blog_demos 内容:所有原创文章分类汇总及配套源码,涉及Java.Docker.Kubernetes.DevOPS ...

随机推荐

使用LUKS加密你的磁盘
计算机数据的安全,保密性在现在的生活中显得越来越重要.随着数字化的时代的来临,越来越多的数据被数字化,特别是更多有关于我们隐私的数据在不断生成,甚至还有我们需要离线保存的密钥等.而且通常我们使用磁盘, ...
STM32程序的启动
普及: 不同位置启动首需要硬件上的配合:BOOT1与BOOT0 引脚电平配合,一般默认使用主闪存存储: 也就是BOOT0 = 0; 启动时将现在起始模式的初始地址映射到了0x0000 0000,内部S ...
ntp导致的时钟回拨
ntp导致的时钟回拨时钟回拨我们的服务器时间校准一般是通过ntp进程去校准的.但由于校准这个动作,会导致时钟跳跃变化的现象. 而这种情况里面,往往回拨最能引起我们的困扰,回拨如下所示: 会引起什么 ...
重新整理 .net core 实践篇—————配置系统之军令状[七]（配置文件）
前言介绍一下配置系统中的配置文件,很多服务的配置都写在配置文件中,也是配置系统的大头. 正文在asp .net core 提供了下面几种配置文件格式的读取方式. Microsoft.extensi ...
GO学习-(3) VS Code配置Go语言开发环境
VS Code配置Go语言开发环境 VS Code配置Go语言开发环境说在前面的话,Go语言是采用UTF8编码的,理论上使用任何文本编辑器都能做Go语言开发.大家可以根据自己的喜好自行选择.编辑器/ ...
python基础知识笔记（一）
一.变量可以是字母.数字(不能作为开头).下划线. 自定义的常量名一般全部大写. na = "liu" na2 = na print("my na is ", ...
THINKPHP_(4)_TP模型中with、withJoin和多层关联的深入分析
1.个人之前博文: TP模型的多表关联查询和多表字段的关键字搜索 TP6中实现多层关联,第一个表关联第二个表查询出的数据,再关联第三个表 2.withJoin的特性 2.1 第一个特性在TP模型的多 ...
目标检测中的anchor-based 和anchor free
目标检测中的anchor-based 和anchor free 1. anchor-free 和 anchor-based 区别深度学习目标检测通常都被建模成对一些候选区域进行分类和回归的问题.在 ...
深度学习LiDAR定位：L3-Net
深度学习LiDAR定位:L3-Net 摘要本文提出L3-Net--一种新颖的基于学习的LiDAR定位系统,可实现厘米级的定位,与现有最高水平的传统定位算法相媲美.与传统定位算法不同,本文创新地实现了 ...
Nucleus-SE迁移：未实现的设施和兼容性
Nucleus-SE迁移:未实现的设施和兼容性 Nucleus SE migration: Unimplemented facilities and compatibility Nucleus SE的 ...