Hive自定义UDAF详解

遇到一个Hive需求：有A、B、C三列，按A列进行聚合，求出C列聚合后的最小值和最大值各自对应的B列值。这个需求用hql和内建函数也可完成，但是比较繁琐，会解析成几个MR进行执行，如果自定义UDAF便可只利用一个MR完成任务。

所用Hive为0.13.1版本。UDAF有两种，第一种是比较简单的形式，利用抽象类UDAF和UDAFEvaluator，暂不做讨论。主要说一下第二种形式，利用接口GenericUDAFResolver2（或者抽象类AbstractGenericUDAFResolver）和抽象类GenericUDAFEvaluator。

这里用AbstractGenericUDAFResolver做说明。

public abstract class AbstractGenericUDAFResolver implements GenericUDAFResolver2 {

  @SuppressWarnings("deprecation")

  @Override

  public GenericUDAFEvaluator getEvaluator(GenericUDAFParameterInfo info)

    throws SemanticException {

    if (info.isAllColumns()) {

      throw new SemanticException(

          "The specified syntax for UDAF invocation is invalid.");

    }

    return getEvaluator(info.getParameters());

  }

  @Override

  public GenericUDAFEvaluator getEvaluator(TypeInfo[] info)

    throws SemanticException {

    throw new SemanticException(

          "This UDAF does not support the deprecated getEvaluator() method.");

  }

}

可以看到，该抽象类有两个方法，其中一个已经被弃用，所以只需要实现参数类型为TypeInfo的getEvaluator方法即可。
该方法其实相当于一个工厂，TypeInfo表示在使用时传入该UDAF的参数的类型。该方法主要做的工作有：

检查参数长度和类型
根据参数返回对应的实际处理对象

返回的对象类型为GenericUDAFEvaluator，这是一个抽象类：

public abstract class GenericUDAFEvaluator implements Closeable {

    ......

    public ObjectInspector init(Mode m, ObjectInspector[] parameters) throws HiveException {

        // This function should be overriden in every sub class

        // And the sub class should call super.init(m, parameters) to get mode set.

        mode = m;

        return null;

    }

    public abstract AggregationBuffer getNewAggregationBuffer() throws HiveException;

    public abstract void reset(AggregationBuffer agg) throws HiveException;

    public abstract void iterate(AggregationBuffer agg, Object[] parameters) throws HiveException;

    public abstract Object terminatePartial(AggregationBuffer agg) throws HiveException;

    public abstract void merge(AggregationBuffer agg, Object partial) throws HiveException;

    public abstract Object terminate(AggregationBuffer agg) throws HiveException;

    ......

}

说明上述方法的之前，需要提一个GenericUDAFEvaluator的内部枚举类Mode

public static enum Mode {

    /**

     * 相当于map阶段，调用iterate()和terminatePartial()

     */

    PARTIAL1,

    /**

     * 相当于combiner阶段，调用merge()和terminatePartial()

     */

    PARTIAL2,

    /**

     * 相当于reduce阶段调用merge()和terminate()

     */

    FINAL,

    /**

     * COMPLETE: 相当于没有reduce阶段map，调用iterate()和terminate()

     */

    COMPLETE

  };

可以看到，UDAF将任务分成了几种类型，PARTIAL1相当于MR程序的map阶段，负责迭代处理记录并返回该阶段的中间结果。PARTIAL2相当于Combiner，对map阶段的结果进行一次聚合。FINAL是reduce阶段，进行整体聚合以及返回最终结果。COMPLETE有点特殊，是一个没有reduce阶段的map过程，所以在进行记录迭代之后，直接返回最终结果。

再来看GenericUDAFEvaluator中的各方法

public ObjectInspector init(Mode m, ObjectInspector[] parameters) throws HiveException {...}

初始化方法，在Mode的每一个阶段启动时会执行init方法。该方法有两个参数，第一个参数是Mode，可以根据此参数判断当前执行的是哪个阶段，进行该阶段相应的初始化工作。ObjectInspector是一个抽象的类型描述，例如：当参数类型是原生类型时，可以转化为PrimitiveObjectInspector，除此之外还有StructObjectInspector等等。ObjectInspector只是描述类型，并不存储实际数据。后面的具体例子中会有一些使用说明。
ObjectInspector[]的长度不是固定的，要看当前是处于哪个阶段。如果是PARTIAL1，那么与使用时传入该UDAF的参数个数一致；如果是FINAL阶段，长度就是1了，因为map阶段返回的结果只有一个对象。

public abstract AggregationBuffer getNewAggregationBuffer() throws HiveException;

public abstract void reset(AggregationBuffer agg) throws HiveException;

AggregationBuffer是一个标识接口，没有任何需要实现的方法。实现该接口的类被用于暂存中间结果。reset是为了重置AggregationBuffer，但是在实际应用场景中没有发现单独调用该方法进行重置，有可能是聚合key的数据量还不够大，在后面会再说一下这个问题。

    public abstract void iterate(AggregationBuffer agg, Object[] parameters) throws HiveException;

    public abstract Object terminatePartial(AggregationBuffer agg) throws HiveException;

    public abstract void merge(AggregationBuffer agg, Object partial) throws HiveException;

    public abstract Object terminate(AggregationBuffer agg) throws HiveException;

    ......

}

iterate方法存在于MR的M阶段，用于处理每一条输入记录。Object[]作为输入传入UFAF，AggregationBuffer作为中间缓存暂存结果。需要注意的是，每次调用iterate传入的AggregationBuffer并不一定是同一个对象。Hive调用UDAF的时候会用一个Map来管理AggregationBuffer，Map的key即为需要聚合的key。就通过实际运行过程来看，在每一次iterate调用之前，会根据聚合key从Map中查找对应的AggregationBuffer，若能找到则直接返回AggregationBuffer对象，找不到则调用getNewAggregationBuffer方法新建并插入Map中并返回结果。
        terminatePartial方法在iterate处理完所有输入后调用，用于返回初步的聚合结果。
        merge方法存在于MR的R阶段（也同样存在于Combine阶段），用于最后的聚合。Object类型的partial参数与terminatePartial返回值一致，AggregationBuffer参数与上述一致。
        terminate方法在merge方法执行完毕之后调用，用于进行最后的处理，并返回最后结果。
        像上面提到的Mode一样，这些方法并不一定都会被调用，与Hive解析成的MR程序类型有关。例如解析后的MR程序只有M阶段，则只会调用iterate和terminate。实际使用过程中，由于聚合key数据量有限，内存可以承载，所以没有发现reset单独调用的情况。每次遇到一个不同的key，则新建一个AggregationBuffer，没有看源码，不知道当聚合key很大的时候，是否会调用reset进行对象重用。

Hive自定义UDAF详解的更多相关文章

(转)Hive自定义UDAF详解
UDAF有两种,第一种是比较简单的形式,利用抽象类UDAF和UDAFEvaluator,暂不做讨论.主要说一下第二种形式,利用接口GenericUDAFResolver2(或者抽象类AbstractG ...
Hadoop Hive sql语法详解
Hadoop Hive sql语法详解 Hive 是基于Hadoop 构建的一套数据仓库分析系统,它提供了丰富的SQL查询方式来分析存储在Hadoop 分布式文件系统中的数据,可以将结构化的数据文件 ...
大数据Hadoop核心架构HDFS+MapReduce+Hbase+Hive内部机理详解
微信公众号[程序员江湖] 作者黄小斜,斜杠青年,某985硕士,阿里 Java 研发工程师,于 2018 年秋招拿到 BAT 头条.网易.滴滴等 8 个大厂 offer,目前致力于分享这几年的学习经验. ...
Hadoop核心架构HDFS+MapReduce+Hbase+Hive内部机理详解
转自:http://blog.csdn.net/iamdll/article/details/20998035 分类: 分布式 2014-03-11 10:31 156人阅读评论(0) 收藏举报 ...
Android 自定义 View 详解
View 的绘制系列文章: Android View 绘制流程之 DecorView 与 ViewRootImpl Android View 的绘制流程之 Measure 过程详解 (一) Andro ...
Hive的配置详解和日常维护
Hive的配置详解和日常维护一.Hive的参数配置详解 1>.mapred.reduce.tasks 默认为-1.指定Hive作业的reduce task个数,如果保留默认值,则Hive 自 ...
Jupyter自定义设置详解
今天专门花时间总结梳理一下jupyter的一些高级设置,jupyter我已经介绍过一次基本内容了,Setup and Linux | James Chen's Blogs,尤其是如何在服务器运行jup ...
图解大数据 | 海量数据库查询-Hive与HBase详解
作者:韩信子@ShowMeAI 教程地址:http://www.showmeai.tech/tutorials/84 本文地址:http://www.showmeai.tech/article-det ...
深入了解View实现原理以及自定义View详解
下面几篇文章对View的原理讲的非常详细. Android LayoutInflater原理分析,带你一步步深入了解View(一) Android视图绘制流程完全解析,带你一步步深入了解View(二) ...

随机推荐

windows 下 apache设置
apache,apache配置,配置端口 mac下apache配置添加虚拟主机: Alias /selftest/ "D:/self-test/" <Directory & ...
Java 解析 XML
Java 解析 XML 标签: Java基础 XML解析技术有两种 DOM SAX DOM方式根据XML的层级结构在内存中分配一个树形结构,把XML的标签,属性和文本等元素都封装成树的节点对象优点 ...
真正解决ASP.NET每一个页面首次访问超级慢的问题 (转载)
原文:http://www.afuhao.com/article_articleId-219.shtml 摘要:ASP.NET页面首次打开很慢,但别的页面如果没有访问过,去访问也会慢.你也许认为它是在 ...
IIS Server is too busy 解决方法（IIS6）
Server is too busy意思是服务器繁忙,资源不够用为什么会出现这个问题呢? 因为服务器的配置不同,所能承受的压力不同. 而服务器默认对链接数,线程数等有设置,但这个设置太小,基本不够用 ...
asp.net正则表达式过滤标签和数据提取
无论什么语言,正则表达式的处理方法都是非常灵活.高效的,尤其是对某些字符串的抓取.过滤方面,更显其优势. 正则表达式的写法通常比较简单,几行短代码便能轻松完成看似很复杂的事情,更值得称赞的是,它的执行 ...
UVA 11426 GCD-Extreme(II) ★ (欧拉函数)
题意求Σ{1<=i<N} Σ{i<j<=N} GCD(i, j) (N<=4000000) 分析原始思路暴力求明显是不行的,我们把式子简化形式一下发现它可以 ...
对于GLM的理解，与方差分析的对比
最近遇到一个问题,如果因变量为一个连续变量(如胰岛素水平),主要考察的变量为分组变量(如正常血糖组,前糖尿病组,糖尿病组三组),现在的目的是想看调整多种变量(包括多个连续性变量和分类变量)后,胰岛素水 ...
【Python】实践笔记
为什么要在脚本中加入? import sys reload(sys) sys.setdefaultencoding('utf-8')
FFmpeg 维基百科
FFmpeg是一个自由软件,可以运行音频和视频多种格式的录影.转换.流功能[1],包含了libavcodec ─这是一个用于多个项目中音频和视频的解码器库,以及libavformat——一个音频与视频 ...
[转] WinForm自定义函数FindControl实现按名称查找控件
原文地址 WinForm自定义函数FindControl实现按名称查找控件本文所述实例实现WinForm自定义函数FindControl实现按名称查找控件的功能,在C#程序开发中有一定的实用价值. ...

Hive自定义UDAF详解

Hive自定义UDAF详解的更多相关文章

随机推荐

热门专题