【转】HIVE UDF UDAF UDTF 区别使用

　　原博文出自于：http://blog.csdn.net/longzilong216/article/details/23921235（暂时）　　　　　　感谢！

自己写代码时候的利用到的模板

UDF步骤：

1.必须继承org.apache.hadoop.hive.ql.exec.UDF

2.必须实现evaluate函数，evaluate函数支持重载

package com.alibaba.hive.udf;
import org.apache.hadoop.hive.ql.exec.UDF
public class helloword extends UDF{
public String evaluate(){
return "hello world!";
}
public String evaluate(String str){
return "hello world: " + str;
}
}

UDAF步骤：

1.必须继承

     org.apache.hadoop.hive.ql.exec.UDAF(函数类继承)

     org.apache.hadoop.hive.ql.exec.UDAFEvaluator(内部类Evaluator实现UDAFEvaluator接口)

2.Evaluator需要实现 init、iterate、terminatePartial、merge、terminate这几个函数

     init():类似于构造函数，用于UDAF的初始化

     iterate():接收传入的参数，并进行内部的轮转。其返回类型为boolean

     terminatePartial():无参数，其为iterate函数轮转结束后，返回乱转数据，iterate和terminatePartial类似于hadoop的Combiner(iterate--mapper;terminatePartial--reducer)

     merge():接收terminatePartial的返回结果，进行数据merge操作，其返回类型为boolean

     terminate():返回最终的聚集函数结果

package com.alibaba.hive;
import org.apache.hadoop.hive.ql.exec.UDAF;
import org.apache.hadoop.hive.ql.exec.UDAFEvaluator;
public class myAVG extends UDAF{
public static class avgScore{
private long pSum;
private double pCount;
}
public static class AvgEvaluator extends UDAFEvaluator{
avgScore score;
public AvgEvaluator(){
score = new avgScore();
init();
}
/*
*init函数类似于构造函数，用于UDAF的初始化
*/
public void init(){
score.pSum = 0;
score.pCount = 0;
}
/*
*iterate接收传入的参数，并进行内部的轮转。其返回类型为boolean
*类似Combiner中的mapper
*/
public boolean iterate(Double in){
if(in != null){
score.pSum += in;
score.pCount ++;
}
return true;
}
/*
*terminatePartial无参数，其为iterate函数轮转结束后，返回轮转数据
*类似Combiner中的reducer
*/
public avgScore terminatePartial(){
return score.pCount == 0 ? null : score;
}
/*
*merge接收terminatePartial的返回结果，进行数据merge操作，其返回类型为boolean
*/
public boolean merge(avgScore in){
if(in != null){
score.pSum += in.pSum;
score.pCount += in.pCount;
}
return true;
}
/*
*terminate返回最终的聚集函数结果
*/
public Double terminate(){
return score.pCount == 0 ? null : Double.valueof(score.pSum/score.pCount);
}
}
}

UDTF步骤：

　　1.必须继承org.apache.hadoop.hive.ql.udf.generic.GenericUDTF
　　2.实现initialize, process, close三个方法
　　3.UDTF首先会
    　　 a.调用initialize方法，此方法返回UDTF的返回行的信息（返回个数，类型）
    　　 b.初始化完成后，会调用process方法，对传入的参数进行处理，可以通过forword()方法把结果返回
    　　 c.最后close()方法调用，对需要清理的方法进行清理

public class GenericUDTFExplode extends GenericUDTF {
private ListObjectInspector listOI = null;
@Override
public void close() throws HiveException {
}
@Override
public StructObjectInspector initialize(ObjectInspector[] args) throws UDFArgumentException {
if (args.length != 1) {
throw new UDFArgumentException("explode() takes only one argument");
}
if (args[0].getCategory() != ObjectInspector.Category.LIST) {
throw new UDFArgumentException("explode() takes an array as a parameter");
}
listOI = (ListObjectInspector) args[0];
ArrayList<String> fieldNames = new ArrayList<String>();
ArrayList<ObjectInspector> fieldOIs = new ArrayList<ObjectInspector>();
fieldNames.add("col");
fieldOIs.add(listOI.getListElementObjectInspector());
return ObjectInspectorFactory.getStandardStructObjectInspector(fieldNames,
fieldOIs);
}
private final Object[] forwardObj = new Object[1];
@Override
public void process(Object[] o) throws HiveException {
List<?> list = listOI.getList(o[0]);
if(list == null) {
return;
}
for (Object r : list) {
forwardObj[0] = r;
forward(forwardObj);
}
}
@Override
public String toString() {
return "explode";
}
}

【转】HIVE UDF UDAF UDTF 区别使用的更多相关文章

[转]HIVE UDF/UDAF/UDTF的Map Reduce代码框架模板
FROM : http://hugh-wangp.iteye.com/blog/1472371 自己写代码时候的利用到的模板 UDF步骤: 1.必须继承org.apache.hadoop.hive ...
hive中 udf,udaf,udtf
1.hive中基本操作: DDL,DML 2.hive中函数 User-Defined Functions : UDF(用户自定义函数,简称JDF函数)UDF: 一进一出 upper lower ...
Hive 自定义函数 UDF UDAF UDTF
1.UDF:用户定义(普通)函数,只对单行数值产生作用: 继承UDF类,添加方法 evaluate() /** * @function 自定义UDF统计最小值 * @author John * */ ...
简述UDF/UDAF/UDTF是什么，各自解决问题及应用场景
UDF User-Defined-Function 自定义函数 .一进一出: 背景系统内置函数无法解决实际的业务问题,需要开发者自己编写函数实现自身的业务实现诉求. 应用场景非常多,面临的业务不同导 ...
UDF/UDAF开发总结
参考文章: https://www.cnblogs.com/itxuexiwang/p/6264547.html https://www.cnblogs.com/eRrsr/p/6096989.htm ...
Hive UDF 实验1
项目中使用的hive版本低于0.11,无法使用hive在0.11中新加的开窗分析函数. 在项目中需要使用到row_number()函数的地方,有人写了udf来实现这个功能. new java proj ...
2、Hive UDF编程实例
Hive的UDF包括3种:UDF(User-Defined Function).UDAF(User-Defined Aggregate Function)和UDTF(User-Defined Tabl ...
如何编写自定义hive UDF函数
Hive可以允许用户编写自己定义的函数UDF,来在查询中使用.Hive中有3种UDF: UDF:操作单个数据行,产生单个数据行: UDAF:操作多个数据行,产生一个数据行. UDTF:操作一个数据行, ...
Hive UDF，就这
摘要:Hive UDF是什么?有什么用?怎么用?什么原理?本文从UDF使用入手,简要介绍相关源码,UDF从零开始. 本文分享自华为云社区<Hive UDF,就这>,作者:汤忒撒. Hive ...

随机推荐

Eclipse替换find/Replace
使用快捷键:ctrl+F replaceAll
百万级 TCP 长连接即时通讯框架 t-io
原文:http://www.t-io.org:9292/ https://www.oschina.net/p/t-io
pycharm里html注释是{# #}而不是?
修改方式:如图修改成值None以后,command+/快捷键,html注释的符号就是:为Jinja2的时候,注释符号就是{# 注释内容 #} 修改成None时,H ...
shell脚本变量的参数
https://stackoverflow.com/questions/5163144/what-are-the-special-dollar-sign-shell-variables mkdir f ...
JS 获取form表单的所有数据
在HTML中用js获取通过GET.POST方法(就是在网址后加?a=b&c=d之类)传过来的表单值. 针对大家常用的获取表单方式,很多时候都是在重复的写一些代码,今天给大家贴出来的代码可以作为 ...
HDU 4869 Turn the pokers (2014多校联合训练第一场1009) 解题报告（维护区间 + 组合数）
Turn the pokers Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Others) ...
ubuntu11.04 编译ffmpeg2.7 并生成 ffplay进行流媒体測试
源代码安装方式: 1. 先下载ffmpeg 安装包到官网上 http://ffmpeg.org/download.html#releases 下载.选择Download gzip tarball. ...
HttpURL连接远程serverGet和Post方式请求并返回数据
查看原文:http://www.ibloger.net/article/1813.html package cn.gis; import java.io.BufferedReader; import ...
hdu1863
#include<cstdio> #include<algorithm> using namespace std; int N,M; struct edge { int u,v ...
六度分离（floyd算法,SPFA算法,最短路—Dijkstra算法）
Time Limit : 5000/1000ms (Java/Other) Memory Limit : 32768/32768K (Java/Other) Total Submission(s) ...

【转】HIVE UDF UDAF UDTF 区别 使用

【转】HIVE UDF UDAF UDTF 区别 使用的更多相关文章

随机推荐

热门专题

【转】HIVE UDF UDAF UDTF 区别使用

【转】HIVE UDF UDAF UDTF 区别使用的更多相关文章