在hive中UDF和UDAF使用说明

Hive进行UDF开发十分简单，此处所说UDF为Temporary的function，所以需要hive版本在0.4.0以上才可以。

一、背景：Hive是基于Hadoop中的MapReduce，提供HQL查询的数据仓库。Hive是一个很开放的系统，很多内容都支持用户定制，包括：

a）文件格式：Text File，Sequence File

b）内存中的数据格式： Java Integer/String, Hadoop IntWritable/Text

c）用户提供的 map/reduce 脚本：不管什么语言，利用 stdin/stdout 传输数据

d）用户自定义函数: Substr, Trim, 1 – 1

e）用户自定义聚合函数: Sum, Average…… n – 1

2、定义：UDF(User-Defined-Function)，用户自定义函数对数据进行处理。

二、用法

1、UDF函数可以直接应用于select语句，对查询结构做格式化处理后，再输出内容。

2、编写UDF函数的时候需要注意一下几点：

a）自定义UDF需要继承org.apache.hadoop.hive.ql.UDF。

b）需要实现evaluate函。

c）evaluate函数支持重载。

3、以下是两个数求和函数的UDF。evaluate函数代表两个整型数据相加，两个浮点型数据相加，可变长数据相加

Hive的UDF开发只需要重构UDF类的evaluate函数即可。例：

package hive.connect;

import org.apache.hadoop.hive.ql.exec.UDF;

public final class Add extends UDF {

public Integer evaluate(Integer a, Integer b) {

               if (null == a || null == b) {

                               return null;

               } return a + b;

}

public Double evaluate(Double a, Double b) {

               if (a == null || b == null)

                               return null;

                               return a + b;

               }

public Integer evaluate(Integer... a) {

               int total = 0;

               for (int i = 0; i < a.length; i++)

                               if (a[i] != null)

                                              total += a[i];

                                              return total;

                               }

}

4、步骤

a）把程序打包放到目标机器上去；

b）进入hive客户端，添加jar包：hive>add jar /run/jar/udf_test.jar;

c）创建临时函数：hive>CREATE TEMPORARY FUNCTION add_example AS 'hive.udf.Add';

d）查询HQL语句：

SELECT add_example(8, 9) FROM scores;

SELECT add_example(scores.math, scores.art) FROM scores;

SELECT add_example(6, 7, 8, 6.8) FROM scores;

e）销毁临时函数：hive> DROP TEMPORARY FUNCTION add_example;

5、细节在使用UDF的时候，会自动进行类型转换，例如：

SELECT add_example(8,9.1) FROM scores; 注：

UDF只能实现一进一出的操作，如果需要实现多进一出，则需要实现UDAF

下面来看下UDAF：

（二）、UDAF

1、Hive查询数据时，有些聚类函数在HQL没有自带，需要用户自定义实现。

2、用户自定义聚合函数: Sum, Average…… n – 1

UDAF（User- Defined Aggregation Funcation）

一、用法

1、一下两个包是必须的import org.apache.hadoop.hive.ql.exec.UDAF和 org.apache.hadoop.hive.ql.exec.UDAFEvaluator。

2、函数类需要继承UDAF类，内部类Evaluator实UDAFEvaluator接口。

3、Evaluator需要实现 init、iterate、terminatePartial、merge、terminate这几个函数。

a）init函数实现接口UDAFEvaluator的init函数。

b）iterate接收传入的参数，并进行内部的轮转。其返回类型为boolean。

c）terminatePartial无参数，其为iterate函数轮转结束后，返回轮转数据，terminatePartial类似于hadoop的Combiner。

d）merge接收terminatePartial的返回结果，进行数据merge操作，其返回类型为boolean。

e）terminate返回最终的聚集函数结果。

package hive.udaf;

import org.apache.hadoop.hive.ql.exec.UDAF;

import org.apache.hadoop.hive.ql.exec.UDAFEvaluator;

public class Avg extends UDAF {

public static class AvgState {

private long mCount;

private double mSum;

}

public static class AvgEvaluator implements UDAFEvaluator {

AvgState state;

public AvgEvaluator() {

super();

state = new AvgState();

init();

}

/** * init函数类似于构造函数，用于UDAF的初始化 */

public void init() {

state.mSum = 0;

state.mCount = 0;

}

/** * iterate接收传入的参数，并进行内部的轮转。其返回类型为boolean * * @param o * @return */

public boolean iterate(Double o) {

if (o != null) {

state.mSum += o;

state.mCount++;

} return true;

}

/** * terminatePartial无参数，其为iterate函数轮转结束后，返回轮转数据， * terminatePartial类似于hadoop的Combiner * * @return */

public AvgState terminatePartial() {

// combiner

return state.mCount == 0 ? null : state;

}

/** * merge接收terminatePartial的返回结果，进行数据merge操作，其返回类型为boolean * * @param o * @return */

public boolean terminatePartial(Double o) {

if (o != null) {

state.mCount += o.mCount;

state.mSum += o.mSum;

}

return true;

}

/** * terminate返回最终的聚集函数结果 * * @return */

public Double terminate() {

return state.mCount == 0 ? null : Double.valueOf(state.mSum / state.mCount);

}

}

5、执行求平均数函数的步骤

a）将java文件编译成Avg_test.jar。

b）进入hive客户端添加jar包：

hive>add jar /run/jar/Avg_test.jar。

c）创建临时函数：

hive>create temporary function avg_test 'hive.udaf.Avg';

d）查询语句：

hive>select avg_test(scores.math) from scores;

e）销毁临时函数：

hive>drop temporary function avg_test;

五、总结

1、重载evaluate函数。

2、UDF函数中参数类型可以为Writable，也可为java中的基本数据对象。

3、UDF支持变长的参数。

4、Hive支持隐式类型转换。

5、客户端退出时，创建的临时函数自动销毁。

6、evaluate函数必须要返回类型值，空的话返回null，不能为void类型。

7、UDF是基于单条记录的列进行的计算操作，而UDFA则是用户自定义的聚类函数，是基于表的所有记录进行的计算操作。

8、UDF和UDAF都可以重载。

9、查看函数

SHOW FUNCTIONS;

DESCRIBE FUNCTION <function_name>;

在hive中UDF和UDAF使用说明的更多相关文章

hive中UDF、UDAF和UDTF使用
Hive进行UDF开发十分简单,此处所说UDF为Temporary的function,所以需要hive版本在0.4.0以上才可以. 一.背景:Hive是基于Hadoop中的MapReduce,提供HQ ...
【转】hive中UDF、UDAF和UDTF使用
原博文出自于: http://blog.csdn.net/liuj2511981/article/details/8523084 感谢! Hive进行UDF开发十分简单,此处所说UDF为Tempora ...
hive中 udf,udaf,udtf
1.hive中基本操作: DDL,DML 2.hive中函数 User-Defined Functions : UDF(用户自定义函数,简称JDF函数)UDF: 一进一出 upper lower ...
Hive 10、Hive的UDF、UDAF、UDTF
Hive自定义函数包括三种UDF.UDAF.UDTF UDF(User-Defined-Function) 一进一出 UDAF(User- Defined Aggregation Funcation) ...
Spark SQL中UDF和UDAF
转载自:https://blog.csdn.net/u012297062/article/details/52227909 UDF: User Defined Function,用户自定义的函数,函数 ...
[转]hive中自定义函数(UDAF)实现多行字符串拼接为一行
函数如何使用: hive> desc concat_test;OKa intb string hive> select * from concat_test;OK1 ...
Spark(Hive) SQL中UDF的使用（Python）
相对于使用MapReduce或者Spark Application的方式进行数据分析,使用Hive SQL或Spark SQL能为我们省去不少的代码工作量,而Hive SQL或Spark SQL本身内 ...
【Spark篇】---SparkSQL中自定义UDF和UDAF，开窗函数的应用
一.前述 SparkSQL中的UDF相当于是1进1出,UDAF相当于是多进一出,类似于聚合函数. 开窗函数一般分组取topn时常用. 二.UDF和UDAF函数 1.UDF函数 java代码: Spar ...
Spark(Hive) SQL中UDF的使用（Python）【转】
相对于使用MapReduce或者Spark Application的方式进行数据分析,使用Hive SQL或Spark SQL能为我们省去不少的代码工作量,而Hive SQL或Spark SQL本身内 ...

随机推荐

mysql数据库在linux上的不同登录方式和权限
在我的上两篇博文里,一篇是安装,一篇是配置远程登录, 提君博客原创 >>提君博客原创 http://www.cnblogs.com/tijun/ << 所以我的mysql的 ...
（三）类数组对象 NamedNodeMap简单介绍
Ele.attrbutes将返回一个NamedNodeMap对象,即NamedNodeMap存储的是元素的“特性Attribute”集合.而集合中的每一个元素,都是Attr类型的对象. html: & ...
Dart语法基础
hello world // Define a function. printNumber(num aNumber) { print('The number is $aNumber.'); // Pr ...
mysql参数优化记录
服务器参数16G内存,4核CPUvim /etc/my.cnf 原: back_log=170 max_connections=600 max_user_connections=0 thread_co ...
CMD & Git Shell & Bash Shell
CMD & Git Shell & Bash Shell https://mvdan.cc/sh/cmd/shfmt PC
python学习第二天
一.变量 1.变量名: 数字,字母,下划线 alex1=123 sb=“alex” a_lex=“sb” 不能以数字开头 lalex 变量名不是python内部的关键字 {‘and’,'as','as ...
Yii2上传图片插件使用
例子: 1.在表单中: <?php $form = \yii\widgets\ActiveForm::begin([ 'options'=>[ 'class' => 'form-ho ...
The Bug and Exception of Hibernate
1: hibernate4.3.5 的@oneToOne注解有Bug,建议不使用该版本,或者使用该版本不使用@table annotation. 2:今天在用hibernate4.2.13的时候, ...
比特币中的Base58 编码
base58和base64一样是一种二进制转可视字符串的算法,主要用来转换大整数值.区别是,转换出来的字符串,去除了几个看起来会产生歧义的字符,如 0 (零), O (大写字母O), I (大写的字母 ...
c++ string去除首尾空格、\n、\r、\t
string s = " test "; size_t n = s.find_last_not_of(" \r\n\t"); if (n != string:: ...

在hive中UDF和UDAF使用说明

在hive中UDF和UDAF使用说明的更多相关文章

随机推荐

热门专题