Hive 自定义函数 UDF UDAF UDTF

1、UDF：用户定义（普通）函数，只对单行数值产生作用；

继承UDF类，添加方法 evaluate()

    /**

     * @function 自定义UDF统计最小值

     * @author John

     *

     */

    public class Min extends UDF {

        public Double evaluate(Double a, Double b) {

            if (a == null)

                a = 0.0;

            if (b == null)

                b = 0.0;

            if (a >= b) {

                return b;

            } else {

                return a;

            }

        }

    }

2、UDAF：User- Defined Aggregation Funcation；用户定义聚合函数，可对多行数据产生作用；等同与SQL中常用的SUM()，AVG()，也是聚合函数；

聚合函数使用：　　

SELECT store_name, SUM(sales) 
FROM Store_Information 
GROUP BY store_name 
HAVING SUM(sales) > 1500
ORDER BY SUM(sales);

键字HAVING总要放在GROUP BY之后，ORDER BY之前

UDAF实现有简单与通用两种方式：

　　a. 简单UDAF因为使用Java反射导致性能损失，而且有些特性不能使用，已经被弃用了；　　

import org.apache.hadoop.hive.ql.exec.UDAF;

import org.apache.hadoop.hive.ql.exec.UDAFEvaluator;

import org.apache.hadoop.io.IntWritable;

//UDAF是输入多个数据行，产生一个数据行

//用户自定义的UDAF必须是继承了UDAF，且内部包含多个实现了exec的静态类

public class MaxiNumber extends UDAF {

    public static class MaxiNumberIntUDAFEvaluator implements UDAFEvaluator {

        // 最终结果

        private IntWritable result;

        // 负责初始化计算函数并设置它的内部状态，result是存放最终结果的

        @Override

        public void init() {

            result = null;

        }

        // 每次对一个新值进行聚集计算都会调用iterate方法

        public boolean iterate(IntWritable value) {

            if (value == null)

                return false;

            if (result == null)

                result = new IntWritable(value.get());

            else

                result.set(Math.max(result.get(), value.get()));

            return true;

        }

        // Hive需要部分聚集结果的时候会调用该方法

        // 会返回一个封装了聚集计算当前状态的对象

        public IntWritable terminatePartial() {

            return result;

        }

        // 合并两个部分聚集值会调用这个方法

        public boolean merge(IntWritable other) {

            return iterate(other);

        }

        // Hive需要最终聚集结果时候会调用该方法

        public IntWritable terminate() {

            return result;

        }

    }

}

　　b. 另一种涉及两个类：AbstractGenericUDAFResolver、GenericUDAFEvaluator；

　　　　继承UDAFResolver类，重写 getEvaluator() 方法；

　　　　继承GenericUDAFEvaluator类，生成实例给getEvaluator()；

　　　　在GenericUDAFEvaluator类中，重写init()、iterate()、terminatePartial()、merge()、terminate()方法；

　　可参考：hive udaf开发入门和运行过程详解

　　　　　　Hive UDAF开发详解

3、UDTF：User-Defined Table-Generating Functions，用户定义表生成函数，用来解决输入一行输出多行；

　　继承GenericUDTF类，重写initialize（返回输出行信息：列个数，类型）, process, close三方法；

　　可参考：hive中UDTF编写和使用(转)

　　　　　　hive0.13的udtf使用例子

4、其它

删除临时函数 drop temporary function toUpper;

Hive 自定义函数 UDF UDAF UDTF的更多相关文章

Hive自定义函数UDF和UDTF
UDF(user defined functions) 用于处理单行数据,并生成单个数据行. PS: l 一个普通UDF必须继承自“org.apache.hadoop.hive.ql.exec.UDF ...
hive自定义函数UDF UDTF UDAF
Hive 自定义函数 UDF UDTF UDAF 1.UDF:用户定义(普通)函数,只对单行数值产生作用: UDF只能实现一进一出的操作. 定义udf 计算两个数最小值 public class Mi ...
Week08_day01 (Hive 自定义函数 UDF 一个输入，一个输出（最常用）)
当我们进入企业就会发现,很多时候,企业的数据都是加密的,我们拿到的数据没办法使用Hive自带的函数去解决,我们就需要自己去定义函数去查看,哈哈,然而企业一般不会将解密的代码给你的,只需要会用,但是我们 ...
三 Hive 数据处理自定义函数UDF和Transform
三 Hive 自定义函数UDF和Transform 开篇提示: 快速链接beeline的方式: ./beeline -u jdbc:hive2://hadoop1:10000 -n hadoop 1 ...
10_Hive自定义函数UDF
Hive官方的UDF手册地址是:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF 1.使用内置函数的快捷方法: 创 ...
Hadoop生态圈-Hive的自定义函数之UDAF（User-Defined Aggregation Function）
Hadoop生态圈-Hive的自定义函数之UDAF(User-Defined Aggregation Function) 作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任.
hive自定义函数（UDF）
首先什么是UDF,UDF的全称为user-defined function,用户定义函数,为什么有它的存在呢?有的时候你要写的查询无法轻松地使用Hive提供的内置函数来表示,通过写UDF,Hive就 ...
hive -- 自定义函数和Transform
hive -- 自定义函数和Transform UDF操作单行数据, UDAF:聚合函数,接受多行数据,并产生一个输出数据行 UDTF:操作单个数据使用udf方法: 第一种: add jar xxx ...
Spark（十三）SparkSQL的自定义函数UDF与开窗函数
一自定义函数UDF 在Spark中,也支持Hive中的自定义函数.自定义函数大致可以分为三种: UDF(User-Defined-Function),即最基本的自定义函数,类似to_char,to_ ...

随机推荐

2013 年　acm 长春现场赛
A - Hard Code Hdu 4813 题目大意:给你一坨字符串,让你输出其栅栏密码的解码形式思路:水题模拟 #include<iostream> #include<cstd ...
刷题总结——赛车（bzoj3190）
题目: 题目背景 JLOI2013 T1 题目描述这里有一辆赛车比赛正在进行,赛场上一共有 N 辆车,分别称为 g1,g2,……,gn.赛道是一条无限长的直线.最初,gi 位于距离起跑线前进 ki ...
济南学习 Day5 T3 晚
回文串(palindromes) [题目描述] 判断是否能将字符串S分成三段非空回文串. [输入说明] 第一行一个整数T,表示数据组数. 对于每一个组,仅包含一个由小写字母组成的串. [输出说明] 对 ...
【HDOJ6223】Infinite Fraction Path（后缀数组，倍增）
题意: 给一个长度为n的字符串s[0..n-1],但i的后继不再是i+1,而是(i*i+1)%n,求所有长度为n的“子串”中,字典序最大的是谁 n<=150000,s[i]=0..9 思路:后缀 ...
Redis命令行之Zset
一.Redis之Zset简介 1. 有序集合Zset是String类型的有序集合. 2. Zset中每个元素都会关联一个double类型的分数值,redis通过分数值来为集合中所有成员进行从小到大排序 ...
LeetCode OJ--Reverse Linked List II
http://oj.leetcode.com/problems/reverse-linked-list-ii/ 链表的操作 #include <iostream> using namesp ...
git(二)：一些简单入门命令
一.创建仓储(版本库) 可以创建在空目录下创建git仓库,也可以在已有项目里创建git仓储. $ mkdir NewName //仓储名 $ cd Newname //进入到该仓储目录中 $ git ...
codevs——1503 愚蠢的宠物
1503 愚蠢的宠物时间限制: 1 s 空间限制: 128000 KB 题目等级 : 黄金 Gold 题解查看运行结果题目描述 Description 大家都知道,sheep有两 ...
《Java虚拟机原理图解》1.4 class文件中的字段表集合--field字段在class文件中是怎样组织的
0.前言了解JVM虚拟机原理是每一个Java程序员修炼的必经之路.但是由于JVM虚拟机中有很多的东西讲述的比较宽泛,在当前接触到的关于JVM虚拟机原理的教程或者博客中,绝大部分都是充斥的文字性的描述 ...
yum安装nginx详解
原文:http://blog.csdn.net/tjcyjd/article/details/50686505 1.查看yum的nginx信息 # yum info nginx Loaded plug ...