Hive 自定义函数 UDF UDTF UDAF

1.UDF：用户定义（普通）函数，只对单行数值产生作用；

UDF只能实现一进一出的操作。

定义udf 计算两个数最小值

public class Min extends UDF {

        public Double evaluate(Double a, Double b) {

            if (a == null)

                a = 0.0;

            if (b == null)

                b = 0.0;

            if (a >= b) {

                return b;

            } else {

                return a;

            }

        }

    }

a）把程序打成jar包

b）添加jar包：add jar /run/jar/udf_test.jar;

c）创建临时函数：hive>CREATE TEMPORARY FUNCTION add_example AS 'hive.udf.Add';

d）销毁临时函数：hive> DROP TEMPORARY FUNCTION add_example;

2.UDTF：User-Defined Table-Generating Functions，用户定义表生成函数

用来解决输入一行输出多行

继承org.apache.hadoop.hive.ql.udf.generic.GenericUDTF,

实现initialize, process, close三个方法。

UDTF首先会调用initialize方法，此方法返回UDTF的返回行的信息（返回个数，类型）。

初始化完成后，会调用process方法,真正的处理过程在process函数中，在process中，每一次forward()调用产生一行；如果产生多列可以将多个列的值放在一个数组中，然后将该数组传入到forward()函数。

最后close()方法调用，对需要清理的方法进行清理

例子：切分”key:value;key:value”字符串，返回结果为key, value两个字段。

import java.util.ArrayList;

 import org.apache.hadoop.hive.ql.udf.generic.GenericUDTF;

 import org.apache.hadoop.hive.ql.exec.UDFArgumentException;

 import org.apache.hadoop.hive.ql.exec.UDFArgumentLengthException;

 import org.apache.hadoop.hive.ql.metadata.HiveException;

 import org.apache.hadoop.hive.serde2.objectinspector.ObjectInspector;

 import org.apache.hadoop.hive.serde2.objectinspector.ObjectInspectorFactory;

 import org.apache.hadoop.hive.serde2.objectinspector.StructObjectInspector;

 import org.apache.hadoop.hive.serde2.objectinspector.primitive.PrimitiveObjectInspectorFactory;

 public class ExplodeMap extends GenericUDTF{

     @Override

     public void close() throws HiveException {

         // TODO Auto-generated method stub

     }

     @Override

     public StructObjectInspector initialize(ObjectInspector[] args)

             throws UDFArgumentException {

         if (args.length != 1) {

             throw new UDFArgumentLengthException("ExplodeMap takes only one argument");

         }

         if (args[0].getCategory() != ObjectInspector.Category.PRIMITIVE) {

             throw new UDFArgumentException("ExplodeMap takes string as a parameter");

         }

         ArrayList<String> fieldNames = new ArrayList<String>();

         ArrayList<ObjectInspector> fieldOIs = new ArrayList<ObjectInspector>();

         fieldNames.add("col1");

         fieldOIs.add(PrimitiveObjectInspectorFactory.javaStringObjectInspector);

         fieldNames.add("col2");

         fieldOIs.add(PrimitiveObjectInspectorFactory.javaStringObjectInspector);

         return ObjectInspectorFactory.getStandardStructObjectInspector(fieldNames,fieldOIs);

     }

     @Override

     public void process(Object[] args) throws HiveException {

         String input = args[0].toString();

         String[] test = input.split(";");

         for(int i=0; i<test.length; i++) {

             try {

                 String[] result = test[i].split(":");

                 forward(result);

             } catch (Exception e) {

                 continue;

             }

         }

     }

 }

a）把程序打成jar包

b）添加jar包：add jar /run/jar/udf_test.jar;

c）创建临时函数：CREATE TEMPORARY FUNCTION explode_map AS 'cn.itcast.hive.udtf.ExplodeMap';

d）销毁临时函数：hive> DROP TEMPORARY FUNCTION add_example;

udtf的使用：

UDTF有两种使用方法，一种直接放到select后面，一种和lateral view一起使用。

create table src(properties String);

	vi src.txt

	key1:value1;key2:value2;

load data local inpath '/root/hivedata/src.txt' into table src;

1：直接select中使用

select explode_map(properties) as (col1,col2) from src;

不可以添加其他字段使用

select a, explode_map(properties) as (col1,col2) from src;

不可以嵌套调用

select explode_map(explode_map(properties)) from src;

不可以和group by/cluster by/distribute by/sort by一起使用

select explode_map(properties) as (col1,col2) from src group by col1, col2;

2：和lateral view一起使用

select src.id, mytable.col1, mytable.col2 from src lateral view explode_map(properties) mytable as col1, col2;

3.UDAF：User- Defined Aggregation Funcation；用户定义聚合函数，可对多行数据产生作用；

等同与SQL中常用的SUM()，AVG()，也是聚合函数；

UDAF实现多进一出

UDAF实现有简单与通用两种方式：

import org.apache.hadoop.hive.ql.exec.UDAF;

import org.apache.hadoop.hive.ql.exec.UDAFEvaluator;

import org.apache.hadoop.io.IntWritable;

//UDAF是输入多个数据行，产生一个数据行

//用户自定义的UDAF必须是继承了UDAF，且内部包含多个实现了exec的静态类

public class MaxiNumber extends UDAF {

    public static class MaxiNumberIntUDAFEvaluator implements UDAFEvaluator {

        // 最终结果

        private IntWritable result;

        // 负责初始化计算函数并设置它的内部状态，result是存放最终结果的

        @Override

        public void init() {

            result = null;

        }

        // 每次对一个新值进行聚集计算都会调用iterate方法

        public boolean iterate(IntWritable value) {

            if (value == null)

                return false;

            if (result == null)

                result = new IntWritable(value.get());

            else

                result.set(Math.max(result.get(), value.get()));

            return true;

        }

        // Hive需要部分聚集结果的时候会调用该方法

        // 会返回一个封装了聚集计算当前状态的对象

        public IntWritable terminatePartial() {

            return result;

        }

        // 合并两个部分聚集值会调用这个方法

        public boolean merge(IntWritable other) {

            return iterate(other);

        }

        // Hive需要最终聚集结果时候会调用该方法

        public IntWritable terminate() {

            return result;

        }

    }

}

hive自定义函数UDF UDTF UDAF的更多相关文章

Hive自定义函数UDF和UDTF
UDF(user defined functions) 用于处理单行数据,并生成单个数据行. PS: l 一个普通UDF必须继承自“org.apache.hadoop.hive.ql.exec.UDF ...
Hive 自定义函数 UDF UDAF UDTF
1.UDF:用户定义(普通)函数,只对单行数值产生作用: 继承UDF类,添加方法 evaluate() /** * @function 自定义UDF统计最小值 * @author John * */ ...
spark-sql自定义函数UDF和UDAF
1 UDF对每个值进行处理: 2 UDAF对分组后的每个值处理(必须分组) SparkConf sparkConf = new SparkConf() .setMaster("local&q ...
Week08_day01 (Hive 自定义函数 UDF 一个输入，一个输出（最常用）)
当我们进入企业就会发现,很多时候,企业的数据都是加密的,我们拿到的数据没办法使用Hive自带的函数去解决,我们就需要自己去定义函数去查看,哈哈,然而企业一般不会将解密的代码给你的,只需要会用,但是我们 ...
三 Hive 数据处理自定义函数UDF和Transform
三 Hive 自定义函数UDF和Transform 开篇提示: 快速链接beeline的方式: ./beeline -u jdbc:hive2://hadoop1:10000 -n hadoop 1 ...
10_Hive自定义函数UDF
Hive官方的UDF手册地址是:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF 1.使用内置函数的快捷方法: 创 ...
Hadoop生态圈-Hive的自定义函数之UDTF（User-Defined Table-Generating Functions）
Hadoop生态圈-Hive的自定义函数之UDTF(User-Defined Table-Generating Functions) 作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任.
hive自定义函数（UDF）
首先什么是UDF,UDF的全称为user-defined function,用户定义函数,为什么有它的存在呢?有的时候你要写的查询无法轻松地使用Hive提供的内置函数来表示,通过写UDF,Hive就 ...
hive -- 自定义函数和Transform
hive -- 自定义函数和Transform UDF操作单行数据, UDAF:聚合函数,接受多行数据,并产生一个输出数据行 UDTF:操作单个数据使用udf方法: 第一种: add jar xxx ...

随机推荐

zk不同页面之间的即时刷新
公共刷新方法 import org.zkoss.bind.annotation.GlobalCommand; import org.zkoss.bind.annotation.NotifyChange ...
Security基础(一)：Linux基本防护措施、使用sudo分配管理权限、提高SSH服务安全
一.Linux基本防护措施目标: 本案例要求练习Linux系统的基本防护措施,完成以下任务: 修改用户zhangsan的账号属性,设置为2015-12-31日失效(禁止登录) 锁定用户lisi的账户 ...
Python(二)
函数Python的函数支持递归.默认参数值.可变参数,但不支持函数重载.为了增强代码的可读性,可以在函数后书写“文档字符串”(Documentation Strings,或者简称docstrings) ...
css 导航菜单+下拉菜单
一.导航菜单 1.横向导航代码如下: <!doctype html> <html> <head> <meta charset="utf-8&quo ...
embed元素 autostart false 失效时的解决方法
embed元素 autostart false 失效时的解决方法最近在工作中碰到了在网页中嵌入播放器播放声音文件的需求,最后使用了embed元素代码如下: <embed src='1093. ...
HBase优化——读写优化
Hbase2.0查询优化 1)设置scan缓存 HBase中Scan查询可以设置缓存,方法是setCaching(),这样可以有效的减少服务端与客户端的交互,更有效的提升扫描查询的性能. Scan s ...
41-python基础-python3-字符串-转义字符
转义字符包含一个倒斜杠(\),紧跟着是想要添加到字符串中的字符.(尽管它包含两个字符,但大家公认它是一个转义字符.) 实例1: Python 知道,因为 Bob\'s 中的单引号有一个倒斜杠,所以它不 ...
关于JDK，tomcat，eclipse的配置
1.下载安装JDK 在自定义安装路径时,jdk和之后的jre文件夹是属于平行结构,我的安装路径为:D:\jdk\jdk1.6.0_43和D:\jdk\jre6 然后是对环境变量的配置, 计算机→属性→ ...
mysql在插入数据前判断是否存在数据
记录一次mysql插入数据的操作,要先判断表中是否存在对应的值. 以往我们的操作都是先select,再insert,今天给大家分享另一种操作,一条sql语句来实现: inset into user(u ...
Redis Desktop Manager连接Redis 遇到的一系列问题
最近在做一个土地项目的后台,主要是一个信息采集调查系统,使用的框架是: * 核心框架:Spring Framework 4.2 * 日志管理:SLF4J 1.7.Log4j 1.2 * 视图框架:Sp ...

hive自定义函数UDF UDTF UDAF

Hive 自定义函数 UDF UDTF UDAF

1.UDF：用户定义（普通）函数，只对单行数值产生作用；

2.UDTF：User-Defined Table-Generating Functions，用户定义表生成函数

3.UDAF：User- Defined Aggregation Funcation；用户定义聚合函数，可对多行数据产生作用；

hive自定义函数UDF UDTF UDAF的更多相关文章

随机推荐

热门专题