UDF简记

摘要：
 　　1.开发UDF
　　 2.开发UDAF
　　 3.开发UDTF
　　 4.部署与测试
　　 5.一个简单的实例

内容：
1.开发UDF
　　函数类需要继承org.apache.hadoop.hive.ql.UDF

   实现evaluate函数

2.开发UDAF

　　函数类需要继承UDAF类，内部类Evaluator实UDAFEvaluator接口。

　　Evaluator需要实现 init、iterate、terminatePartial、merge、terminate这几个函数

　　　　init函数实现接口UDAFEvaluator的init函数。

　　　　iterate接收传入的参数，并进行内部的轮转。其返回类型为boolean。

　　　　terminatePartial无参数，其为iterate函数轮转结束后，返回轮转数据，terminatePartial类似于hadoop的Combiner。

　　　　merge接收terminatePartial的返回结果，进行数据merge操作，其返回类型为boolean。

　　　　terminate返回最终的聚集函数结果。

3.开发UDTF

函数类需要继承org.apache.hadoop.hive.ql.udf.generic.GenericUDTF

实现initialize, process, close三个方法。

　　initialize方法返回UDTF的返回行的信息（返回个数，类型）

　　process方法对传入的参数进行处理，可以通过forword()方法把结果返回

　　close()方法需要清理的方法进行清理

4.部署与测试

打包上传到HDFS

hadoop fs -put my-udf.jar /hive_functions

hive>add jar hdfs://namenode_host:8020/hive_functions/my-udf.jar;

hive>create temporary function parse_json_array as 'hive.udf.yourUDF';

5.一个简单的实例(github地址)

 import org.apache.commons.lang.StringUtils;

 import org.apache.hadoop.hive.ql.exec.UDF;

 import org.json.JSONArray;

 import org.json.JSONException;

 import org.json.JSONTokener;

 import java.util.ArrayList;

 /**

  * Created by arachis on 2017/10/19.

  * 一个简单的UDF:

  *  解析json array中的指定字段，并用下划线拼接起来

  */

 public class MyUDF extends UDF {

     /**

      * 把json array字符串中指定的字段解析出来

      * @param jsonArrayStr　要解析的json array字符串

      * @param column　要提取的字段

      * @return str

      *

      * hive example:

      *  hive>select *,parse_json_array(get_json_object('{"data":[{"id":1082},{"id":1082},{"id":1082}]}','$.data'),'id') from dual;

      *  hive>+-----------+-----------------+--+

     | dual.foo  |       _c1       |

     +-----------+-----------------+--+

     | NULL      | 1082_1082_1082  |

     +-----------+-----------------+--+

      */

     public String evaluate(String jsonArrayStr,String column) {

         if((jsonArrayStr==null)|| StringUtils.isBlank(jsonArrayStr)||! jsonArrayStr.trim().startsWith("[")){

             return null;

         }

         JSONArray jsonArray = null;

         ArrayList<String> tag_ids = new ArrayList<String>();

         try {

             jsonArray = new JSONArray(new JSONTokener(jsonArrayStr));

             for(int i=0;i<jsonArray.length();i++){

                 String json = jsonArray.getJSONObject(i).get(column).toString();

                 tag_ids.add( json );

             }

         } catch (JSONException e) {

             e.printStackTrace();

         }

         return StringUtils.join( tag_ids,'_' );

     }

     public static void main(String[] args) {

         String jas = "[{\"id\":1082},{\"id\":1082},{\"id\":1082}]";

         System.out.println(new MyUDF().evaluate(jas,"id") );

     }

UDF简记的更多相关文章

Hive简记
在大数据工作中难免遇到数据仓库(OLAP)架构,以及通过Hive SQL简化分布式计算的场景.所以想通过这篇博客对Hive使用有一个大致总结,希望道友多多指教! 摘要: 1.Hive安装 2.Hive ...
SQL Server-聚焦在视图和UDF中使用SCHEMABINDING（二十六）
前言上一节我们讨论了视图中的一些限制以及建议等,这节我们讲讲关于在UDF和视图中使用SCHEMABINDING的问题,简短的内容,深入的理解,Always to review the basics. ...
RangePartitioner 实现简记
摘要: 1.背景 2.rangeBounds 上边界数组源码走读 3.RangePartitioner的sketch 源码走读 4.determineBounds 源码走读 5.关于RangePart ...
MySql UDF 调用外部程序和系统命令
1.mysql利用mysqludf的一个mysql插件可以实现调用外部程序和系统命令下载lib_mysqludf_sys程序:https://github.com/mysqludf/lib_mysq ...
Hive UDF初探
1. 引言在前一篇中,解决了Hive表中复杂数据结构平铺化以导入Kylin的问题,但是平铺之后计算广告日志的曝光PV是翻倍的,因为一个用户对应于多个标签.所以,为了计算曝光PV,我们得另外创建视图. ...
sparksql udf的运用----scala及python版（2016年7月17日前完成）
问:udf在sparksql 里面的作用是什么呢? 答:oracle的存储过程会有用到定义函数,那么现在udf就相当于一个在sparksql用到的函数定义: 第二个问题udf是怎么实现的呢? regi ...
Hive UDF开发实例学习
1. 本地环境配置必须包含的一些包. http://blog.csdn.net/azhao_dn/article/details/6981115 2. 去重UDF实例 http://blog.csd ...
Adding New Functions to MySQL(User-Defined Function Interface UDF、Native Function)
catalog . How to Add New Functions to MySQL . Features of the User-Defined Function Interface . User ...
gearman mysql udf
gearman安装 apt-get install gearman gearman-server libgearman-dev 配置bindip /etc/defalut/gearman-job-se ...

随机推荐

南理第八届校赛同步赛-C count_prime//容斥原理
大致思路就是先求出n的质因数假设是a1-an,然后在1-a的区间里面查找至少能整除{a1,a2...an}中一个元素的数有多少个,对1-b也做相同的处理,而找出来的元素肯定是与n不互质的,那么把区间的 ...
CodeForces 97 E. Leaders（点双连通分量 + 倍增）
题意给你一个有 \(n\) 个点 \(m\) 条边的无向图,有 \(q\) 次询问,每次询问两个点 \(u, v\) 之间是否存在长度为奇数的简单路径. \(1 \le n, m, q \le 10 ...
【LOJ#6074】子序列（动态规划）
[LOJ#6074]子序列(动态规划) 题面 LOJ 题解考虑一个暴力\(dp\). 设\(f[i][c]\)表示当前在第\(i\)位,并且以\(c\)结尾的子序列个数. 那么假设当前位为\(a\) ...
【WC2018】通道（边分治，虚树，动态规划）
[WC2018]通道(边分治,虚树,动态规划) 题面 UOJ 洛谷题解既然是三棵树,那么显然就是找点什么东西来套个三层. 一棵树怎么做?入门dp. 两棵树?假设在第一棵树中的深度为\(dep\). ...
[APIO2013]机器人(斯坦纳树)
题目描述 VRI(Voltron 机器人学会)的工程师建造了 n 个机器人.任意两个兼容的机器人站在同一个格子时可以合并为一个复合机器人. 我们把机器人用 1 至 n 编号(n ≤ 9).如果两个机 ...
kafka清理数据日志
背景问题: 使用kafka的路上踩过不少坑,其中一个就是在测试环境使用kafka一阵子以后,发现其日志目录变的很大,占了磁盘很大空间,定位到指定目录下发现其中一个系统自动创建的 topic,__con ...
【转】服务化框架技术选型与京东JSF解密
[京东技术]声明:本文转载自微信公众号“开涛的博客”,转载务必声明. 作者:章耿,原京东资深架构师,曾负责京东服务框架,配置中心等基础平台.近十年工作经验,专注于基础中间件等底层技术架构,对分布式系统 ...
win32: WM_PAINT 实现双缓冲缓图
相关参考资料: GDI下实现双缓冲 - http://jingyan.baidu.com/article/e73e26c0f8df2424acb6a76e.html <Win32_19>用 ...
codeblocks: 使用动态链接库(pcre)的配置
说明:在c/c++程序中使用动态链接库, 编译后需要相关的dll文件(如:libpcre-1.dll,libpcreposix-0.dll)才能正常的运行. 2014-06-27
Python函数的定义与调用、返回值、参数
一.函数是什么函数是组织好的,可重复使用的,用来实现单一,或相关联功能的代码段. 函数能提高应用的模块性,和代码的重复利用率.比如print(),len()等.但你也可以自己创建函数,这被叫做用户自 ...

UDF简记

UDF简记的更多相关文章

随机推荐

热门专题