064 UDF

一：UDF

1.自定义UDF

二：UDAF

2.UDAF

3.介绍AbstractGenericUDAFResolver

4.介绍GenericUDAFEvaluator

5.程序

 package org.apache.hadoop.hive_udf;

 import org.apache.hadoop.hive.ql.exec.UDFArgumentException;

 import org.apache.hadoop.hive.ql.metadata.HiveException;

 import org.apache.hadoop.hive.ql.parse.SemanticException;

 import org.apache.hadoop.hive.ql.udf.generic.AbstractGenericUDAFResolver;

 import org.apache.hadoop.hive.ql.udf.generic.GenericUDAFEvaluator;

 import org.apache.hadoop.hive.ql.udf.generic.GenericUDAFParameterInfo;

 import org.apache.hadoop.hive.serde2.io.DoubleWritable;

 import org.apache.hadoop.hive.serde2.objectinspector.ObjectInspector;

 import org.apache.hadoop.hive.serde2.objectinspector.PrimitiveObjectInspector;

 import org.apache.hadoop.hive.serde2.objectinspector.primitive.AbstractPrimitiveWritableObjectInspector;

 import org.apache.hadoop.hive.serde2.objectinspector.primitive.PrimitiveObjectInspectorFactory;

 import org.apache.hadoop.hive.serde2.objectinspector.primitive.PrimitiveObjectInspectorUtils;

 import org.apache.hadoop.io.LongWritable;

 /**

  *

  * 需求：实现sum函数，支持int和double类型

  *

  */

 public class UdafProject extends AbstractGenericUDAFResolver{

     public GenericUDAFEvaluator getEvaluator(GenericUDAFParameterInfo info)

             throws SemanticException {

         //判断参数是否是全部列

         if(info.isAllColumns()){

             throw new SemanticException("不支持*的参数");

         }

         //判断是否只有一个参数

         ObjectInspector[] inspector = info.getParameterObjectInspectors();

         if(inspector.length != 1){

             throw new SemanticException("参数只能有一个");

         }

         //判断输入列的数据类型是否为基本类型

         if(inspector[0].getCategory() != ObjectInspector.Category.PRIMITIVE){

             throw new SemanticException("参数必须为基本数据类型");

         }

         AbstractPrimitiveWritableObjectInspector woi = (AbstractPrimitiveWritableObjectInspector) inspector[0];

         //判断是那种基本数据类型

         switch(woi.getPrimitiveCategory()){

         case INT:

         case LONG:

         case BYTE:

         case SHORT:

             return new udafLong();

         case FLOAT:

         case DOUBLE:

             return new udafDouble();

             default:

                 throw new SemanticException("参数必须是基本类型，且不能为string等类型");

         }

     }

     /**

      * 对整形数据进行求和

      */

     public static class udafLong extends  GenericUDAFEvaluator{

         //定义输入数据类型

         public  PrimitiveObjectInspector inputor;

         //实现自定义buffer

         static class sumlongagg implements AggregationBuffer{

             long sum;

             boolean empty;

         }

         //初始化方法

         @Override

         public ObjectInspector init(Mode m, ObjectInspector[] parameters)

                 throws HiveException {

             // TODO Auto-generated method stub

             super.init(m, parameters);

             if(parameters.length !=1 ){

                 throw new UDFArgumentException("参数异常");

             }

             if(inputor == null){

                 this.inputor = (PrimitiveObjectInspector) parameters[0];

             }

             //注意返回的类型要与最终sum的类型一致

             return PrimitiveObjectInspectorFactory.writableLongObjectInspector;

         }

         @Override

         public AggregationBuffer getNewAggregationBuffer() throws HiveException {

             // TODO Auto-generated method stub

             sumlongagg slg = new sumlongagg();

             this.reset(slg);

             return slg;

         }

         @Override

         public void reset(AggregationBuffer agg) throws HiveException {

             // TODO Auto-generated method stub

             sumlongagg slg = (sumlongagg) agg;

             slg.sum=0;

             slg.empty=true;

         }

         @Override

         public void iterate(AggregationBuffer agg, Object[] parameters)

                 throws HiveException {

             // TODO Auto-generated method stub

             if(parameters.length != 1){

                 throw new UDFArgumentException("参数错误");

             }

             this.merge(agg, parameters[0]);

         }

         @Override

         public Object terminatePartial(AggregationBuffer agg)

                 throws HiveException {

             // TODO Auto-generated method stub

             return this.terminate(agg);

         }

         @Override

         public void merge(AggregationBuffer agg, Object partial)

                 throws HiveException {

             // TODO Auto-generated method stub

             sumlongagg slg = (sumlongagg) agg;

             if(partial != null){

                 slg.sum += PrimitiveObjectInspectorUtils.getLong(partial, inputor);

                 slg.empty=false;

             }

         }

         @Override

         public Object terminate(AggregationBuffer agg) throws HiveException {

             // TODO Auto-generated method stub

             sumlongagg slg = (sumlongagg) agg;

             if(slg.empty){

                 return null;

             }

             return new LongWritable(slg.sum);

         }

     }

     /**

      * 实现浮点型的求和

      */

     public static class udafDouble extends GenericUDAFEvaluator{

         //定义输入数据类型

         public  PrimitiveObjectInspector input;

         //实现自定义buffer

         static class sumdoubleagg implements AggregationBuffer{

             double sum;

             boolean empty;

         }

         //初始化方法

         @Override

         public ObjectInspector init(Mode m, ObjectInspector[] parameters)

                 throws HiveException {

             // TODO Auto-generated method stub

             super.init(m, parameters);

             if(parameters.length !=1 ){

                 throw new UDFArgumentException("参数异常");

             }

             if(input == null){

                 this.input = (PrimitiveObjectInspector) parameters[0];

             }

             //注意返回的类型要与最终sum的类型一致

             return PrimitiveObjectInspectorFactory.writableDoubleObjectInspector;

         }

         @Override

         public AggregationBuffer getNewAggregationBuffer() throws HiveException {

             // TODO Auto-generated method stub

             sumdoubleagg sdg = new sumdoubleagg();

             this.reset(sdg);

             return sdg;

         }

         @Override

         public void reset(AggregationBuffer agg) throws HiveException {

             // TODO Auto-generated method stub

             sumdoubleagg sdg = (sumdoubleagg) agg;

             sdg.sum=0;

             sdg.empty=true;

         }

         @Override

         public void iterate(AggregationBuffer agg, Object[] parameters)

                 throws HiveException {

             // TODO Auto-generated method stub

             if(parameters.length != 1){

                 throw new UDFArgumentException("参数错误");

             }

             this.merge(agg, parameters[0]);

         }

         @Override

         public Object terminatePartial(AggregationBuffer agg)

                 throws HiveException {

             // TODO Auto-generated method stub

             return this.terminate(agg);

         }

         @Override

         public void merge(AggregationBuffer agg, Object partial)

                 throws HiveException {

             // TODO Auto-generated method stub

             sumdoubleagg sdg =(sumdoubleagg) agg;

             if(partial != null){

                 sdg.sum += PrimitiveObjectInspectorUtils.getDouble(sdg, input);

                 sdg.empty=false;

             }

         }

         @Override

         public Object terminate(AggregationBuffer agg) throws HiveException {

             // TODO Auto-generated method stub

             sumdoubleagg sdg = (sumdoubleagg) agg;

             if (sdg.empty){

                 return null;

             }

             return new DoubleWritable(sdg.sum);

         }

     }

 }

6.打成jar包

　　并放入路径：/etc/opt/datas/

7.添加jar到path

　　格式：

　　　　add jar linux_path;

　　即：

　　　　add jar /etc/opt/datas/af.jar

8.创建方法

　　create temporary function af as 'org.apache.hadoop.hive_udf.UdafProject';

9.在hive中运行

　　select sum(id),af(id) from stu_info;

三：UDTF

1.UDTF

2.程序　

 package org.apache.hadoop.hive.udf;

 import java.util.ArrayList;

 import org.apache.hadoop.hive.ql.exec.UDFArgumentException;

 import org.apache.hadoop.hive.ql.metadata.HiveException;

 import org.apache.hadoop.hive.ql.udf.generic.GenericUDTF;

 import org.apache.hadoop.hive.serde2.objectinspector.ObjectInspector;

 import org.apache.hadoop.hive.serde2.objectinspector.ObjectInspectorFactory;

 import org.apache.hadoop.hive.serde2.objectinspector.StructObjectInspector;

 import org.apache.hadoop.hive.serde2.objectinspector.primitive.PrimitiveObjectInspectorFactory;

 public class UDTFtest extends GenericUDTF {

     @Override

     public StructObjectInspector initialize(StructObjectInspector argOIs)

             throws UDFArgumentException {

         // TODO Auto-generated method stub

         if(argOIs.getAllStructFieldRefs().size() != 1){

             throw new UDFArgumentException("参数只能有一个");

         }

         ArrayList<String> fieldname = new ArrayList<String>();

         fieldname.add("name");

         fieldname.add("email");

         ArrayList<ObjectInspector> fieldio = new ArrayList<ObjectInspector>();

         fieldio.add(PrimitiveObjectInspectorFactory.javaStringObjectInspector);

         fieldio.add(PrimitiveObjectInspectorFactory.javaStringObjectInspector);

         return ObjectInspectorFactory.getStandardStructObjectInspector(fieldname, fieldio);

     }

     @Override

     public void process(Object[] args) throws HiveException {

         // TODO Auto-generated method stub

         if(args.length == 1){

             String name = args[0].toString();

             String email = name + "@ibeifneg.com";

             super.forward(new String[] {name,email});

         }

     }

     @Override

     public void close() throws HiveException {

         // TODO Auto-generated method stub

         super.forward(new String[] {"complete","finish"});

     }

 }

3.同样的步骤

4.在hive中运行

　　select tf(ename) as (name,email) from emp;

064 UDF的更多相关文章

SQL Server-聚焦在视图和UDF中使用SCHEMABINDING（二十六）
前言上一节我们讨论了视图中的一些限制以及建议等,这节我们讲讲关于在UDF和视图中使用SCHEMABINDING的问题,简短的内容,深入的理解,Always to review the basics. ...
MySql UDF 调用外部程序和系统命令
1.mysql利用mysqludf的一个mysql插件可以实现调用外部程序和系统命令下载lib_mysqludf_sys程序:https://github.com/mysqludf/lib_mysq ...
Hive UDF初探
1. 引言在前一篇中,解决了Hive表中复杂数据结构平铺化以导入Kylin的问题,但是平铺之后计算广告日志的曝光PV是翻倍的,因为一个用户对应于多个标签.所以,为了计算曝光PV,我们得另外创建视图. ...
sparksql udf的运用----scala及python版（2016年7月17日前完成）
问:udf在sparksql 里面的作用是什么呢? 答:oracle的存储过程会有用到定义函数,那么现在udf就相当于一个在sparksql用到的函数定义: 第二个问题udf是怎么实现的呢? regi ...
Hive UDF开发实例学习
1. 本地环境配置必须包含的一些包. http://blog.csdn.net/azhao_dn/article/details/6981115 2. 去重UDF实例 http://blog.csd ...
Adding New Functions to MySQL(User-Defined Function Interface UDF、Native Function)
catalog . How to Add New Functions to MySQL . Features of the User-Defined Function Interface . User ...
gearman mysql udf
gearman安装 apt-get install gearman gearman-server libgearman-dev 配置bindip /etc/defalut/gearman-job-se ...
HiveServer2 的jdbc方式创建udf的修改（add jar 最好不要使用），否则会造成异常： java.sql.SQLException: Error while processing statement: null
自从Hive0.13.0开始,使用HiveServer2 的jdbc方式创建udf的临时函数的方法由: ADD JAR ${HiveUDFJarPath} create TEMPORARY funct ...
HIVE: UDF应用实例
数据文件内容 TEST DATA HERE Good to Go 我们准备写一个函数,把所有字符变为小写. 1.开发UDF package MyTestPackage; import org.apac ...

随机推荐

luogu 4158 粉刷匠 dp套dp
dp套dp 每个木板是个递推的dp,外部是个分组背包 #include<bits/stdc++.h> #define rep(i,x,y) for(register int i=x;i&l ...
Postfix - Extmail 邮箱系统
Postfix Dovecot Extmail 邮箱系统早前的内部邮箱系统重新整理下:现在Extmail官方有集成镜像的EMOS_1.6_x86_64免费版:可直接下载安装: 系统环境: linux ...
CF1066D Boxes Packing
传送门这题为什么要用二分呢?/huaji 首先可以$O(n)$预处理出从某个物品$i$开始放,只放一个盒子,能放的最后物品的位置$j$,只要用两个指针维护左右端点,每次移动一下左端点同时 ...
ACM-ICPC 2018 徐州赛区网络预赛 G题
题目链接: https://nanti.jisuanke.com/t/31459 具体思路: 先顺序输入,然后回溯,假设已经加入了n个点,那么在加入的同时,首先看一下原先x轴上已经有过的点,找到第一个 ...
atof()函数 atol()
atof()函数 atof():double atof(const char *str ); 功能: 把字符串转换成浮点数 str:要转换的字符串. 返回值:每个函数返回 double 值,此值由将 ...
【干货】从windows注册表读取重要信息-----这种技能非常重要，占电子取证的70%
也就是说,当我拿着U盘启动盘,从你电脑里面拷贝了注册表的几个文件,大部分数据就已经到我手中了.一起来感受一下吧. 来源:Unit 6: Windows File Systems and Registr ...
Software development skills for data scientists
Software development skills for data scientists Data scientists often come from diverse backgrounds ...
关于C++中的指针、数组
C++中指针和数组基本等价的原因在于指针算术和C++内部处理数组的方式:将整数变量加一后,其值将增加1:将指针变量加一后,增加的量等于其指向的数据类型的字节数: 指针中存储的是地址,地址在形式上和整数 ...
Faster rcnn代码理解（2）
接着上篇的博客,咱们继续看一下Faster RCNN的代码- 上次大致讲完了Faster rcnn在训练时是如何获取imdb和roidb文件的,主要都在train_rpn()的get_roidb()函 ...
[转]VS2015 Git 源码管理工具简单入门
VS2015 Git 源码管理工具简单入门 1.VS Git插件 1.1 环境 VS2015+GitLab 1.2 Git操作过程图解 1.3 常见名词解释拉取(Pull):将远程版本库合并到本 ...

064 UDF

064 UDF的更多相关文章

随机推荐

热门专题