Hive的UDF是什么？

首先我们学习hadoop的时候，为了让我们不太会java语言但是对SQL很熟悉的工程师能够操作基本的mapreduce计算过程，Hive被设计出来了。Hive就好比是hadoop在执行MR（mapreduce）程序的一个操作系统，因为我们可以用简单的SQL语句去代替复杂的MR程序，因为Hive可以将我们的SQL语句转化为MR程序然后去执行。Hive的语法和SQL的语法很多地方是相同的，所以说它就是为熟连使用SQL的工程师设计的。

首先什么是UDF，UDF的全称为user-defined function，用户定义函数，为什么有它的存在呢？有的时候你要写的查询无法轻松地使用Hive提供的内置函数来表示，通过写UDF，Hive就可以方便地插入用户写的处理代码并在查询中使用它们，相当于在HQL（Hive SQL）中自定义一些函数。

首先UDF必须用java语言编写，Hive本身就是用java写的。所以想学好hadoop这个分布式框架的相关技术，熟练使用java就是基本功了！

Hive中有三种UDF:(普通)UDF、用户定义聚集函数（user-defined aggregate function，UDAF）、用户定义表生成函数（user-defined table-generating function，UDTF）。

UDF操作作用于单个数据行，并且产生一个数据行作为输出。大多数函数都属于这一类（比如数学函数和字符串函数）。

UDAF 接受多个输入数据行，并产生一个输出数据行。想COUNT和MAX这样的函数就是聚集函数。

UDTF 操作作用于单个数据行，并且产生多个数据行-------一个表作为输出

首先一个UDF必须满足下面两个条件:

1 一个UDF必须是org.apache.hadoop.hive.ql.exec.UDF的子类（换句话说就是我们一般都是去继承这个类）

2 一个UDF必须至少实现了evaluate()方法

注意UDF名不是大小写敏感的

一个UDAF计算函数必须实现下面的5个方法：

1 init()方法 init（）方法负责初始化计算函数并重设它的内部状态。在MaximumIntUDAFEvaluator中，我们把存放最终结果的IntWritable对象设置为null。我们使用null来表示目前还没有对任何值进行聚集计算，这和对空集NULL计算最大值应有的结果是一致的。

2 iterate（）方法每次对一个新值进行聚集计算时都会调用iterate（）方法。计算函数要根据聚集计算的结果更新其内部状态。iterate（）接受的参数和Hive中被调用函数的参数使对应的。

3 terminatePartial（）方法 Hive需要部分聚集结果时会调用terminatePartial（）方法。这个方法必须返回一个封装了聚集计算当前状态的对象。

4 merge（）方法在Hive决定要合并一个部分聚集值和另一个部分聚集值时会调用merge（）方法。该方法接受一个对象作为输入。这个对象的类型必须和terminatePartial（）方法返回的类型一致。

5 terminate（） Hive需要最终聚集结果时会调用terminate（）方法。计算函数需要把状态作为一个值返回。

具体去写UDF的过程我这里就不具体说了，我来说说，怎样去把我们写好的UDF放到Hive中去使用：

首先我们将用java写好的UDF函数编译后的Java类打包成为一个JAR文件，并在Hive中注册这个文件（相当于告诉Hive这个是我写的UDF）：

ADD JAR /path/hive-sample.jar;

给我们写的UDF中的Strip类起个别名
CREATE TEMPORARY FUNCTION strip AS 'com.hadoop.hive.Strip';

经过了上面这个过程就可以在Hive中使用这个UDF了

比如 SELECT strip(‘bee‘) FROM dummy;

Hive的UDF是什么？的更多相关文章

Hive 10、Hive的UDF、UDAF、UDTF
Hive自定义函数包括三种UDF.UDAF.UDTF UDF(User-Defined-Function) 一进一出 UDAF(User- Defined Aggregation Funcation) ...
hive premanent udf 发布...
起因: hive premanent udf 发布成功,但是hue 无法加载使用(但是cli 是可用的) ,处理半天,依然不可用!后来发现重启hiveserver2 就可以了具体步骤如下: ...
hive中UDF、UDAF和UDTF使用
Hive进行UDF开发十分简单,此处所说UDF为Temporary的function,所以需要hive版本在0.4.0以上才可以. 一.背景:Hive是基于Hadoop中的MapReduce,提供HQ ...
hive下UDF函数的使用
1.编写函数 [java] view plaincopyprint?package com.example.hive.udf; import org.apache.hadoop.hive.ql. ...
在hive中UDF和UDAF使用说明
Hive进行UDF开发十分简单,此处所说UDF为Temporary的function,所以需要hive版本在0.4.0以上才可以. 一.背景:Hive是基于Hadoop中的MapReduce,提供HQ ...
【转】hive中UDF、UDAF和UDTF使用
原博文出自于: http://blog.csdn.net/liuj2511981/article/details/8523084 感谢! Hive进行UDF开发十分简单,此处所说UDF为Tempora ...
hive的UDF读取配置文件
hive的UDF读取配置文件实现步骤在读取配置文件的写为./file_name,然后在添加UDF的时候把配置文件也加入资源就好了: add jar xxx.jar; add file file_n ...
hive添加UDF
hive添加UDF 步骤如下: 函数分为永久和临时函数,后者会话退出则消失,前者不会查看已有函数(创建好后也可以通过这个来查看是否成功) show functions; 写UDF的java文件,如: ...
Impala 加载Hive的UDF
Impala的UDF有两种: Native Imapal UDF:使用C++开发的,性能极高,官方性能测试比第二种高出将近10倍 Hive的UDF:是Hive中的UDF,直接加载到Impala中,优点 ...
【Hive五】Hive函数UDF
Hive函数系统自带的函数查看系统自带的函数查看系统自带的函数 show functions; 显示自带的函数的用法 desc function upper; 详细显示自带的函数的用法 desc ...

随机推荐

apache 和 php 整合、apache配制虚拟机
如何把apache 和 php 整合起来 ? (关闭防火墙或在防火墙内添加80端口,关闭selinux) 修改:apache的配制文件:/usr/local/apache2.4/conf/h ...
PS学习之动态表情制作
准备素材 1. 2. 3. 4. 最后效果图: 在PS中打开四个图片另外新建一个文件用魔棒工具抠图点击白色位置右键选择反向右键人物选择拷贝的图层重复,将四个图片扣好拖到新建的文件里如 ...
LG4238 【【模板】多项式求逆】
前言学习了Great_Influence的递推实现,我给大家说一下多项式求逆严格的边界条件,因为我发现改动一些很小的边界条件都会使程序出错.怎么办,背代码吗?背代码是不可能,这辈子都不会背代码的.理 ...
controller层，service层，dao层（main函数，子函数，子的子函数）
controller层相当于main函数————————————————————————————————————————————————————@RequestMapping("/query ...
linux I/O状态实时监控iostat
首先查看系统有没有安装sysstat 如果没有,则yum install sysstat -y [root@bogon ~]# iostat -c 2 2 #显示cpu状态信息 Linux 3.10. ...
Android 工具视频学习笔记_WDS
1. 由于Android源码过于庞大,SourceInsight会经常卡死,不适合了.适合的是Android Studio, 非常好用.使用手册上有介绍如何安装. 编译安卓的过程说明手册中也有. 3. ...
Python自建collections模块
本篇将学习python的另一个内建模块collections,更多内容请参考:Python学习指南 collections是Python内建的一个集合模块,提供了许多有用的集合类. namedtupl ...
[转]Serializable接口与Externalizable接口区别
被Serializable接口声明的类的对象的内容都将被序列化,如果现在用户希望自己指定序列化的内容,则可以让一个类实现Externalizable接口,此接口定义如下: public interfa ...
TypeScript 之 tsconfig.json
https://m.runoob.com/manual/gitbook/TypeScript/_book/doc/handbook/tsconfig.json.html 如果一个目录下存在一个tsco ...
centos6 下 yum 升级php5 到 php7
一 [卸载老版本php] 1.查看老版本 2.卸载老版本 yum remove php* 本人使用一下方式卸载老版本 1)yum -y remove php* #这个命令可以卸载部分,但是清除不干净 ...

Hive的UDF是什么？

Hive的UDF是什么？的更多相关文章

随机推荐

热门专题