Hive进行UDF开发十分简单，此处所说UDF为Temporary的function，所以需要hive版本在0.4.0以上才可以。

Hive的UDF开发只需要重构UDF类的evaluate函数即可。例：

package com.hrj.hive.udf;

import org.apache.hadoop.hive.ql.exec.UDF;

public class helloUDF extends UDF {

public String evaluate(String str) {

try {

return "HelloWorld " + str;

} catch (Exception e) {

return null;

}

将该java文件编译成helloudf.jar

hive> add jar helloudf.jar;

hive> create temporary function helloworld as 'com.hrj.hive.udf.helloUDF';

hive> select helloworld(t.col1) from t limit 10;

hive> drop temporary function helloworld;

注：

1.helloworld为临时的函数，所以每次进入hive都需要add jar以及create temporary操作

2.UDF只能实现一进一出的操作，如果需要实现多进一出，则需要实现UDAF

转自： http://www.cnblogs.com/end/archive/2012/10/12/2721543.html

除此之外，我们也可以创建非临时的UDF，然后将其部署到服务器上。

1 编写UDF类

以简单的处理单个字段的UDF函数为例,开发自定义UDF函数需要继承’org.apache.hadoop.hive.ql.exec.UDF’类.
可以通过Maven添加,pom文件中加入(版本号跟Hive版本一致即可):

<dependency>

  <groupId>org.apache.hive</groupId>

  <artifactId>hive-exec</artifactId>

  <version>0.13.1</version>

</dependency>

最简单的实现只需继承UDF类,并实现evaluate函数.如下UDF函数用来将IP(v4)地址转换为整数.

package com.liam8.hive;

    import org.apache.hadoop.hive.ql.exec.Description;

    import org.apache.hadoop.hive.ql.exec.UDF;

    /**

    * Convert IPv4 to a num which type is Long in java.

    * Created by Liam on 2016/4/11.

    */

    @Description(name = "IpToNum", value = "_FUNC_(ip) - Convert IPv4 to a num(long).")

    public class IpToNum extends UDF {

      public long evaluate(String ip) {

          String[] nums = ip.split("\\.");

          return Long.parseLong(nums[3]) + Long.parseLong(nums[2]) * 256

             + Long.parseLong(nums[1]) * 65536 + Long.parseLong(nums[0]) * 16777216;

      }

    }

evaluate方法的输入输出即是UDF函数的输入输出.
Description注解部分提供函数的帮助信息.
执行:desc function test.iptonum
输出:
test.iptonum(ip) - Convert IPv4 to a num(long).

源码已上传 Github

2 部署及创建UDF函数

PS:Hive0.13及以后版本适用

部署jar包

将jar包复制到HDFS.

hdfs -dfs -put udfs-0.1.jar 'hdfs:///user/hadoop/hiveUDF'

创建永久函数

需在Hive中执行sql语句,格式如下:

CREATE FUNCTION [db_name.]function_name AS class_name

[USING JAR|FILE|ARCHIVE 'file_uri' [, JAR|FILE|ARCHIVE 'file_uri'] ];

如：

create function test.iptonum as 'com.liam8.hive.IpToNum' using jar 'hdfs:///user/hadoop/hiveUDF/udfs-0.1.jar'

函数需要属于某个库,如这里是’test’,当其他库调用时,需要加上库名,如’test.iptonum’.

调用方式: select test.iptonum('127.0.0.1');

创建临时函数

临时函数只在当前session中有效,临时函数不能指定库.

create temporary function iptonum as 'com.liam8.hive.IpToNum' using jar 'hdfs:///user/hadoop/hiveUDF/udfs-0.1.jar'

调用方式: select iptonum('127.0.0.1');

4 参考资料

LanguageManualDDL-PermanentFunctions

HivePlugins

原文地址：http://liam8.ml/2016/04/11/add-udf-to-hive/

Hive UDF开发-简介的更多相关文章

Hive UDF开发第一个例子
package udf; import org.apache.hadoop.hive.ql.exec.UDF; public class helloudf extends UDF{ public St ...
Hive UDF开发指南
编写Apache Hive用户自定义函数(UDF)有两个不同的接口,一个非常简单,另一个...就相对复杂点. 如果你的函数读和返回都是基础数据类型(Hadoop&Hive 基本writable ...
Hive UDF开发实例学习
1. 本地环境配置必须包含的一些包. http://blog.csdn.net/azhao_dn/article/details/6981115 2. 去重UDF实例 http://blog.csd ...
hive UDF函数
虽然Hive提供了很多函数,但是有些还是难以满足我们的需求.因此Hive提供了自定义函数开发自定义函数包括三种UDF.UADF.UDTF UDF(User-Defined-Function) ...
Hive UDAF开发之同时计算最大值与最小值
卷首语前一篇文章hive UDAF开发入门和运行过程详解(转)里面讲过UDAF的开发过程,其中说到如果要深入理解UDAF的执行,可以看看求平均值的UDF的源码本人在看完源码后,也还是没能十分理解里 ...
2、Hive UDF编程实例
Hive的UDF包括3种:UDF(User-Defined Function).UDAF(User-Defined Aggregate Function)和UDTF(User-Defined Tabl ...
FusionInsight大数据开发---Hive应用开发
Hive应用开发了解Hive的基本架构原理掌握JDBC客户端开发流程了解ODBC客户端的开发流程了解python客户端的开发流程了解Hcatalog/webHcat开发接口掌握Hive开发 ...
最强最全面的Hive SQL开发指南，超四万字全面解析
本文整体分为两部分,第一部分是简写,如果能看懂会用,就直接从此部分查,方便快捷,如果不是很理解此SQL的用法,则查看第二部分,是详细说明,当然第二部分语句也会更全一些! 第一部分: hive模糊搜索表 ...
Hive UDF，就这
摘要:Hive UDF是什么?有什么用?怎么用?什么原理?本文从UDF使用入手,简要介绍相关源码,UDF从零开始. 本文分享自华为云社区<Hive UDF,就这>,作者:汤忒撒. Hive ...

随机推荐

Centos 7下利用crontab定时执行任务详解
一 cron服务 cron服务是Linux的内置服务,但它不会开机自动启动.可以用以下命令启动和停止服务: /sbin/service crond start /sbin/service crond ...
day07 类的进阶，socket编程初识
类的静态方法: 正常: 添加静态方法: 就会变成一个函数,不会自动传self 参数,不会调用类的变量和实例的变量不在需要self 名义上归类管,但是它就是一个单独的函数,不在需要传入self,想怎 ...
20，序列化模块 json，pickle，shelve
序列化模块什么叫序列化? 将原本的字典,列表等内容转换成一个字符串的过程叫做序列化. 序列化的目的? 数据结构通过序列化转成 str. str 通过反序列化转化成数据结构. json: jso ...
Leetcode207--->课程表（逆拓扑排序）
题目: 课程表,有n个课程,[0, n-1]:在修一个课程前,有可能要修前导课程: 举例: 2, [[1,0]] 修课程1前需要先修课程0 There are a total of 2 courses ...
day04_02 知识回顾、赋值运算符
input命令输出的是字符串数字转换成字符串字符串转换成数字以上成为类型的强制转换运算符
LiveScript 流程控制、循环以及列表推导式
The LiveScript Book The LiveScript Book Generators and Yield 你可以在你的 LiveScript 代码中使用 Ecmascript ...
hihoCoder挑战赛29
多打打不同的比赛,找经验啊题目4 : 不上升序列时间限制:40000ms 单点时限:2000ms 内存限制:256MB 描述给定一个长度为 n 的非负整数序列 a[1..n]. 你每次可以花费 ...
开发者工具删除元素Delete Element
开发者工具有个很好用的功能,通过删除元素,可以查看页面哪些元素比较特殊,同时也可以排除干扰.
设计模式（二 & 三）工厂模式：概述
工厂从 coding 的角度来说,在需要创建对象的时候,直接在方法内部使用 new 关键字来创建,是非常方便的. 然而从全局的角度考虑,这样会使对象变得难以管理和控制,代码会变得非常脆弱,缺乏弹性. ...
webpack的像素转vw单位的loader插件
安装: npm i px2vw-view-loader 配置: 按以下loader格式,添加进入webpack配置文件,实现从px转换成vw,适用于移动端项目 module: { rules: [{ ...

Hive UDF开发-简介