hive 学习系列四（用户自定义函数）

如果入参是简单的数据类型，直接继承UDF，实现一个或者多个evaluate 方法。

具体流程如下：

1，实现大写字符转换成小写字符的UDF

package com.example.hive.udf;

import org.apache.hadoop.hive.ql.exec.UDF;

import org.apache.hadoop.io.Text;

public class Lower extends UDF {

    public Text evaluate(final Text s) {

        if (s == null) {

            return null;

        }

        return new Text(s.toString().toLowerCase());

    }

}

2，打包成jar 包。

建立maven 项目，使用maven 打包。

这里打包成的jar 包是，hiveudf-1.0.0.jar

3，上传到hdfs 路径上。

[root@master /opt]# hadoop fs -mkdir -p /user/hive/udf

18/06/07 09:41:09 WARN util.NativeCodeLoader: Unable

to load native-hadoop library for your platform... using builtin-java classes where applicable

[root@master /opt]# hadoop fs -put hiveudf-1.0.0.jar  /user/hive/udf

18/06/07 09:41:24 WARN util.NativeCodeLoader: Unable to

load native-hadoop library for your platform... using builtin-java classes where applicable

[root@master /opt]# hadoop fs -ls /user/hive/udf

18/06/07 09:41:47 WARN util.NativeCodeLoader: Unable to load native-hadoop library

 for your platform... using builtin-java classes where applicable

Found 1 items

-rw-r--r--   3 root supergroup       8020 2018-06-07 09:41 /user/hive/udf/hiveudf-1.0.0.jar

[root@master /opt]#

4, 在Hive 命令行里面创建函数。

add jar hdfs:////udf/hiveudf-1.0.0.jar;

create temporary function lower as 'com.example.hive.udf.Lower';

hive> delete jar  hiveudf-1.0.0.jar;

hive> list jars

    > ;

hive> add jar hdfs:///user/hive/udf/hiveudf-1.0.0.jar

    > ;

Added [/tmp/416cfcca-9ea0-4eaf-9e54-8154b440f3a9_resources/hiveudf-1.0.0.jar] to class path

Added resources: [hdfs:///user/hive/udf/hiveudf-1.0.0.jar]

hive> list jars;

/tmp/416cfcca-9ea0-4eaf-9e54-8154b440f3a9_resources/hiveudf-1.0.0.jar

hive> create temporary function lower as 'com.example.hive.udf.Lower';

OK

Time taken: 0.594 seconds

hive>

5，然后就可以用这个注册的函数了。

hive> select lower('AbcDEfg')

    > ;

OK

abcdefg

Time taken: 1.718 seconds, Fetched: 1 row(s)

hive>

至于入参是复杂数据类型，比如Array 等，可以继承GenericUDF

1，同样的，先写一个类，继承GenericUDF，

此自定义函数实现的是，把一个点，根据经纬度，转换成一个字符串。

package com.zbra.udf;

import org.apache.hadoop.hive.ql.exec.UDFArgumentException;

import org.apache.hadoop.hive.ql.exec.UDFArgumentLengthException;

import org.apache.hadoop.hive.ql.metadata.HiveException;

import org.apache.hadoop.hive.ql.udf.generic.GenericUDF;

import org.apache.hadoop.hive.serde2.objectinspector.ObjectInspector;

import org.apache.hadoop.hive.serde2.objectinspector.primitive.DoubleObjectInspector;

import org.apache.hadoop.hive.serde2.objectinspector.primitive.PrimitiveObjectInspectorFactory;

/**

 * 针对复杂数据

 */

public class GeoUdf extends GenericUDF {

    private DoubleObjectInspector doubleObjectInspector01;

    private DoubleObjectInspector doubleObjectInspector02;

    public ObjectInspector initialize(ObjectInspector[] objectInspectors) throws UDFArgumentException {

        if (objectInspectors.length != 2) {

            throw new UDFArgumentLengthException("arrayContainsExample only takes 2 arguments: String,  String");

        }

        // 1. 检查是否接收到正确的参数类型

        ObjectInspector a = objectInspectors[0];

        ObjectInspector b = objectInspectors[1];

        if (!(a instanceof DoubleObjectInspector) || !(b instanceof DoubleObjectInspector)) {

            throw new UDFArgumentException("first argument must be a double, second argument must be a double");

        }

        this.doubleObjectInspector01 = (DoubleObjectInspector) a;

        this.doubleObjectInspector02 = (DoubleObjectInspector) b;

        return PrimitiveObjectInspectorFactory.javaStringObjectInspector;

    }

    public Object evaluate(DeferredObject[] deferredObjects) throws HiveException {

        Double lat = this.doubleObjectInspector01.get(deferredObjects[0].get());

        Double lng = this.doubleObjectInspector02.get(deferredObjects[1].get());

        if (lat == null || lng == null) {

            return new String("");

        }

        return new GeoHash(lat, lng).getGeoHashBase32();

    }

    public String getDisplayString(String[] strings) {

        if (strings.length == 2) {

            return "geo_hash(" + strings[0] + ", " + strings[1] + ")";

        } else {

            return "传入的参数不对...";

        }

    }

}

2，打包成jar 包

本文中打包成hiveudf-1.0.0.jar

3，同样的上传到hdfs 路径中

[root@master /opt]# hadoop fs -mkdir -p /user/hive/udf

18/06/07 09:41:09 WARN util.NativeCodeLoader: Unable

to load native-hadoop library for your platform... using builtin-java classes where applicable

[root@master /opt]# hadoop fs -put hiveudf-1.0.0.jar  /user/hive/udf

18/06/07 09:41:24 WARN util.NativeCodeLoader: Unable to

load native-hadoop library for your platform... using builtin-java classes where applicable

[root@master /opt]# hadoop fs -ls /user/hive/udf

18/06/07 09:41:47 WARN util.NativeCodeLoader: Unable to load native-hadoop library

 for your platform... using builtin-java classes where applicable

Found 1 items

-rw-r--r--   3 root supergroup       8020 2018-06-07 09:41 /user/hive/udf/hiveudf-1.0.0.jar

[root@master /opt]#

4, 创建自定义函数。

hive> list jars;

/tmp/3794df3a-687a-45dd-93d3-d6a712c43e85_resources/hiveudf-1.0.0.jar

hive> delete jar /tmp/3794df3a-687a-45dd-93d3-d6a712c43e85_resources/hiveudf-1.0.0.jar

    > ;

Deleted [/tmp/3794df3a-687a-45dd-93d3-d6a712c43e85_resources/hiveudf-1.0.0.jar] from class path

hive> add jar hdfs:///user/hive/udf/hiveudf-1.0.0.jar;

Added [/tmp/3794df3a-687a-45dd-93d3-d6a712c43e85_resources/hiveudf-1.0.0.jar] to class path

Added resources: [hdfs:///user/hive/udf/hiveudf-1.0.0.jar]

hive> create temporary function geohash as 'com.zbra.udf.GeoUdf';

OK

Time taken: 0.145 seconds

5, 使用如下:

hive> select geohash(12.0d, 123.0d);

OK

wdpkqbtc

Time taken: 0.8 seconds, Fetched: 1 row(s)

hive> select geohash(cast('12' as Double), cast('123' as Double));

OK

wdpkqbtc

Time taken: 0.733 seconds, Fetched: 1 row(s)

hive>

hive 学习系列四（用户自定义函数）的更多相关文章

scrapy爬虫学习系列四：portia的学习入门
系列文章列表: scrapy爬虫学习系列一:scrapy爬虫环境的准备: http://www.cnblogs.com/zhaojiedi1992/p/zhaojiedi_python_00 ...
DocX开源WORD操作组件的学习系列四
DocX学习系列 DocX开源WORD操作组件的学习系列一 : http://www.cnblogs.com/zhaojiedi1992/p/zhaojiedi_sharp_001_docx1.htm ...
.net reactor 学习系列(四)---.net reactor应用场景
原文:.net reactor 学习系列(四)---.net reactor应用场景前面已经学习了.net reactor一些基础知识,现在准备学习下实际的应用场景,只是简单的保护和 ...
opencv-python教程学习系列4-opencv绘图函数
前言 opencv-python教程学习系列记录学习python-opencv过程的点滴,本文主要介绍opencv绘图函数,坚持学习,共同进步. 系列教程参照OpenCV-Python中文教程: 系统 ...
Hive学习系列博客
原 Hive作业优化原 Hive学习六:HIVE日志分析(用户画像) 原 Hive学习五--日志案例分析原 Hive学习三原 Hive学习二原 Hive学习一博客来源,https://blo ...
Spark SQL概念学习系列之用户自定义函数
不多说,直接上干货! 用户自定义函数注册udf 我们可以使用Spark 支持的编程语言编写好函数,然后通过Spark SQL 内建的方法传递进来,非常便捷地注册我们自己的UDF 在Scala 和Py ...
Identity Server4学习系列四之用户名密码获得访问令牌
1.简介 Identity Server4支持用户名密码模式,允许调用客户端使用用户名密码来获得访问Api资源(遵循Auth 2.0协议)的Access Token,MS可能考虑兼容老的系统,实现了这 ...
hive 学习系列之七 hive 常用数据清洗函数
1,case when 的利用,清洗诸如评分等的内容,用例如下. case when new.comment_grade = '五星商户' then 50 when new.comment_grade ...
Vue学习系列(四)——理解生命周期和钩子
前言在上一篇中,我们对平时进行vue开发中遇到的常用指令进行归类说明讲解,大概已经学会了怎么去实现数据绑定,以及实现动态的实现数据展示功能,运用指令,可以更好更快的进行开发.而在这一篇中,我们将通过 ...

随机推荐

spring----spring中的注解@service等的作用
service 是有用的相当于 xml配置中得bean id = service 也可以不指定不指定相当于 bean id = com. service.service 就是这个类的全限定名 ...
Spyder更改默认工作路径已经文件路径
打开spyder,选择菜单栏中的Tools--->Preferences--->Current working directory 然后选择最下面的单选按钮The following ...
Java程序员面试题集2
51.类ExampleA 继承Exception,类ExampleB 继承ExampleA. 有如下代码片断: try{ throw new ExampleB("b") }catc ...
Hello World, S/4HANA for Customer Management 1.0
SAP CRM的前世今生在我之前的微信公众号文章 SAP的这三款CRM解决方案,您能区分清楚么我曾经提到过我作为成都SAP研究院CRM产品开发团队的一员工作过一段时间. 我向在SAP德国总部工作的德 ...
MovieReview—Ghost in the shell(攻壳机动队95版)
About Future And is she really human? She’s just so something new A waking lithium flower ...
给Retext进行配置：语法高亮、数学公式、自定义样式
由于转到了Ubuntu下,本来在Windows平台下使用的一直是MarkdownPro2,而且进行了破解,十分好用.转到Ubuntu下后,MarkdownPro2不能够使用了,找了下Linux平台中的 ...
OC @protocol(声明协议 )
@protocol Study; int main(int argc, const char * argv[]) { @autoreleasepool { Student *stu = [[[Stud ...
Android——HelloWorld
今天正式加入实验室做安卓,看上去无从下手,让我想到当年学ACM一样,但是也一直搞过来了,现在又是一个新的起点. 废话不多说~~~ Hello World 安装: JDK SDK Eclipse 参考: ...
HDU 1757 A Simple Math Problem 【矩阵经典7 构造矩阵递推式】
任意门:http://acm.hdu.edu.cn/showproblem.php?pid=1757 A Simple Math Problem Time Limit: 3000/1000 MS (J ...
sublime3插件安装方法
sublime3插件安装方法:http://blog.csdn.net/u011627980/article/details/52171886

hive 学习系列四（用户自定义函数）

如果入参是简单的数据类型，直接继承UDF，实现一个或者多个evaluate 方法。

1，实现大写字符转换成小写字符的UDF

2，打包成jar 包。

3，上传到hdfs 路径上。

4, 在Hive 命令行里面创建函数。

5，然后就可以用这个注册的函数了。

至于入参是复杂数据类型，比如Array 等， 可以继承GenericUDF

1，同样的，先写一个类，继承GenericUDF，

2，打包成jar 包

3，同样的上传到hdfs 路径中

4, 创建自定义函数。

5, 使用如下:

hive 学习系列四（用户自定义函数）的更多相关文章

随机推荐

热门专题

至于入参是复杂数据类型，比如Array 等，可以继承GenericUDF