1. 引言

在前一篇中，解决了Hive表中复杂数据结构平铺化以导入Kylin的问题，但是平铺之后计算广告日志的曝光PV是翻倍的，因为一个用户对应于多个标签。所以，为了计算曝光PV，我们得另外创建视图。

分析需求：

每个DSP上的曝光PV，标签覆盖的曝光PV；
累计曝光PV，累计标签覆盖曝光PV

相当于cube(dsp, tag) + measure(pv)，HiveQL如下：

select dsp, tag, count(*) as pv

from ad_view

where view = 'view' and day_time between '2016-04-18' and '2016-04-24'

group by dsp, tag with cube;

现在问题来了：如何将原始表中的tags array<struct<tag:string,label:string,src:string>> 转换成有标签（taged）、无标签（empty）呢？显而易见的办法，为字段tags写一个UDF来判断是否有标签。

2. 实战

基本介绍

user-defined function (UDF)包括：

对于字段进行转换操作的函数，如round()、abs()、concat()等；
聚集函数user-defined aggregate functions (UDAFs)，比如sum()、avg()等；
表生成函数user-defined table generating functions (UDTFs)，生成多列或多行数据，比如explode()、inline()等

UDTF的使用在与select语句使用时受到了限制，比如，不能与其他的列组合出现：

hive> SELECT name, explode(subordinates) FROM employees;

FAILED: Error in semantic analysis: UDTF's are not supported outside the SELECT clause, nor nested in expressions

Hive提供LATERAL VIEW关键字，对UDTF的输入进行包装（wrap），如此可以达到列组合的效果：

hive> SELECT name, sub

> FROM employees

> LATERAL VIEW explode(subordinates) subView AS sub;

UDF与GenericUDF

org.apache.hadoop.hive.ql.exec.UDF是字段转换操作的基类，提供对于简单数据类型进行转换操作。在实现转换操作时，需要重写evaluate()方法。较UDF抽象类，org.apache.hadoop.hive.ql.udf.generic.GenericUDF提供更为复杂的处理方法类，包括三个方法：

initialize(ObjectInspector[] arguments)，检查输入参数的类型、确定返回值的类型；
evaluate(DeferredObject[] arguments)，字段转换操作的实现函数，其返回值的类型与initialize方法中所指定的返回类型保持一致；
getDisplayString(String[] children)，给Hadoop任务展示debug信息的。

判断tags array<struct<tag:string,label:string,src:string>>是否为空标签（EMPTY）的UDF实现如下：

@Description(name = "checkTag",

        value = "_FUNC_(array<struct>) - from the input array of struct "+

                "returns the TAGED or EMPTY(no tag).",

        extended = "Example:\n"

                + " > SELECT _FUNC_(tags_array) FROM src;")

public class CheckTag extends GenericUDF {

  private ListObjectInspector listOI;

  public ObjectInspector initialize(ObjectInspector[] arguments) throws UDFArgumentException {

    if (arguments.length != 1) {

      throw new UDFArgumentLengthException("only takes 1 arguments: List<T>");

    }

    ObjectInspector a = arguments[0];

    if (!(a instanceof ListObjectInspector)) {

      throw new UDFArgumentException("first argument must be a list / array");

    }

    this.listOI = (ListObjectInspector) a;

    if(!(listOI.getListElementObjectInspector() instanceof StructObjectInspector)) {

      throw new UDFArgumentException("first argument must be a list of struct");

    }

    return PrimitiveObjectInspectorFactory.javaStringObjectInspector;

  }

  public Object evaluate(DeferredObject[] arguments) throws HiveException {

    if(listOI == null || listOI.getListLength(arguments[0].get()) == 0) {

      return "null_field";

    }

    StructObjectInspector structOI = (StructObjectInspector) listOI.getListElementObjectInspector();

    String tag = structOI.getStructFieldData(listOI.getListElement(arguments[0].get(), 0),

            structOI.getStructFieldRef("tag")).toString();

    if (listOI.getListLength(arguments[0].get()) == 1 && tag.equals("EMPTY")) {

      return "EMPTY";

    }

    return "TAGED";

  }

  public String getDisplayString(String[] children) {

    return "check tag whether is empty";

  }

}

还需添加依赖：

<dependency>

  <groupId>org.apache.hive</groupId>

  <artifactId>hive-exec</artifactId>

  <version>0.14.0</version>

  <scope>provided</scope>

</dependency>

<dependency>

  <groupId>org.apache.hadoop</groupId>

  <artifactId>hadoop-common</artifactId>

  <version>2.5.0-cdh5.3.2</version>

  <scope>provided</scope>

</dependency>

编译后打成jar包，放在HDFS上，然后add jar即可调用该UDF了：

add jar hdfs://path/to/udf-1.0-SNAPSHOT.jar;

create temporary function checktag as 'com.hive.udf.CheckTag';

create view if not exists yooshu_view

partitioned on (day_time)

as

select uid, dsp, view, click, checktag(tags) as tag, day_time

from ad_base;

Hive UDF初探的更多相关文章

Hive UDF 实验1
项目中使用的hive版本低于0.11,无法使用hive在0.11中新加的开窗分析函数. 在项目中需要使用到row_number()函数的地方,有人写了udf来实现这个功能. new java proj ...
hive UDF添加方式
hive UDF添加的方式 1.添加临时函数,只能在此会话中生效,退出hive自动失效 hive> add jar /home/jtdata/hiveUDF/out0.jar; Added [/ ...
DeveloperGuide Hive UDF
Creating Custom UDFs First, you need to create a new class that extends UDF, with one or more method ...
[转]HIVE UDF/UDAF/UDTF的Map Reduce代码框架模板
FROM : http://hugh-wangp.iteye.com/blog/1472371 自己写代码时候的利用到的模板 UDF步骤: 1.必须继承org.apache.hadoop.hive ...
2、Hive UDF编程实例
Hive的UDF包括3种:UDF(User-Defined Function).UDAF(User-Defined Aggregate Function)和UDTF(User-Defined Tabl ...
Hive UDF 用户自定义函数编程及使用
首先创建工程编写UDF 代码,示例如下: 1. 新建Maven项目 udf 本机Hadoop版本为2.7.7, Hive版本为1.2.2,所以选择对应版本的jar ,其它版本也不影响编译. 2. po ...
Hive UDF开发-简介
Hive进行UDF开发十分简单,此处所说UDF为Temporary的function,所以需要hive版本在0.4.0以上才可以. Hive的UDF开发只需要重构UDF类的evaluate函数即可.例 ...
【转】HIVE UDF UDAF UDTF 区别使用
原博文出自于:http://blog.csdn.net/longzilong216/article/details/23921235(暂时) 感谢! 自己写代码时候的利用到的模板 UDF步骤: 1 ...
HIVE udf实例
本例中udf来自<hive编程指南>其中13章自定义函数中一个例子. 按照步骤,第一步,建立一个项目,创建 GenericUDFNvl 类. /** * 不能接受第一个参数为null的情况 ...

随机推荐

linux 实践2.2 编译模块
1. 理解模块原理 linux模块是一些可以作为独立程序来编译的函数和数据类型的集合.之所以提供模块机制,是因为Linux本身是一个单内核.单内核由于所有内容都集成在一起,效率很高,但可扩展性和可维 ...
TaintDroid剖析之Native方法级污点跟踪分析
1.Native方法的污点传播在前两篇文章中我们详细分析了TaintDroid对DVM栈帧的修改,以及它是如何在修改之后的栈帧中实现DVM变量级污点跟踪的.现在我们继续分析其第二个粒度的污点跟踪—— ...
一步步学习javascript基础篇（3）：Object、Function等引用类型
我们在<一步步学习javascript基础篇(1):基本概念>中简单的介绍了五种基本数据类型Undefined.Null.Boolean.Number和String.今天我们主要介绍下复杂 ...
.NET Core中遇到奇怪的线程死锁问题：内存与线程数不停地增长
一个 asp.net core 站点,之前运行在Linux 服务器上,运行一段时间后有时站点会挂掉,在日志中记录很多“EMFILE too many open files”的错误: Microsoft ...
求两点之间最短路径-Dijkstra算法
Dijkstra算法 1.定义概览 Dijkstra(迪杰斯特拉)算法是典型的单源最短路径算法,用于计算一个节点到其他所有节点的最短路径.主要特点是以起始点为中心向外层层扩展,直到扩展到终点为止.D ...
Javascript本质第二篇：执行上下文
在上一篇文章<Javascript本质第一篇:核心概念>中,对Javascript执行上下文做了解释,但是这些都是基于Javascript标准中对执行上下文的定义,也就是说理论上的东西,本 ...
使用ViewPager+Fragment实现选项卡切换效果
实现效果本实例主要实现用ViewPage和Fragment实现选项卡切换效果,选项卡个数为3个,点击选项卡或滑动屏幕会切换Fragment并实现选项卡下方下边框条跟随移动效果. 本程序用androi ...
Atitit wsdl的原理attilax总结
Atitit wsdl的原理attilax总结 1.1. 在 W3C 的 WSDL 发展史1 1.2. 获取wsdl,可能需要url后面加wsdl,也可能直接url1 1.3. Wsdl的作用2 1. ...
Hibernate增删查改语句
我用的数据库是MySQL,实体类叫Product create table Product ( proId integer not null auto_increment, proName varch ...
PHP 数据访问
如何连接 1.造连接对象 $db= new MySQLi("localhost","root","123","mydb" ...