Hive UDF 实验1

项目中使用的hive版本低于0.11，无法使用hive在0.11中新加的开窗分析函数。

在项目中需要使用到row_number()函数的地方，有人写了udf来实现这个功能。

new java project, BuildPath add hadoop-core..jar and hive-exec…jar。

package myudf;

import java.util.Arrays;

import org.apache.hadoop.hive.ql.exec.UDF;

public final class rank extends UDF {

	private int counter;

	private String[] _paras = null;

	public int evaluate(String... paras) {

		if (_paras != null && Arrays.equals(_paras, paras)) {

			this.counter++;

		} else {

			this.counter = 1;

			//_paras = paras;
　　　　　　　　　　　　copy(paras);

		}

		return this.counter;

	}

　void copy(String[] paras)

　{

　　　if(null == paras){_paras=null;}

    else {_paras= new String[paras.length];

    for(int i=;i<paras.length;i++)

        　　_paras[i]=paras[i];

　　　　}

　}

}

创建辅助表的数据文件：

i=0;

while [ $i -ne 1000 ]

do

echo -e "$i" >>nums.txt;

i=$(($i +1));

done

这个数字辅助表在辅助生成数据时比较有用。

在hive中创建nums表并加载刚才创建的示例数据；

hive -e "create table nums(num int) row format delimited stored as textfile;"

hive -e "load data local inpath '/home/hadoop/data/nums.txt' overwrite into table nums;"

使用辅助表生成数据：

hive -e "create table myaccount as select 'account1' as account, 'evan' as maker, rand()*10000 as trans_amount from nums a join nums b;"

insert overwrite  table myaccount

select a.*

from myaccount a

join

(select * from nums where num <10) b;

--check file has how many blocks

insert overwrite  table myaccount

select a.*

from myaccount a order by account,maker;

这样这个表的数据大概有三百M左右了。

默认情况下使用hive跑就要使用2个maper来处理了。

把刚才的java project打包并上传到HDFS 以供hive使用,

hadoop fs -mkdir /user/hive/warehouse/udf/;

hadoop fs -copyFromLocal /home/hadoop/jar/myhiveudf.jar /user/hive/warehouse/udf/;

add jar  hdfs:/user/hive/warehouse/udf/myhiveudf.jar;

create temporary function myrank as "myudf.rank";

使用hive的udf进行数据测试：

create table myaccountrank as select account,maker,trans_amount,myrank(account,maker) as rank1 from myaccount;

按我们的数据情况来看，我们想要的结果是max(rank1)=1000000;但是实际结果却是：8348163；

原因是在执行create table的时候，使用了两个mapper去处理结果，这样相同的account 和 maker 被拆分给两个map task去处理，这样算出来的结果就是有问题的。

问题是hive udf是如何确定执行在map phase还是reduce phase呢？

udf分为udaf,udtf和普通的udf,现在看来我们普通的udf直接就在map阶段完成了，而udfa应该会在reduce阶段完成。

同样的需求，如果我们正确地去做，可以使用hive自带的row_number去做，如下：

create table myaccountrank2 as select account,maker,trans_amount,row_number() over(partition by account,maker order by account,maker ) as rank1 from myaccount;

执行的时候，显示需要两个mapper，一个reduce来处理。第一次处理的时候报了java heap space error.

set mapred.child.java.opts;  --default 200M

调整此参数至1G:set mapred.child.java.opts =  -Xmx1024m;

再次执行完成。

其他常用参数：

set mapred.max.split.size; ---256M

hive.merge.mapfiles = true; --是否和并 Map 输出文件，默认为 True

set hive.merge.mapredfiles;

hive.merge.mapredfiles = false; --是否合并 Reduce 输出文件，默认为 False

set hive.merge.size.per.task;

hive.merge.size.per.task = 256*1000*1000; --合并文件的大小

set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;

set hive.input.format;
hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat :default value

查看全部的参数可以使用命令：set –v;

网上找到的其他的hive tips，未测试，需要在实践中修正，引用如下：

1.尽量尽早地过滤数据，减少每个阶段的数据量,对于分区表要加分区，同时只选择需要使用到的字段

2.尽量原子化操作，尽量避免一个SQL包含复杂逻辑,可以使用中间表来完成复杂的逻辑
3.join操作小表要注意放在join的左边.可以指定使用map join，如果有小表。

4.如果union all的部分个数大于2，或者每个union部分数据量大，应该拆成多个insert into 语句，实际测试过程中，执行时间能提升50%

5.写SQL要先了解数据本身的特点，如果有join ,group操作的话，要注意是否会有数据倾斜

Hive UDF 实验1的更多相关文章

Hive UDF初探
1. 引言在前一篇中,解决了Hive表中复杂数据结构平铺化以导入Kylin的问题,但是平铺之后计算广告日志的曝光PV是翻倍的,因为一个用户对应于多个标签.所以,为了计算曝光PV,我们得另外创建视图. ...
hive UDF添加方式
hive UDF添加的方式 1.添加临时函数,只能在此会话中生效,退出hive自动失效 hive> add jar /home/jtdata/hiveUDF/out0.jar; Added [/ ...
DeveloperGuide Hive UDF
Creating Custom UDFs First, you need to create a new class that extends UDF, with one or more method ...
[转]HIVE UDF/UDAF/UDTF的Map Reduce代码框架模板
FROM : http://hugh-wangp.iteye.com/blog/1472371 自己写代码时候的利用到的模板 UDF步骤: 1.必须继承org.apache.hadoop.hive ...
2、Hive UDF编程实例
Hive的UDF包括3种:UDF(User-Defined Function).UDAF(User-Defined Aggregate Function)和UDTF(User-Defined Tabl ...
Hive UDF 用户自定义函数编程及使用
首先创建工程编写UDF 代码,示例如下: 1. 新建Maven项目 udf 本机Hadoop版本为2.7.7, Hive版本为1.2.2,所以选择对应版本的jar ,其它版本也不影响编译. 2. po ...
Hive UDF开发-简介
Hive进行UDF开发十分简单,此处所说UDF为Temporary的function,所以需要hive版本在0.4.0以上才可以. Hive的UDF开发只需要重构UDF类的evaluate函数即可.例 ...
【转】HIVE UDF UDAF UDTF 区别使用
原博文出自于:http://blog.csdn.net/longzilong216/article/details/23921235(暂时) 感谢! 自己写代码时候的利用到的模板 UDF步骤: 1 ...
HIVE udf实例
本例中udf来自<hive编程指南>其中13章自定义函数中一个例子. 按照步骤,第一步,建立一个项目,创建 GenericUDFNvl 类. /** * 不能接受第一个参数为null的情况 ...

随机推荐

Sql server脏读、更新丢失、不可重复读、幻象读问题及解决方案
1.脏读:一个事务读到另外一个事务还没有提交的数据.解决方法:把事务隔离级别调整到READ COMMITTED,即SET TRAN ISOLATION LEVEL READ COMMITTED.这时我 ...
div模拟实现select下拉框
<!DOCTYPE html> <html> <head> <title></title> <style type="tex ...
简单介绍.Net3.0 中跨线程访问控件
这两天用WPF做一个项目的UI部分时,发现跨线程地访问了UI控件,自然地报异常了.当时找了半天也没在控件中找到InvokeRequired属性和Invoke方法,郁闷之极.....最后发现在.net3 ...
JavaMail入门第四篇接收邮件
上一篇JavaMail入门第三篇发送邮件中,我们学会了如何用JavaMail API提供的Transport类发送邮件,同样,JavaMail API中也提供了一些专门的类来对邮件的接收进行相关的操 ...
poolboy的坑
poolboy是Erlang中运用非常广泛的进程池库,它有很多优点,使用简单,在很多项目中都能看到它的身影.不过,它也有一些坑,使用时候需要注意.(本文对poolboy的分析基于1.5.1版本) wo ...
多准则决策模型-TOPSIS评价方法-源码
? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 ...
两种设计模式(1)==>>“简单工厂”
我们以做一个计算器为例,给大家介绍简单工厂的应用: 效果: 这里我们使用继承 ,虚方法, 简单工厂的设计模式来完成首先,我们除了搭好窗体外,我们应该把我们的一些类准备好: 1.计算的父类Calcu ...
css权重是什么
css权重是什么? 概述 css Specificity中文一般译为css优先级.css权重.相比"权重","优先级"更好理解,mozilla官方中文文档就翻译 ...
javascript宿主对象之window.location
location属性是一个用来存储当前页面URL信息的对象. 下面我们通过循环来列出location对象的完整属性列表: for(var i in location){ if(typeof locat ...
log4net 日志框架的配置
log4net 日志框架的配置——静态文件(一) 添加对log4net程序集的引用选择程序集文件添加引用即可,需要注意的是需要添加相应程序版本的程序集,如果你的应用是基于.netFramework2 ...

Hive UDF 实验1

Hive UDF 实验1的更多相关文章

随机推荐

热门专题