hive 面试题转载

转自：http://blog.csdn.net/ningguixin/article/details/12852051

有一张很大的表：TRLOG
该表大概有2T左右
TRLOG：
CREATE TABLE TRLOG
(PLATFORM string,
USER_ID int,
CLICK_TIME string,
CLICK_URL string)
row format delimited
fields terminated by '\t';

数据：
PLATFORM USER_ID CLICK_TIME CLICK_URL
WEB 12332321 2013-03-21 13:48:31.324 /home/
WEB 12332321 2013-03-21 13:48:32.954 /selectcat/er/
WEB 12332321 2013-03-21 13:48:46.365 /er/viewad/12.html
WEB 12332321 2013-03-21 13:48:53.651 /er/viewad/13.html
WEB 12332321 2013-03-21 13:49:13.435 /er/viewad/24.html
WEB 12332321 2013-03-21 13:49:35.876 /selectcat/che/
WEB 12332321 2013-03-21 13:49:56.398 /che/viewad/93.html
WEB 12332321 2013-03-21 13:50:03.143 /che/viewad/10.html
WEB 12332321 2013-03-21 13:50:34.265 /home/
WAP 32483923 2013-03-21 23:58:41.123 /m/home/
WAP 32483923 2013-03-21 23:59:16.123 /m/selectcat/fang/
WAP 32483923 2013-03-21 23:59:45.123 /m/fang/33.html
WAP 32483923 2013-03-22 00:00:23.984 /m/fang/54.html
WAP 32483923 2013-03-22 00:00:54.043 /m/selectcat/er/
WAP 32483923 2013-03-22 00:01:16.576 /m/er/49.html
…… …… …… ……

需要把上述数据处理为如下结构的表ALLOG：
CREATE TABLE ALLOG
(PLATFORM string,
USER_ID int,
SEQ int,
FROM_URL string,
TO_URL string)
row format delimited
fields terminated by '\t';

整理后的数据结构：
PLATFORM USER_ID SEQ FROM_URL TO_URL
WEB 12332321 1 NULL /home/
WEB 12332321 2 /home/ /selectcat/er/
WEB 12332321 3 /selectcat/er/ /er/viewad/12.html
WEB 12332321 4 /er/viewad/12.html /er/viewad/13.html
WEB 12332321 5 /er/viewad/13.html /er/viewad/24.html
WEB 12332321 6 /er/viewad/24.html /selectcat/che/
WEB 12332321 7 /selectcat/che/ /che/viewad/93.html
WEB 12332321 8 /che/viewad/93.html /che/viewad/10.html
WEB 12332321 9 /che/viewad/10.html /home/
WAP 32483923 1 NULL /m/home/
WAP 32483923 2 /m/home/ /m/selectcat/fang/
WAP 32483923 3 /m/selectcat/fang/ /m/fang/33.html
WAP 32483923 4 /m/fang/33.html /m/fang/54.html
WAP 32483923 5 /m/fang/54.html /m/selectcat/er/
WAP 32483923 6 /m/selectcat/er/ /m/er/49.html
…… …… …… ……
PLATFORM和USER_ID还是代表平台和用户ID；SEQ字段代表用户按时间排序后的访问顺序，FROM_URL和TO_URL分别代表用户从哪一页跳转到哪一页。对于某个平台上某个用户的第一条访问记录，其FROM_URL是NULL（空值）。

面试官说需要用两种办法做出来：
1、实现一个能加速上述处理过程的Hive Generic UDF，并给出使用此UDF实现ETL过程的Hive SQL

2、实现基于纯Hive SQL的ETL过程，从TRLOG表生成ALLOG表；（结果是一套SQL）

答案：

UDF

package org.apache.hadoop.hive.udf;

public class RowNumber extends org.apache.hadoop.hive.ql.exec.UDF {

    private static int MAX_VALUE = 50;

    private static String comparedColumn[] = new String[MAX_VALUE];

    private static int rowNum = 1;

    public int evaluate(Object... args) {

        String columnValue[] = new String[args.length];

        for (int i = 0; i < args.length; i++)

            columnValue[i] = args[i].toString();

        if (rowNum == 1)

        {

            for (int i = 0; i < columnValue.length; i++)

                comparedColumn[i] = columnValue[i];

        }

        for (int i = 0; i < columnValue.length; i++)

        {

            if (!comparedColumn[i].equals(columnValue[i]))

            {

                for (int j = 0; j < columnValue.length; j++)

                {

                    comparedColumn[j] = columnValue[j];

                }

                rowNum = 1;

                return rowNum++;

            }

        }

        return rowNum++;

    }

    public static void main(String[] args) {

    	RowNumber aRowNumber = new RowNumber();

    	System.out.println(aRowNumber.evaluate("12332321"));

    	System.out.println(aRowNumber.evaluate("12332321"));

    	System.out.println(aRowNumber.evaluate("12332321"));

    	System.out.println(aRowNumber.evaluate("12332321"));

    	System.out.println(aRowNumber.evaluate("12332321"));

	}

}

INSERT OVERWRITE TABLE ALLOG
SELECT t1.platform,t1.user_id,RowNumber(t1.user_id)seq,t2.click_url FROM_URL,t1.click_url TO_URL FROM
(select *,RowNumber(user_id)seq from trlog)t1
LEFT OUTER JOIN
(select *,RowNumber(user_id)seq from trlog)t2
on t1.user_id = t2.user_id and t1.seq=t2.seq+1;

INSERT OVERWRITE TABLE ALLOG
SELECT t1.platform,t1.user_id,t1.seq,t2.click_url FROM_URL,t1.click_url TO_URL FROM
(SELECT platform,user_id,click_time,click_url,count(1) seq FROM (SELECT a.*,b.click_time click_time1,b.click_url click_url2 FROM trlog a left outer join trlog b on a.user_id = b.user_id)t WHERE click_time>=click_time1 GROUP BY platform,user_id,click_time,click_url)t1
LEFT OUTER JOIN
(SELECT platform,user_id,click_time,click_url,count(1) seq FROM (SELECT a.*,b.click_time click_time1,b.click_url click_url2 FROM trlog a left outer join trlog b on a.user_id = b.user_id)t WHERE click_time>=click_time1 GROUP BY platform,user_id,click_time,click_url )t2
on t1.user_id = t2.user_id and t1.seq = t2.seq + 1;

使用到的知识点为：

left outer join 左表全部显示，右表只显示满足条件的

3、对于以上的文本处理我们可以很快的联想到shell中awk的处理

利用awk 中数组的相关操作，方法如下

cat url.txt |awk -F\\t 'BEGIN{OFS="\t"}{a[$1]++;b[a[$1]]=$4;print a[$1],$1,$2,$3,b[a[$1]-1],$4}'

　　其中OFS为输出的字段的定界符，这里利用了2个数组，a和b

输出为：

1	WEB	12332321	2013-03-21 13:48:31.324		/home

2	WEB	12332321	2013-03-21 13:48:32.954	/home	/selectcat/er

3	WEB	12332321	2013-03-21 13:48:46.365	/selectcat/er	/er/viewad/12.html

4	WEB	12332321	2013-03-21 13:48:53.651	/er/viewad/12.html	/er/viewad/13.html

5	WEB	12332321	2013-03-21 13:49:13.435	/er/viewad/13.html	/er/viewad/24.html

6	WEB	12332321	2013-03-21 13:49:35.876	/er/viewad/24.html	/selectcat/che/

7	WEB	12332321	2013-03-21 13:49:56.398	/selectcat/che/	/che/viewad/93.html

8	WEB	12332321	2013-03-21 13:50:03.143	/che/viewad/93.html	/che/viewad/10.html

9	WEB	12332321	2013-03-21 13:50:34.265	/che/viewad/10.html	/home/

1	WAP	32483923	2013-03-21 23:58:41.123		/m/home/

2	WAP	32483923	2013-03-21 23:59:16.123	/m/home/	/m/selectcat/fang/

3	WAP	32483923	2013-03-21 23:59:45.123	/m/selectcat/fang/	/m/fang/33.html

4	WAP	32483923	2013-03-22 00:00:23.984	/m/fang/33.html	/m/fang/54.html

5	WAP	32483923	2013-03-22 00:00:54.043	/m/fang/54.html	/m/selectcat/er/

6	WAP	32483923	2013-03-22 00:01:16.576	/m/selectcat/er/	/m/er/49.html

hive 面试题转载的更多相关文章

Hive 笔试题
Hive 笔试题考试时间: 姓名:____________ 考试成绩:____________ 考试时长:180 分钟注意事项: 1. 自主答题,不能参考任何除本试卷外的其它资料. 2. 总成绩共 ...
Java面试题[转载]
目录转载简历篇请自我介绍请介绍项目基础篇基本功面向对象的特征 final, finally, finalize 的区别 int 和 Integer 有什么区别重载和重写的区别抽象类和 ...
hive面试题(免费拿走不谢)
Hive 最常见的几个面试题 1.hive 的使用, 内外部表的区别,分区作用, UDF 和 Hive 优化(1)hive 使用:仓库.工具(2)hive 内部表:加载数据到 hive 所在的 hdf ...
hive面试题
1. Hive数据倾斜原因: key分布不均匀业务数据本身的特性 SQL语句造成数据倾斜解决方法hive设置hive.map.aggr=true和hive.groupby.skewindata=tr ...
50 道 Java 线程面试题(转载自牛客网）
下面是 Java 线程相关的热门面试题,你可以用它来好好准备面试. 1) 什么是线程? 线程是操作系统能够进行运算调度的最小单位,它被包含在进程之中,是进程中的实际运作单位.程序员可以通过它进行多处理 ...
Hive记录-Hive介绍（转载）
1.Hive是什么? Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的 SQL 查询功能,将类 SQL 语句转换为 MapReduce 任务执 ...
.net面试题[转载]
1.简述private.protected.public.internal修饰符的访问权限. private:私有成员,在类的内部才可以访问. protected:保护成员,该类内部和继承类中可以访问 ...
一道hive面试题:explode map字段
需要找到每个学生最好的课程和成绩,最差的课程和成绩,以及各科的平均分文本数据如下: name scores张三语文:,数学:,英语:,历史:,政治:,物理:,化学:,地理:,生物: 李四语文:, ...
转：hive面试题
有一张很大的表:TRLOG该表大概有2T左右TRLOG:CREATE TABLE TRLOG(PLATFORM string,USER_ID int,CLICK_TIME string,CLICK_U ...

随机推荐

J2ee 巴巴网站制作（一）
用户模块图:
SQL Server ->> Msg 7411, Level 16, State 1, Line 1 -- Server 'XXXX' is not configured for RPC.
关于问题,有两个相关的服务器选项. exec sp_serveroption @server='CIA-SH-SVR-SIS', @optname='rpc', @optvalue='true' ex ...
常用加密算法的Java实现总结
常用加密算法的Java实现(一) ——单向加密算法MD5和SHA 1.Java的安全体系架构 1.1 Java的安全体系架构介绍 Java中为安全框架提供类和接口.JDK 安全 A ...
!! 2.对十份论文和报告中的关于OpenCV和Android NDK开发的总结
http://hujiaweibujidao.github.io/blog/2013/11/18/android-ndk-and-opencv-development-3/ Android Ndk a ...
python中的 @ 修饰符
今天学习廖老师的python教程,碰到了修饰符'@',不太了解,查看了下官方文档. 简单的整理下: @dec2 @dec1 def func(arg1, arg2, ...): pass 等价于 de ...
CString和string
CString和string(一) 概述 string和CString均是字符串模板类,string为标准模板类(STL)定义的字符串类,已经纳入C++标准之中: CString(typedef CS ...
iconv字符编码转换
转自 http://blog.csdn.net/langresser_king/article/details/7459367 iconv(http://www.gnu.org/software/li ...
【Todo】各种排序整理
今天面试别人,问到堆排序.发现自己都记不太清楚了. 堆排序从小到大排序,要用到的是,最大堆. 过程是最大堆,堆顶的最大的元素,调换到数组最后,依次进行.最后达到从小到大的效果. 归并排序可以看这个 ...
linux下从源代码安装git
之所以有这样的需求,是因为部分预安装的git版本太低,很多功能没有并且安全性存在问题. 比如git submodule add xxx@host:yyy.git必须在父repo的root目录安装,而新 ...
浅谈 Scala 中下划线的用途
Scala 作为一门函数式编程语言,对习惯了指令式编程语言的同学来说,会不大习惯,这里除了思维方式之外,还有语法层面的,比如 underscore(下划线)就会出现在多种场合,令初学者相当疑惑,今天就 ...

hive 面试题 转载

hive 面试题 转载的更多相关文章

随机推荐

热门专题

hive 面试题转载

hive 面试题转载的更多相关文章