HIVE的transform函数的使用

Hive的TRANSFORM关键字提供了在SQL中调用自写脚本的功能，适合实现Hive中没有的功能又不想写UDF的情况。例如，按日期统计每天出现的uid数，通常用如下的SQL

SELECT date, count(uid)

FROM xxx

GROUP BY date

但是，如果我想在reduce阶段对每天的uid形成一个列表，进行排序并输出，这在Hive中没有现成的功能。那么，可以自写脚本实现该功能，并用TRANSFORM关键字调用

SELECT TRANSFORM(date, uid)

FROM xxx

CLUSTER BY date

这是一个类似streaming的功能，但是可以更方便的访问Hive中的数据，也可以把SQL语句和自写脚本整合在一起运行。

简单分析官网上的一个例子

FROM (

    FROM pv_users

    SELECT TRANSFORM(pv_users.userid, pv_users.date)

    USING 'map_script'

    AS dt, uid

    CLUSTER BY dt

) map_output

INSERT OVERWRITE TABLE pv_users_reduced

SELECT TRANSFORM(map_output.dt, map_output.uid)

USING 'reduce_script'

AS date, count;

这段代码的大致工作流程描述如下：

map_script作为mapper，reduce_script作为reducer。将pv_users表中的userid, date两列作为mapper的输入字段，处理后的输出的前两个字段分别命名为dt, uid，并按照dt字段作partition和sort送给reduce阶段处理。reducer的输入字段为dt和uid，输出处理后的前两个字段，并命名为date, count，写入到pv_users_reduced表中。

这里有几个细节：

mapper和reducer用到的script可以是任何可执行文件。注意如果用到的是本地文件，应当在语句开始前用ADD FILE或ADD FILES将文件加入进来
mapper和reducer的输入输出都是以TAB为分隔符
如果USING ‘script’语句后面没有AS，则Hive默认script的输出中第一个TAB之前的字段为key，后面的部分全部为value。若指定了AS，则严格按照AS后面的字段数输出，例如AS dt, uid，则输出前两个字段并忽略后面的字段。此外，AS语句可以指定数据类型，如AS (date STRING, count INT)。默认都是string类型。
CLUSTER BY关键字是DISTRIBUTE BY和SORT BY的简写，这两者可以认为对应与Hadoop的partition和sort过程。如果partition和sort的key是不同的，可以使用DISTRIBUTE BY和SORT BY分别指定。
MAP和REDUCE关键字是SELECT TRANSFORM关键字的别名，原文中给出了上面等价代码
因此，原文中特别提醒，MAP并没有强制产生一个map过程的作用，REDUCE同理。只是为了阅读更清晰。

FROM (

    FROM pv_users

    MAP pv_users.userid, pv_users.date

    USING 'map_script'

    AS dt, uid

    CLUSTER BY dt

) map_output

INSERT OVERWRITE TABLE pv_users_reduced

REDUCE map_output.dt, map_output.uid

USING 'reduce_script'

AS date, count;

转自：https://blog.csdn.net/u013385925/article/details/78780798

HIVE的transform函数的使用的更多相关文章

Hive的Transform功能
Hive的TRANSFORM关键字提供了在SQL中调用自写脚本的功能,适合实现Hive中没有的功能又不想写UDF的情况.例如,按日期统计每天出现的uid数,通常用如下的SQL SELECT date, ...
Hive自己定义函数的使用——useragent解析
想要从日志数据中分析一下操作系统.浏览器.版本号使用情况.可是hive中的函数不能直接解析useragent,于是能够写一个UDF来解析.useragent用于表示用户的当前操作系统,浏览器版本号信息 ...
sklearn中各算法类的fit，fit_transform和transform函数
在使用PCA和NFC中有三个函数fit,fit_transform,transform区分不清各自的功能.通过测试,勉强了解各自的不同,在这里做一些笔记. 1.fit_transform是fit和tr ...
HIVE扩展GIS函数
按项目日益增长的gis数据量要求,需要在大数据集群中部署HIVE的扩展函数. Apache Hive是一个建立在Hadoop架构之上的数据仓库.它能够提供数据的精炼,查询和分析.([引 ...
c++中transform()函数和find()函数的使用方法。
1.transform函数的使用 transform在指定的范围内应用于给定的操作,并将结果存储在指定的另一个范围内.transform函数包含在<algorithm>头文件中. 以下是s ...
hive的row_number()函数
hive的row_number()函数功能用于分组,比方说依照uuid分组组内可以依照某个属性排序,比方说依照uuid分组,组内按照imei排序语法为row_number() over (pa ...
Hadoop生态圈-hive编写自定义函数
Hadoop生态圈-hive编写自定义函数作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任.
Hadoop生态圈-Hive的自定义函数之UDTF（User-Defined Table-Generating Functions）
Hadoop生态圈-Hive的自定义函数之UDTF(User-Defined Table-Generating Functions) 作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任.
Hadoop生态圈-Hive的自定义函数之UDAF（User-Defined Aggregation Function）
Hadoop生态圈-Hive的自定义函数之UDAF(User-Defined Aggregation Function) 作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任.

随机推荐

linux安装配置redis
redis是支持linux的,所以linux安装redis非常简单,按照官网的提示操作即可. 下载 $ wget http://download.redis.io/releases/redis-3.2 ...
在XC2440上实现使用U盘自动更新系统的uboot
转:http://blog.chinaunix.net/uid-22030783-id-3347599.html 此版本uboot在XC2440_uboot_V1.3版本上修改得来,是为我们的一个大客 ...
永远不要去B网（Bittrex.com）
永远不要去Bittrex.com,没见过这么垃圾的服务! 注册之后基本资料就不能修改了,结果不能提现,充值却是可以充值,就跟今年初禁比特币时的垃圾火币网一样,只进不出,去他奶奶的! 随后网站提示可以高 ...
iOS:2015年07月最新苹果IOS上架App Store商店步骤
苹果官方在2015年05-06月开发者中心进行了改版,网上的APP Store上架大部分都不一样了,自己研究总结一下,一个最新的上架教程以备后用. 原文地址:http://www.16css.com/ ...
iOS：UIView、UIControl、UIButton、UILabel简单的属性和方法常识
常见属性和方法一 .UIVIew 常见属性 1.frame 位置和尺寸(以父控件的左上角为原点(0,0)) 2.center 中点 (以父控件的左上角为原点(0,0)) 3.bounds 位置和尺寸 ...
linux下使用C++ Json库
安装Json库 1.下载JsonCpphttp://sourceforge.net/projects/jsoncpp/files/ 2.下载sconshttp://sourceforge.net/pr ...
dcmtk dcmmkdir 使用帮助
例子: dcmmkdir --recurse --input-directory C:\TEMP DICOM --output-file C:\TEMP\DCMDIR --recurse 递归 -- ...
[python爬虫] Selenium常见元素定位方法和操作的学习介绍(转载)
转载地址:[python爬虫] Selenium常见元素定位方法和操作的学习介绍一. 定位元素方法官网地址:http://selenium-python.readthedocs.org/locat ...
将本地jar包添加到maven中
将需要引入的jar包拷贝到maven项目的WEB-INF/lib中在pom.xml中配置如下: <dependency> <groupId>com.xxxxx.union&l ...
PHP #2003 - 服务器没有响应怎么办
1 出现这个问题的时候,首先可以肯定Apache服务器没有问题,因为如果Apache服务器有问题,则根本登不上phpMyadmin,如果你能登上localhost则说明Apache服务器没问题. 2 ...

HIVE的transform函数的使用

HIVE的transform函数的使用的更多相关文章

随机推荐

热门专题