hive语句嵌入python脚本（进行map和reduce，实现左外连接）

在Hive语句中使用脚本（如python和shell）进行map和reduce：利用命令transform（或者指定map和reduce），配合加入的脚本文件add file

请看：http://www.coder4.com/archives/4052

别名后面as省略也行，空格直接加，如: table app_stats t1, app_data t2;

先举一个小例子：

add file ${python_script_path}/lanch_interval_count.py;

drop table temp_lanch_interval2;

create table temp_lanch_interval2 as

select reportdate, appid,channelname, app_version, deviceid,ts,sameday

from

(

from

   (

     from

      (

        select fl.reportdate, fl.appid, 1 as app_version,fn.channelname,fl.deviceid,fl.linux_time

                       from (select reportdate, appid, app_version,deviceid,linux_time from factloglanch WHERE dt>= ? and dt<= ? ) fl

left outer join factnewuser_nodimid fn on (fl.deviceid = fn.deviceid and fl.appid = fn.appid)

      ) a

     map reportdate, appid, channelname,app_version, deviceid,linux_time using '/bin/cat'

     as reportdate, appid, channelname,app_version, deviceid,linux_time

     cluster by appid, channelname,deviceid

   ) b

   reduce reportdate, appid, channelname,app_version, deviceid,linux_time using 'lanch_interval_count.py'

          as reportdate, appid,app_version, channelname,deviceid,ts,sameday

) c

具体说明，引一篇讲的很好的博客：http://www.coder4.com/archives/4052

Hive中的TRANSFORM:使用脚本完成Map/Reduce

hive> select * from test;

OK

1       3

2       2

3       1

要输出每一列的md5值,hive中是没有这个udf,用Python的代码#!/home/tops/bin/python

#!/home/tops/bin/python

import sys

import hashlib

for line in sys.stdin:

    line = line.strip()

    arr = line.split()

    md5_arr = []

    for a in arr:

        md5_arr.append(hashlib.md5(a).hexdigest())

    print "\t".join(md5_arr)

在Hive中使用脚本（如，python和shell），首先要将他们加入：

add file /xxxx/test.py

然后，在程序中使用TRANSFORM语法调用：

SELECT

TRANSFORM (col1, col2) USING './test.py' AS (new1, new2)

FORM test;

其中，AS指定输出列，分别对应的列名。如果省略这句，Hive会将第1个tab前的结果作为key，后面其余作为value。

注意：TRANSFORM的分割符号，永远是\t。传入、传出脚本时都默认必须使用\t。没有其他分隔符

所以会出问题，在结合INSERT [OVERWRITE] table使用时，目标表的分隔符不是\t，是其他分隔符如';'，

这样就会出错。

直接使用map 和reduce命令：

SELECT MAP (…) USING ‘xx.py’是使用的语法，

MAP、REDUCE只不过是TRANSFORM的别名，Hive不保证一定会在map/reduce中调用脚本。看看官方文档是怎么说的：

Formally, MAP ... and REDUCE ... are syntactic transformations of SELECT TRANSFORM ( ... ). In

other words, they serve as comments or notes to the reader of the query.

BEWARE: Use of these keywords may be dangerous as (e.g.) typing "REDUCE" does not force a reduce phase

to occur and typing "MAP" does not force a new map phase!

所以，混用map reduce语法关键字可能会引起混淆，所以建议都用TRANSFORM。

如果不是脚本文件，而是awk、sed等系统内置命令，可以直接使用（不用add file），如：

map reportdate, appid, channelname,app_version, deviceid,linux_time using '/bin/cat'

     as reportdate, appid, channelname,app_version, deviceid,linux_time

     cluster by appid, channelname,deviceid

如果，表中有MAP，ARRAY等复杂类型，

CREATE TABLE features

(

    id BIGINT,

    norm_features MAP<STRING, FLOAT>

);

用TRANSFORM命令进行操作，就是将脚本文件的输出，设置为对应格式，Python里面就是print出对应的格式，而复杂类型就用其对应的分隔符

如，MAP类型的KV分割符。

SELECT TRANSFORM(stuff)

USING 'script'

AS (thing1 INT, thing2 MAP<STRING, FLOAT>)

hive语句嵌入python脚本（进行map和reduce，实现左外连接）的更多相关文章

在C语言中如何嵌入python脚本
最近在写配置文件时,需要使用python脚本,但脚本是一个监控作用,需要它一直驻留在linux中运行,想起C语言中能够使用deamon函数来保留一个程序一直运行,于是想到写一个deamon,并在其中嵌 ...
freeswitch嵌入python脚本
操作系统:debian8.5_x64 freeswitch 版本 : 1.6.8 python版本:2.7.9 开启python模块安装python lib库 apt-get install pyt ...
Python 中的map和reduce学习笔记
map和reduce都是Python中的内置函数 map函数接受两个参数,第一个参数是函数,第二个参数是列表,将函数依次作用于列表中的元素,并返回一个元素 reduce同样以函数和列表作为参数,区别在 ...
Python里的map、reduce、filter、lambda、列表推导式
Map函数: 原型:map(function, sequence),作用是将一个列表映射到另一个列表, 使用方法: def f(x): return x**2 l = range(1,10) map( ...
Python自学笔记-map和reduce函数（来自廖雪峰的官网Python3）
感觉廖雪峰的官网http://www.liaoxuefeng.com/里面的教程不错,所以学习一下,把需要复习的摘抄一下. 以下内容主要为了自己复习用,详细内容请登录廖雪峰的官网查看. Python内 ...
Python函数式编程——map()、reduce()
文章来源:http://www.pythoner.com/46.html 提起map和reduce想必大家并不陌生,Google公司2003年提出了一个名为MapReduce的编程模型[1],用于处理 ...
python中的map、reduce、filter、sorted函数
map.reduce.filter.sorted函数,这些函数都支持函数作为参数. map函数 map() 函数语法:map(function, iterable, ...) function -- ...
Python 中的map、reduce函数用法
#-*- coding:UTF-8 -*- #map()函数接受两个参数,一个是函数,一个是序列,map将传入的函数依次作用到序列的每个元素,并把结果作为新的list返回 def f(x): retu ...
(转)Python函数式编程——map()、reduce()
转自:http://www.jianshu.com/p/7fe3408e6048 1.map(func,seq1[,seq2...]) Python 函数式编程中的map()函数是将func作用于se ...

随机推荐

Docker 数据卷容器
如果你有一些持续更新的数据需要在容器之间共享,最好创建数据卷容器. 数据卷容器,其实就是一个正常的容器,专门用来提供数据卷供其它容器挂载的. 首先,创建一个命名的数据卷容器 dbdata: $ sud ...
设计模式一日一练：中介者模式（Mediator）
Mediator模式,用一个中介对象来封装一系列的对象交互.中介者使各对象不需要显式的相互引用,从而使其耦合松散,而且可以独立地改变它们之间的交互. 比较典型的例子是联合国.QQ群等.比如,如果中国有 ...
Hibernate使用自定义脚本替换注解或者xml文件中的自动生成表结构
本文作者:苏生米沿本文地址:http://blog.csdn.net/sushengmiyan/article/details/50534361 我们都清楚,可以使用hibernate的metada ...
Excel 、数据库一言不合就转换
Excel 与数据库对于从事相关行业的小伙伴们而言,可谓是再熟悉不过了,但是面对这两者的转换,你是否已经手忙脚乱,乃至焦头烂额? 还好,今后你将不再受此折磨.不再有日日夜夜加班导入数据的枯燥工作,不 ...
android开发常用工具箱
我的工具包资料目录我的个人总结,最近做的项目需要了的一些资料,感觉挺乱的,然后现在整理了一下. Jar包包名版本号作用下载地址 xUtils 2.6.14和3.1.26 大文件上传下载等旧 ...
分析MapReduce执行过程+统计单词数例子
MapReduce 运行的时候,会通过 Mapper 运行的任务读取 HDFS 中的数据文件,然后调用自己的方法,处理数据,最后输出.Reducer 任务会接收 Mapper 任务输出的数据,作为自己 ...
Vibrator控制手机震动
Vibrator控制手机震动效果图源码下载地址(Android Studio工程):http://download.csdn.net/detail/q4878802/9049755 添加权限 & ...
iOS注册远程推送消息证书后提示此证书签发者无效的解决办法
大熊猫猪·侯佩原创或翻译作品.欢迎转载,转载请注明出处. 如果觉得写的不好请多提意见,如果觉得不错请多多支持点赞.谢谢! hopy ;) 我们在编写关于远程推送消息的App时需要注册一个相关的证书,我 ...
linux及windows文件共享
http://blog.csdn.net/pipisorry/article/details/51812022 本文主要说明 linux和windows文件共享, windows和ubuntu互相访问 ...
【移动开发】Context类bindService()参数
bindService()是Context的一个方法,它是抽象的.函数原型的代码如下:(android 2.3.3) /** * Connect to an application service, ...

hive语句嵌入python脚本（进行map和reduce，实现左外连接）

hive语句嵌入python脚本（进行map和reduce，实现左外连接）的更多相关文章

随机推荐

热门专题