使用union all 命令之后如何对hive表格进行去重

业务场景大概是这样的，这里由两个hive表格，tableA 和 tableB, 格式内容都是这样的:

uid cate1 cate2

在hive QL中，我们知道union有着自动去重的功能，但是那是真对几行内容完全一致的情况下才可以。现在我们要进行去重的情况是根据uid进行去重。

也就是说可能存在这种情况:

1234 老师唱歌

1234 老师跳舞

对于hive表格中的这两行数据我们只想要保留其中的一行。

针对这种情况，我们做的大致思路就是，取两个表格数据的时候同时人为加上一个flag，然后使用python代码根据flag进行区分保留。

为了进行去重，我们写了两个代码，一个是取得hive数据的shell脚本，一个是处理hive数据的python脚本

vim get_data.sh

function merge(){

cat <<EOF

add file ./process.py;

    select transform(a.*) using 'python tt.py' as uid,cate1,cate2 from

    (select * from

    (select uid,cate1,cate2,"0" as flag from tableA where dt='sth1'

    union all

    select uid,cate1,cate2,"1" as flag from tableB where dt='sth2'

    )ts

    distribute by uid sort by uid,flag asc

    )a

EOF

}

对于上面这个代码，我觉得有一点需要特别注意，就是

distribute by uid sort by uid,flag asc

为了了解这行代码，我特意去看了看这里的解释参考

简单来说就是说，distribute by uid代表的就是所有uid相同的数据会被送到同一个reducer中去处理。

vim process.py

#!/bin/env python

#-*- encoding:utf-8 -*-

import os

import sys

def set_values(value):

        if value.isdigit():

                return int(value)

        else :

                return 0

lastuid=""

cate1=""

cate2=""

flag=""

for line in sys.stdin :

        line=line.replace("\n","").replace(" ","")

        v=line.split("\t")

        try :

                uid=v[0]

                if not uid.isdigit() or len(v) != 4:

                        pass

                if lastuid!="" and lastuid!=uid:

                        print (lastuid+"\t"+str(cate1)+"\t"+str(cate2))

                        lastuid=""

                        cate1=""

                        cate2=""

                        flag=""

                cate1=v[1]

                cate2=v[2]

                flag=v[3]

                lastuid=uid

        except :

                pass

print (lastuid+"\t"+str(cate1)+"\t"+str(cate2)) #这行代码是为了输出最后一行，这行代码很类似于python word count中的示例代码

使用union all 命令之后如何对hive表格进行去重的更多相关文章

【Hadoop/Hive/mapreduce】系列之使用union all 命令之后如何对hive表格使用python进行去重
业务场景大概是这样的,这里由两个hive表格,tableA 和 tableB, 格式内容都是这样的: uid cate1 cate2 在hive QL中,我们知道union有着自动去重的功能,但是那是 ...
Bugku-CTF之login2(SKCTF)（hint:union，命令执行）
Day40 login2(SKCTF) http://123.206.31.85:49165/ SKCTF{xxxxxxxxxxxxxxxxxxxxx} hint:union,命令执行
hive表格取差集
hive 求两个集合的差集业务场景是这样的,这里由两个hive表格A和B A的形式大概是这样的:uid B的形式大概是这样的:uid 我想要得到存在A中但是不存在B中的uid 具体代码如下 sele ...
使用shell脚本依据分区信息分批次的下载hive表格数据
今天的业务场景大概是这样的,我想把hive表格下载到本地文件系统,然后把这个文件传送到另一个服务器上. 但是这个业务场景一个核心问题就是说我本地机器内存有限,hive表格大概是70G,我是不可能全部下 ...
Hbase总结（一）-hbase命令,hbase安装,与Hive的区别,与传统数据库的区别,Hbase数据模型
Hbase总结(一)-hbase命令下面我们看看HBase Shell的一些基本操作命令,我列出了几个常用的HBase Shell命令,如下: 名称命令表达式创建表 create '表名称', ...
【CDN+】一些常用的Linux命令，crontab+VI+Hive（持续更新）
前言本文主要是记录下工作中可能用到的一些linux指令,当作字典查用 Crontab 基本命令 # 安装 yum -y install vixie-cron crontabs#查看状态 servic ...
Git 常用命令速查表(图文+表格)
一. Git 常用命令速查 git branch 查看本地所有分支git status 查看当前状态 git commit 提交 git branch -a 查看所有的分支git branch -r ...
spark-sql用hive表格，在spark-submit运行jar包时遇到的问题
1.编程时无法加载hive包,需要在编译好的spark(用spark-shell启动,用spark-sql能够直接访问hive表)的lib目录下,考出assembly包,为其创建一个maven的rep ...
Git 常用命令速查表(图文+表格)【转】
转自:http://www.jb51.net/article/55442.htm 一. Git 常用命令速查 git branch 查看本地所有分支git status 查看当前状态 git comm ...

随机推荐

Redis数据类型之散列类型hash
在redis中用的最多的就是hash和string类型. 问题假设有User对象以JSON序列化的形式存储到redis中, User对象有id.username.password.age.name等 ...
jquery 滑块导航菜单
带滑块的导航菜单,鼠标悬浮时,滑块会移动至鼠标位置,离开时,滑块会回到原来的位置,点击菜单之后滑块会停留在被点击菜单位置,等待下一次的鼠标悬浮事件或者点击事件,效果图: 图片效果不行,直接上代码: & ...
《ArcGIS Runtime SDK for Android开发笔记》——（7）、示例代码arcgis-runtime-samples-android的使用
1.前言学习ArcGIS Runtime SDK开发,其实最推荐的学习方式是直接看官方的教程.示例代码和帮助文档,因为官方的示例一般来说都是目前技术最新,也是最详尽的.对于ArcGIS Runtim ...
Struts2_HelloWorld_6
为 eclipse 在编写 xml配置文件时提供提示,需要加上dtd或xls的标签定义文件的路径,具体操作: 1.Window——Preferences——XML Catalog 2.添加 dtd 文 ...
C#多线程Thread
在项目中经常用到线程Thread,先做个简单记录,后面再完善下,方便以后参考.本人技术有限,如有不同见解之处,欢迎博友批评指正. 执行的线程Thread分无参数的,一个参数,多个参数的.直接看代码吧. ...
还是要精简开发呀，VS2015太大，VS2010不想装
公司电脑配置没有很好,所以对于我就是一个挑战. vs2015装上了,但是一打开就卡卡卡,基本没法办公. 公布能用记事本吧,太多不方便: Notepad++做辅助的局部修改还是很好用的,装上插件就智能提 ...
iOS获取/删除url中的参数
1.获取URL中的某个参数: - (NSString *)getParameter:(NSString *)parameter urlStr:(NSString *)url { NSError *er ...
51nod 1366 贫富差距
题目来源: TopCoder 基准时间限制:1 秒空间限制:131072 KB 分值: 40 难度:4级算法题一个国家有N个公民,标记为0,1,2,...,N-1,每个公民有一个存款额.已知每个公 ...
安卓手机下载YouTube视频的3种方法
作为全球最大的在线视频网站,YouTube上面的内容可真是应有尽有啊,从教学视频到个人手工艺品制作流程,从各种搞笑视频到电视连续集等等,包罗万象.如果你想下载YouTube视频到电脑上面的话,网上有很 ...
java ——String , StringBuffer, StringBuilder类
一.String类概述 1.String对象一旦创建就不能改变. 2.字符串常量池. 字符串常量池的特点:池中有则直接使用,池中没有则创建新的字符串常量. 例1: “==” 比较两个对象是否引用同一 ...

使用union all 命令之后如何对hive表格进行去重

使用union all 命令之后如何对hive表格进行去重的更多相关文章

随机推荐

热门专题