hive中笛卡尔积的优化

由于一个业务，必须要进行笛卡尔积，但是速度太慢了，left join时左表大概4万条数据，右表大概 3000多条数据，这样大概就是一亿多条数据，

这在大数据领域其实不算很大的数据量，但是hive中跑的特别慢。因为hive对笛卡尔积支持的不是很好，由于是全局的操作，所以只能在一个reduce中执行，导致速度比较慢。

然后想优化一下，尝试了一些方法。

比较直接能想到的解决方案是使用mapjoin，hive较高版本中是默认开启mapjoin的，在开启状态下会自动判断是否使用mapjoin，

我看了一下我的任务，是开启了mapjoin的

但是还是很慢，不知道是不是mapjoin没有生效。我关了自动mapjoin试了一下，发现更慢了。。。。看来mapjoin还是有用的。。。。。

所以尝试了一位网友的建议，很巧妙的一个想法：

注意使用这个最好把默认的自动mapjoin关掉，set hive.auto.convert.join=false，另外就是最好手动设置一下reduce的数量，若复制十倍，set mapred.reduce.tasks = 10，这样比较保险，但是reduce数量也不是越大越好。

修改之后从mapjoin的600秒降到了不到300秒,大任务上可能效果明显。

hive中笛卡尔积的优化的更多相关文章

hive中not in优化
比如:A,B两表,找到ID字段中,存在A表,但不存在B表的数据. A表共13w,去重后3w,B表共2W,且有索引方法一 not in,易理解,效率低,时间:1.395s )
hive中的优化问题
一.fetch抓取 fetch 抓取是指,hive中对某些情况的查询可以不必使用MapReduce计算.(1)把hive.fetch.task.conversion 设置成none,然后执行查询语句, ...
hive工作中的一些优化策略
1.hive抓取策略 hive.fetch.task.conversion = more/none more不走mr,none走mr 2.explain 显示执行计划 3.设置 ...
深入浅出数据仓库中SQL性能优化之Hive篇
转自:http://www.csdn.net/article/2015-01-13/2823530 一个Hive查询生成多个Map Reduce Job,一个Map Reduce Job又有Map,R ...
【SQL系列】深入浅出数据仓库中SQL性能优化之Hive篇
公众号:SAP Technical 本文作者:matinal 原文出处:http://www.cnblogs.com/SAPmatinal/ 原文链接:[SQL系列]深入浅出数据仓库中SQL性能优化之 ...
写好Hive 程序的若干优化技巧和实际案例
使用Hive可以高效而又快速地编写复杂的MapReduce查询逻辑.但是一个”好”的Hive程序需要对Hive运行机制有深入的了解,像理解mapreduce作业一样理解Hive QL才能写出正确.高效 ...
Hive中Join的类型和用法
关键字:Hive Join.Hive LEFT|RIGTH|FULL OUTER JOIN.Hive LEFT SEMI JOIN.Hive Cross Join Hive中除了支持和传统数据库中一样 ...
HIVE中join、semi join、outer join
补充说明 left outer join where is not null与left semi join的联系与区别:两者均可实现exists in操作,不同的是,前者允许右表的字段在select或 ...
hive查询注意及优化tips
Hive是将符合SQL语法的字符串解析生成可以在Hadoop上执行的MapReduce的工具.使用Hive尽量按照分布式计算的一些特点来设计sql,和传统关系型数据库有区别, 所以需要去掉原有关系型数 ...

随机推荐

python：列表的去重：两种方法的问题是：结果是没有保持原来的顺序。
列表的去重 1.使用set的特型,python的set和其他语言类似, 是一个无序不重复元素集 orgList = [1,0,3,7,7,5] #list()方法是把字符串str或元组转成数组 for ...
下载centos镜像的地址
Android Studio下的简单网页解析
Android Studio下的简单网页解析一.导入数据导入前添加依赖 implementation 'org.jsoup:jsoup:1.11.3' 使用字符串导入 String html = ...
单调栈高封装模板hia hia hia
这个单调栈应该可以了,舒服舒服 #include <bits/stdc++.h> using namespace std; #define limit (400000 + 5)//防止溢出 ...
第9.9节 Python文件随机读写定位操作方法seek
类似于C语言,Python也提供了文件位置定位的操作方法seek. 一. 语法 seek(offset, whence=SEEK_SET) 语法释义: 1)offset :将文件当前操作位置移动偏移量 ...
sql bool盲注
[CISCN2019 总决赛 Day2 Web1]Easyweb 考察: robots.txt image.php?bak文件泄露,image.php.bak可以下载别的不大行盲注 php日志挂马 ...
IDM 6.37.8 绿色特别版（4月4日更新）
Internet Download Manager,全球最流行的下载工具.Internet Download Manager (简称IDM) Windows 平台功能强大的多线程下载工具,国外非常受欢 ...
【Codeforces 1083C】Max Mex（线段树 & LCA）
Description 给定一颗 \(n\) 个顶点的树,顶点 \(i\) 有点权 \(p_i\).其中 \(p_1,p_2,\cdots, p_n\) 为一个 \(0\sim (n-1)\) 的一个 ...
pyppeteer 登录一般网站并利用 http方法获取登录页面的验证码
主函数新建浏览器,进行登录,由于验证码的识别准确率不是百分之百,需要多次尝试. async def main(self, username, pwd, url): # 定义main协程函数, log ...
tornado 网页提交内容展示内容作业
s2.py import tornado.ioloop import tornado.web text_list=[] class MainHandler(tornado.web.RequestHan ...

hive中笛卡尔积的优化

hive中笛卡尔积的优化的更多相关文章

随机推荐

热门专题