hive中笛卡尔积的优化

由于一个业务，必须要进行笛卡尔积，但是速度太慢了，left join时左表大概4万条数据，右表大概 3000多条数据，这样大概就是一亿多条数据，

这在大数据领域其实不算很大的数据量，但是hive中跑的特别慢。因为hive对笛卡尔积支持的不是很好，由于是全局的操作，所以只能在一个reduce中执行，导致速度比较慢。

然后想优化一下，尝试了一些方法。

比较直接能想到的解决方案是使用mapjoin，hive较高版本中是默认开启mapjoin的，在开启状态下会自动判断是否使用mapjoin，

我看了一下我的任务，是开启了mapjoin的

但是还是很慢，不知道是不是mapjoin没有生效。我关了自动mapjoin试了一下，发现更慢了。。。。看来mapjoin还是有用的。。。。。

所以尝试了一位网友的建议，很巧妙的一个想法：

注意使用这个最好把默认的自动mapjoin关掉，set hive.auto.convert.join=false，另外就是最好手动设置一下reduce的数量，若复制十倍，set mapred.reduce.tasks = 10，这样比较保险，但是reduce数量也不是越大越好。

修改之后从mapjoin的600秒降到了不到300秒,大任务上可能效果明显。

hive中笛卡尔积的优化的更多相关文章

hive中not in优化
比如:A,B两表,找到ID字段中,存在A表,但不存在B表的数据. A表共13w,去重后3w,B表共2W,且有索引方法一 not in,易理解,效率低,时间:1.395s )
hive中的优化问题
一.fetch抓取 fetch 抓取是指,hive中对某些情况的查询可以不必使用MapReduce计算.(1)把hive.fetch.task.conversion 设置成none,然后执行查询语句, ...
hive工作中的一些优化策略
1.hive抓取策略 hive.fetch.task.conversion = more/none more不走mr,none走mr 2.explain 显示执行计划 3.设置 ...
深入浅出数据仓库中SQL性能优化之Hive篇
转自:http://www.csdn.net/article/2015-01-13/2823530 一个Hive查询生成多个Map Reduce Job,一个Map Reduce Job又有Map,R ...
【SQL系列】深入浅出数据仓库中SQL性能优化之Hive篇
公众号:SAP Technical 本文作者:matinal 原文出处:http://www.cnblogs.com/SAPmatinal/ 原文链接:[SQL系列]深入浅出数据仓库中SQL性能优化之 ...
写好Hive 程序的若干优化技巧和实际案例
使用Hive可以高效而又快速地编写复杂的MapReduce查询逻辑.但是一个”好”的Hive程序需要对Hive运行机制有深入的了解,像理解mapreduce作业一样理解Hive QL才能写出正确.高效 ...
Hive中Join的类型和用法
关键字:Hive Join.Hive LEFT|RIGTH|FULL OUTER JOIN.Hive LEFT SEMI JOIN.Hive Cross Join Hive中除了支持和传统数据库中一样 ...
HIVE中join、semi join、outer join
补充说明 left outer join where is not null与left semi join的联系与区别:两者均可实现exists in操作,不同的是,前者允许右表的字段在select或 ...
hive查询注意及优化tips
Hive是将符合SQL语法的字符串解析生成可以在Hadoop上执行的MapReduce的工具.使用Hive尽量按照分布式计算的一些特点来设计sql,和传统关系型数据库有区别, 所以需要去掉原有关系型数 ...

随机推荐

怎么用fio测试存储性能
1 /// -rw=read(100%顺序读) -rw=write(100%顺序写) -rw=randread(100%随机读) -rw=randwrite(100%随机写), 2 ///-rw=rw ...
python应用（5）：变量类型与数据结构
如前所说,写程序如同给算法写壳,而算法就是流程,所以流程是程序的主角(但这个流程不一定要你来设计).在程序中,为了配合流程(算法)的实现,除了顺序.分支与循环语句的使用,还要借助"变量&qu ...
Golang自学系列
为什么会有这个系列? 因为我要往架构方向靠拢啊. 关于架构,其实架构的书我看了<架构整洁之道>,也有<实现驱动领域设计>.但是我感觉明显还不够,所以我在极客时间买了一个架构相关 ...
CPU：网卡老哥，你到底怎么工作的？
阿Q造访我是一个网卡,居住在一个机箱内的主板上,负责整台计算机的网络通信,要是没有我,这里就成了一个信息孤岛了,那也太无聊了- 上个周末,服务器断电维护了,这是我难得的休息时间,我准备打个盹儿眯一会 ...
第8.17节 Python __repr__方法和__str__方法、内置函数repr和str的异同点对比剖析
一. 引言记得刚开始学习Python学习字符串相关内容的时候,查了很多资料,也做了些测试,对repr和str这两个函数的返回值老猿一直没有真正理解,因为测试发现这两个函数基本上输出时一样的.到现在老 ...
FOFA链接爬虫爬取fofa spider
之前一直是用的github上别人爬取fofa的脚本,前两天用的时候只能爬取第一页的链接了,猜测是fofa修改了一部分规则(或者是我不小心删除了一部分文件导致不能正常运行了) 于是重新写了一下爬取fof ...
第 2 篇 Scrum 冲刺博客
一.站立式会议 1.站立式会议照片 2.昨天已完成的工作 ①大部分同学成功用java连接数据库 ②前端和后台的成员成功讨论并了解具体需求 3.今天计划完成的工作 ①帮助不会的同学连接数据库 ②登录识别 ...
将ACCESS 的数据库中的表的文件导出了EXCEL格式
将ACCESS 的数据库中的表的文件导出了EXCEL格式 '''' '将ACCESS数据库中的某个表的信息导出为EXCEL 文件格式 'srcfName ACCESS 数据库文件路径 'desfN ...
学习笔记：舞蹈链 Dancing Links
这是一种奇妙的算法用来解决两个问题: 精确覆盖问题:给定一个矩阵,每行是一个二进制数,选出尽量少的行,使得每一列恰好有一个 \(1\) 重复覆盖问题:给定一个矩阵,每行是一个二进制数,选出尽量少的行, ...
docker下安装svn-server
参考资料,搭建过程比较详细:https://www.jianshu.com/p/a25fac7e7811 我按照上面资料搭建后,将其重新制作成了新的镜像theorydance/svn-server:1 ...

hive中笛卡尔积的优化

hive中笛卡尔积的优化的更多相关文章

随机推荐

热门专题