Hive性能优化【严格模式、join优化、Map-Side聚合、JVM重用】
一.严格模式
通过设置以下参数开启严格模式:
>set hive.mapred.mode=strict;【默认为nonstrict非严格模式】
查询限制:
1.对于分区表,必须添加where查询条件来对分区字段进行条件过滤。
2.order by语句必须包含limit输出限制。
3.限制执行笛卡尔积的查询。
二.Hive排序
1.order by:对于查询结果做全排序只允许有一个reduce处理,当数据量较大时,应慎用。严格模式下必须结合limit来使用。
2.sort by:对于单个reduce的数据进行排序。
3.distribute by:分区排序,经常和sort by结合使用。
4.cluster by:相当于sort by + distribute by【cluster by不能通过asc,desc的方法指定排序规则,可通过distribute by column sort by column asc|desc的方式】
三.Hive Join
1.join计算时,将小表放在join的左边。
2.map join,在Map端完成join,实现方式:
2.1sql方式,在sql语句中添加mapjoin标记【mapjoin hint】
语法:select /*+MAPJOIN(smallTable) */ smallTable.key,bigTable.value from smallTable JOIN btTable ON smallTable.key = bigTable.key;
2.2开启自动mapjoin,通过设置一下配置启动自动的mapjoin
set hive.auto.convert.join = true;【该参数为ture时,Hive自动对左边的表统计量,如果是小表就加入内存,即对小表用mapjoin】
相关参数配置:
>hive.mapjoin.smalltable.filesize;【大小表判断阈值,表的大小小于该值则为小表,加载到内存中】
>hive.ignore.mapjoin.hint;【默认值为true,是否忽略mapjoin hint即mapjoin标记】
>hive.auto.convert.join.noconditionaltask;【默认值为true,将普通的join转化为普通的mapjoin时,是否将多个mapjoin转化为一个mapjoin】
>hive.auto.convert.join.noconditionaltask.size;【将多个mapjoin转化为一个mapjoin时,列表的最大值】
四.Map-Side聚合
通过设置以下参数开启在map端的聚合:set hive.map.aggr=true;
相关参数配置:
>hive.groupby.mapaggr.checkinterval:map端group by执行聚合时处理的数据条数【默认100000】
>hive.map.aggr.hash.min.reduction:进行聚合的最小比例【预先对100000条数据做聚合,若聚合之后的数据量/100000的值大于该配置【默认0.5】则不聚合】
>hive.map.aggr.hash.percentmemeory:map端聚合使用的内存的最大值
>hive.map.aggr.hash.force.flush.memory.threshold:map端做聚合操作时hash表的最大可以容量,大于该值则会触发flush
>hive.groupby.skewindata:是否对groupby产生的数据倾斜做优化,默认为false
五.控制hive中map和reduce的数量
map数量相关参数:
>mapred.max.split.size:一个split的最大值,即每个map处理文件的最大值
>maprd.min.split.size.per.node:一个节点上split的最小值
>mapred.min.split.size.per.rack:一个机架上split的最小值
reduce数量相关参数:
>mapred.reduce.tasks:强制指定reduce任务的数量
>hive.exec.reducers.bytes.per.reducer:每个reduce任务处理的数据量
>hive.exec.reducers.max:每个任务最大的reduce数
六.JVM重用
适用场景:
1.小文件个数过多
2.task个数过多
通过执行:set mapred.job.reuse.jvm.num.tasks=n;来设置task插槽个数
缺点:
设置开启后,task插槽会一直占用资源,不论是否有task,直到所有的task即整个job执行完成后才会释放所有的task插槽资源!
Hive性能优化【严格模式、join优化、Map-Side聚合、JVM重用】的更多相关文章
- 061 hive中的三种join与数据倾斜
一:hive中的三种join 1.map join 应用场景:小表join大表 一:设置mapjoin的方式: )如果有一张表是小表,小表将自动执行map join. 默认是true. <pro ...
- hive的join优化
“国际大学生节”又称“世界大学生节”.“世界学生日”.“国际学生日”.1946年,世界各国学生代表于布拉格召开全世界学生大会,宣布把每年的11月17日定为“世界大学生节”,以加强全世界大学生的团结和友 ...
- Hive性能优化
1.概述 继续<那些年使用Hive踩过的坑>一文中的剩余部分,本篇博客赘述了在工作中总结Hive的常用优化手段和在工作中使用Hive出现的问题.下面开始本篇文章的优化介绍. 2.介绍 首先 ...
- Hive性能优化上的一些总结
https://blog.csdn.net/mrlevo520/article/details/76339075 1.介绍 首先,我们来看看Hadoop的计算框架特性,在此特性下会衍生哪些问题? 数据 ...
- Hive性能优化(全面)
1.介绍 首先,我们来看看Hadoop的计算框架特性,在此特性下会衍生哪些问题? 数据量大不是问题,数据倾斜是个问题. jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次 ...
- Hive Join优化
在阐述Hive Join具体的优化方法之前,首先看一下Hive Join的几个重要特点,在实际使用时也可以利用下列特点做相应优化: 1. 只支持等值连接 2. 底层会将写的HQL语句转换为MapRed ...
- Hive性能分析和优化方法
Hive性能分析和优化方法 http://wenku.baidu.com/link?url=LVrnj-mD0OB69-eUH-0b2LGzc2SN76hjLVsGfCdYjV8ogyyN-BSja5 ...
- Hive优化-大表join大表优化
Hive优化-大表join大表优化 5.大表join大表优化 如果Hive优化实战2中mapjoin中小表dim_seller很大呢?比如超过了1GB大小?这种就是大表join大表的问题.首先引入一个 ...
- Hive的压缩存储和简单优化
一.Hive的压缩和存储 1,MapReduce支持的压缩编码 压缩格式 工具 算法 文件扩展名 是否可切分 对应的编码/解码器 DEFLATE 无 DEFLATE .deflate 否 org.ap ...
随机推荐
- WPF,回车即是tab
正在做的WPF项目,客户需要在文本框里输入后按回车即跳到下一个框框,和tab一样的 上网搜索了下解决方案:如下: 在文本框外围 的grid加上KeyDown事件,代码里写上: /// <summ ...
- C# 动态执行JS
有时候需要,在程序中灵活的嵌入自定义的计算逻辑,使用C#加载JS脚本形式可以实现: // 添加引用 using Microsoft.JScript; string jsStr = "var ...
- springboot+mybatisplus+druid数据库
1.添加maven依赖 <dependency> <groupId>com.baomidou</groupId> <artifactId>mybatis ...
- 经常开车的朋友必备 它是你的GPS
经常开车的朋友肯定知道,每天都要查下当天的限行尾号,还有哪条路拥堵.还有,最不想发生的事儿就是车子快没油的时候,附近查不到加油站. 现在用这款小程序,可以轻松解决上述这些头痛的事情.扫描下面二维码,进 ...
- MSSQL中 float转换为varchar 变成科学计数法解决方案
在系统初始化的时候,没有在数值型的数据前面加上 单引号,导致进入数据库后都变成float型我们需要做以下转换就能将数据变为 varchar类型 declare @a float //定义一个float ...
- Docker实践之04-操作容器
目录 一.查看容器列表 二.启动容器 三.终止容器 四.重启容器 五.后台运行容器 六.获取容器输出信息 七.进入容器 八.导出和导入容器 九.删除容器 一.查看容器列表 可以使用命令docker c ...
- C# COM组的开发以及调用
一.用C#编写一个COM组件 1. 打开Visual Studio2008,[文件]->[新建]->[项目] 2. 项目类型=Visual C#,模版=类库,名称= ...
- EF Code First 快速创建
以.net framework为例,包括数据库管理类库和启动项目两个项目文件 数据库管理类库 新建一个类库,名称为XXX.Database 管理nuget包,引入库EntityFramework 6. ...
- 快速修改Windows系统密码命令
因现场需要,要对30多台虚拟机进行密码修改.正常修改方式为进入控制面板--用户账户--修改密码,输入原始密码.2遍新密码(一遍用于密码确认)完成密码修改. 这种方式操作较为繁琐,我们可以直接通过命令的 ...
- ssh连接的原理
ssh是linux系统中的一个远程连接工具,也是一种网络协议,通过各种加密算法达到安全连接的效果.若能使用ssh连接到另外一台机器上,我们就可以认为是安全的.本节主要介绍的是ssh连接的原理以及ssh ...