2020-09-11：Hive的优化策略有哪些？

福哥答案2020-09-11：

[Hive调优及优化的12种方式](https://zhuanlan.zhihu.com/p/80718835?utm_source=qq)
1.请慎重使用COUNT(DISTINCT col)。可以考虑使用Group By 或者 ROW_NUMBER() OVER(PARTITION BY col)方式代替COUNT(DISTINCT col)。
2.小文件会造成资源的多度占用以及影响查询效率。在数据源头HDFS中控制小文件产生的个数。
3.请慎重使用SELECT *。在查询数据表时，指定所需的待查字段名，而非使用 * 号。
4.不要在表关联后面加WHERE条件。采用谓词下推的技术，提早进行过滤有可能减少必须在数据库分区之间传递的数据量。
5.处理掉字段中带有空值的数据。
6.设置并行执行任务数。
7.设置合理的Reducer个数。
8.JVM重用。
9.为什么任务执行的时候只有一个reduce？避免使用全局排序，可以使用sort by进行局部排序。使用GROUP BY进行统计，不会进行全局排序。
10.选择使用Tez引擎。
11.选择使用本地模式。
12.选择使用严格模式。

[Hive 任务优化策略-整合，持续更新。](https://zhuanlan.zhihu.com/p/90953307)
1、好的模型设计事半功倍。
2、解决数据倾斜问题。
3、减少 job 数。
4、设置合理的 MapReduce 的 task 数，能有效提升性能。(比如，10w+级别的计算，用 160个 reduce，那是相当的浪费，1 个足够) 。
5、了解数据分布，自己动手解决数据倾斜问题是个不错的选择。这是通用的算法优化，但算法优化有时不能适应特定业务背景，开发人员了解业务，了解数据，可以通过业务逻辑精确有效的解决数据倾斜问题。
6、数据量较大的情况下，慎用 count(distinct)，group by 容易产生倾斜问题。
7、对小文件进行合并，是行之有效的提高调度效率的方法，假如所有的作业设置合理的文件数，对云梯的整体调度效率也会产生积极的正向影响。
8、优化时把握整体，单个作业最优不如整体最优。

2020-09-11：Hive的优化策略有哪些？的更多相关文章

Hive整体优化策略
一整体架构优化现在hive的整体框架如下,计算引擎不仅仅支持Map/Reduce,并且还支持Tez.Spark等.根据不同的计算引擎又可以使用不同的资源调度和存储系统. 整体架构优化点: 1 根据 ...
Hive(六)hive执行过程实例分析与hive优化策略
一.Hive 执行过程实例分析 1.join 对于 join 操作:SELECT pv.pageid, u.age FROM page_view pv JOIN user u ON (pv.useri ...
hive工作中的一些优化策略
1.hive抓取策略 hive.fetch.task.conversion = more/none more不走mr,none走mr 2.explain 显示执行计划 3.设置 ...
hive作业的优化策略
Mapreduce自身的特点: 1.IO和网络负载大:优化策略:减少IO和网络负载. 2.内存负载不大.优化策略:增大内存使用率: 3.CPU负载不大.优化策略:增大CPU使用率: (hive的优化应 ...
Hive优化策略
hive优化目标在有限的资源下,运行效率高. 常见问题数据倾斜.Map数设置.Reduce数设置等 hive运行查看运行计划 explain [extended] hql 例子 explain ...
Hive任务优化（1）
一个Hive查询生成多个Map Reduce Job,一个Map Reduce Job又有Map,Reduce,Spill,Shuffle,Sort等多个阶段,所以针对Hive查询的优化可以大致分为针 ...
Hive性能优化
1.概述继续<那些年使用Hive踩过的坑>一文中的剩余部分,本篇博客赘述了在工作中总结Hive的常用优化手段和在工作中使用Hive出现的问题.下面开始本篇文章的优化介绍. 2.介绍首先 ...
Spark SQL概念学习系列之Spark SQL 优化策略（五）
查询优化是传统数据库中最为重要的一环,这项技术在传统数据库中已经很成熟.除了查询优化, Spark SQL 在存储上也进行了优化,从以下几点查看 Spark SQL 的一些优化策略. (1)内存列式存 ...
深入浅出Hive企业级架构优化、Hive Sql优化、压缩和分布式缓存(企业Hadoop应用核心产品)
一.本课程是怎么样的一门课程(全面介绍) 1.1.课程的背景作为企业Hadoop应用的核心产品,Hive承载着FaceBook.淘宝等大佬 95%以上的离线统计,很多企业里的离线统 ...
mysql 30大优化策略
mysql 30大优化策略 1.应尽量避免在 where 子句中使用!=或<>操作符,否则将引擎放弃使用索引而进行全表扫描. 2.对查询进行优化,应尽量避免全表扫描,首先应考虑在 wher ...

随机推荐

Python第3章流程控制语句（第2次作业）
实例01 判断输入的是不是黄蓉所说的数 ①使用内置的print()函数输出"今有物不知其数,三三数之剩二,五五数之剩三,七七数之剩二,问几何?",代码如下: ②使用input()函 ...
自定义DOM事件函数封装
非原生DOM触发,个性化定制的自定义事件. currentTarget(DOM对象):要触发事件的元素节点. type(字符串):触发的事件类型,例如"keydown". bubb ...
linux 打包各种后缀的命令
01-.tar格式解包:[*******]$ tar xvf FileName.tar打包:[*******]$ tar cvf FileName.tar DirName(注:tar是打包,不是压缩! ...
Spring-设计模式
1.1开闭原则开闭原则(open-closed principle,OCP)是指一个软件实体(如类,模块和函数)应该对扩展开放,对修改关闭.所谓的开闭,也正是对扩展和修改两个行为的一个原则. 强调用 ...
顺应潮流,解放双手,让ChatGPT不废话直接帮忙编写可融入业务可运行的程序代码(Python3.10实现)
众所周知,ChatGPT可以帮助研发人员编写或者Debug程序代码,但是在执行过程中,ChatGPT会将程序代码的一些相关文字解释和代码段混合着返回,如此,研发人员还需要自己进行编辑和粘贴操作,效率上 ...
使用声网 SDK 构建 Piloteer 助盲服务平台的最佳实践
前言在今年声网主办的「RTE2022 编程挑战赛」中,数支队伍经过一个多月的努力开发,很多优秀的作品最终突出重围,斩获大奖.本文由RTE2022编程挑战赛获奖者之一李新春撰写,他主要围绕获奖作品「P ...
10 个杀手级的 Python 自动化脚本
重复性任务总是耗时且无聊,想一想你想要一张一张地裁剪 100 张照片或 Fetch API.纠正拼写和语法等工作,所有这些任务都很耗时,为什么不自动化它们呢?在今天的文章中,我将与你分享 10 个 P ...
java数组使用、Arrays类使用、排序方法
数组使用数组的基本使用: package charpter4; public class ArrayDemo2 { public static void main(String[] args) { ...
集成Health Kit时因证书问题出现错误码50063的解决方案
一.问题描述及操作应用集成Health Kit SDK后,在华为手机上进行登录授权时,返回错误码50063. 1.查看相关错误码.'50063'在Health Kit错误码中的描述是"安装 ...
对比 elasticsearch 和 mysql
最近阅读了elasticsearch的官方文档,学习了它的很多特性,发现elasticsearch和mysql有很多地方类似,也有很多地方不同.这里做一个对比,帮助大家加深对elasticsearch ...

2020-09-11：Hive的优化策略有哪些？

2020-09-11：Hive的优化策略有哪些？的更多相关文章

随机推荐

热门专题