大数据框架Hive优化方法

常规调优手段

Fetch抓取

某些情况查询不必用MapReduce计算，比如select*，可以直接读取文件

本地模式

有时数据量比较小，hive可以通过本地模式在单台机器上处理所有任务，对于小数据集，执行时间可以被明显缩短。

JVM重用　　
- 对于大量小文件，可开启JVM重用，即多个任务共用一个JVM而不用频繁开启和关闭

推测执行

对于一些bug或者资源分配不均等情况拖后腿的MapReduce任务，会推测出这样的任务并且开启备份任务，与该任务处理同一份数据，最终选用快的那个作为结果

严格模式（开启后Hive自动对某些操作做一定的限制，以免过低的查询效率）

开启后where中必须有分区过滤条件，不允许扫描所有分区
使用order by 必须有limit
限制笛卡尔积查询

count distinct 用 group by替换

空key过滤（大表join大表）

若空key不需要，则在join之前把空值的key过滤掉
如果空key需要包括在结果集里，则要把它加上一些散列数，分配到不同的reducer中防止数据倾斜

join的时候尽量将小表放大表左边（现版本Hive对其进行自动的优化。）

数据倾斜的解决

开启数据倾斜时均衡负载，同一个key分道不同的reduce处理，然后开启第二个MR根据与处理数据结果再按照groupbykey分不到reduce中完成最终的聚合操
合理设置map、reduce个数；小文件合并等常规MR优化
- 增大map数：减少切片大小
- 增大reduce个数
开启map端预先聚合，combine
小表存入内存，将reduce join转化为map join

大数据框架Hive优化方法的更多相关文章

MySQL大数据量分页查询方法及其优化
MySQL大数据量分页查询方法及其优化 ---方法1: 直接使用数据库提供的SQL语句---语句样式: MySQL中,可用如下方法: SELECT * FROM 表名称 LIMIT M,N---适 ...
MySQL 大数据量快速插入方法和语句优化
MySQL大数据量快速插入方法和语句优化是本文我们主要要介绍的内容,接下来我们就来一一介绍,希望能够让您有所收获! INSERT语句的速度插入一个记录需要的时间由下列因素组成,其中的数字表示大约比例 ...
大数据框架：Spark vs Hadoop vs Storm
大数据时代,TB级甚至PB级数据已经超过单机尺度的数据处理,分布式处理系统应运而生. 知识预热「专治不明觉厉」之“大数据”: 大数据生态圈及其技术栈: 关于大数据的四大特征(4V) 海量的数据规模( ...
大数据框架对比：Hadoop、Storm、Samza、Spark和Flink
转自:https://www.cnblogs.com/reed/p/7730329.html 今天看到一篇讲得比较清晰的框架对比,这几个框架的选择对于初学分布式运算的人来说确实有点迷茫,相信看完这篇文 ...
大数据框架对比：Hadoop、Storm、Samza、Spark和Flink——flink支持SQL，待看
简介大数据是收集.整理.处理大容量数据集,并从中获得见解所需的非传统战略和技术的总称.虽然处理数据所需的计算能力或存储容量早已超过一台计算机的上限,但这种计算类型的普遍性.规模,以及价值在最近几年才 ...
大数据平台Hive数据迁移至阿里云ODPS平台流程与问题记录
一.背景介绍最近几天,接到公司的一个将当前大数据平台数据全部迁移到阿里云ODPS平台上的任务.而申请的这个ODPS平台是属于政务内网的,因考虑到安全问题当前的大数据平台与阿里云ODPS的网络是不通的 ...
mysql/oracle jdbc大数据量插入优化
10.10.6 大数据量插入优化在很多涉及支付和金融相关的系统中,夜间会进行批处理,在批处理的一开始或最后一般需要将数据回库,因为应用和数据库通常部署在不同的服务器,而且应用所在的服务器一般也不会 ...
YARN之上的大数据框架REEF：微软出品，是否值得期待？
YARN之上的大数据框架REEF:微软出品,是否值得期待? 摘要:微软即将开源大数据框架REEF,REEF运行于Hadoop新一代资源管理器YARN的上层.对于机器学习等在数据传输.任务监控和结果 ...
老李分享：大数据框架Hadoop和Spark的异同 1
老李分享:大数据框架Hadoop和Spark的异同 poptest是国内唯一一家培养测试开发工程师的培训机构,以学员能胜任自动化测试,性能测试,测试工具开发等工作为目标.如果对课程感兴趣,请大家咨 ...

随机推荐

浅谈并查集&种类并查集&带权并查集
并查集&种类并查集&带权并查集前言: 因为是学习记录,所以知识讲解+例题推荐+练习题解都是放在一起的qvq 目录并查集基础知识并查集基础题目种类并查集知识种类并查集题目并查 ...
CSS选择器整理以及优先级介绍
一.基础选择器选择器名称描述兼容性 * 通配选择器选择所有的元素 ie6+ E 元素选择器选择指定的元素 ie6+ #idName id选择器选择id属性等于idName的元素 ie6+ ...
centos7 mysql8.0替换为5.7版本
今天按教程把mysql 的yum文件下载下来安装好,是8.0版本的,安装社区版的时候发现现在的8.0版本有1.7G那么大,就想重新安装5.7版本的,然后网上又找到一个5.7版本的yum,发现不能替换, ...
一个Window/Linux（Fedora测试平台）的CPU，磁盘，内存，PC，进程相关信息采集功能
说明:采用的是Multi-Byte Character Set,不支持Unicode. Peer2PeerData.h #ifndef _PEER_2_PEER_DATA_H #define _PEE ...
如何在Mac中配置Python虚拟环境，踩了好多坑
如何在Mac中配置Python虚拟环境 1.安装virtualenv pip3 install virtualenv 2.安装virtualenvwrapper pip3 install virtua ...
String为什么要设置成Final类型
---今天面试碰到个这样的问题:String在设计的时候为什么要设计成final的当时回答的是String功能已经很丰富了,不需要对其进行扩展,所有巴拉巴拉. 现在来正确看看为什么定义成final ...
HotSpot的启动过程
HotSpot通常会通过java.exe或javaw.exe来调用/jdk/src/share/bin/main.c文件中的main()函数来启动虚拟机,使用Eclipse进行调试时,也会调用到这个入 ...
redis源码学习之工作流程初探
目录背景环境准备下载redis源码下载Visual Studio Visual Studio打开redis源码启动过程分析调用关系图事件循环分析工作模型代码分析动画演示网络模块 ...
读《大话设计模式》——应用策略模式的"商场收银系统"(WinForm)
策略模式的结构这个模式涉及到三个角色: 环境(Context)角色:持有一个 Strategy 类的引用.抽象策略(Strategy)角色:这是一个抽象角色,通常由一个接口或抽象类实现.此角色给出所 ...
使用IDEA创建Spring boot项目，继承mybaits。并进行简单的数据库查询操作
本文讲的是使用IEDA创建Spring boot项目,对于环境安装需要自行准备,如JDK1.8.Maven 3.3.IDEA编译器.Mysql5.7等需事前准备好. 1.创建Spring boot项目 ...

大数据框架Hive优化方法

常规调优手段

数据倾斜的解决

大数据框架Hive优化方法的更多相关文章

随机推荐

热门专题