060 关于Hive的调优（本身，sql，mapreduce）

1.关于hive的优化

　　-》大表拆分小表
　　　　-》过滤字段
　　　　-》按字段分类存放

　　-》外部表与分区表
　　　　-》外部表：删除时只删除元数据信息，不删除数据文件
　　　　　　　　　　多人使用多个外部表操作同一份数据文件
　　　　-》分区表：hive中的数据库，表，分区来说都是文件夹
　　　　　　　　　　提高了检索效率
　　　　　　-》手动创建
　　　　　　-》动态分区
　　　　-》外部表+分区表

　　-》数据的存储
　　　　-》存储格式：列式存储

　　　　-》压缩

2.SQL的优化
　　　　-》后 join 先 filter

3.mapreduce的优化

　　-》并行处理

　　　　job1&job2 job3
　　　　hive.exec.parallel=true
　　　　hive.exec.parallel.thread.number=8

　　-》JVM重用
　　　　mapreduce.job.jvm.numtasks=$number

　　　　因为每次的jvm开启与关闭都是需要许多的资源

　　-》推测执行
　　　　mapreduce.map.speculative=true
　　　　mapreduce.reduce.speculative=true
　　　　hive.mapred.reduce.tasks.speculative.execution=true

　　-》map和reduce的个数
　　　　-》map个数：不好人为的设置
　　　　-》hdfs块的大小：dfs.blocks.size=128M
　　　　　　分片的大小：minisize/maxsize
　　　　　　mapreduce.input.fileinputformat.split.minisize

　　　　　　-》企业情景
　　　　　　　　-》文件大，少 200M 100个 map默认按块处理
　　　　　　　　-》文件小，多 40M 400个 map按分片

　　-》reudce个数
　　　　0.95-1.75*node*容器的个数

　　-》本地模式local:在当前节点运行整个任务
　　　　<property>
　　　　　　<name>hive.exec.mode.local.auto</name>
　　　　　　<value>true</value>
　　　　　　<description> Let Hive determine whether to run in local mode automatically </description>
　　　　</property>
　　　　条件：
　　　　　　1、job的输入数据的大小不能超过默认参数
　　　　　　　　inputbytes.size=128M
　　　　　　2、job处理的map task的个数
　　　　　　　　至多4个

　　　　　　3.reduce task的个数

　　　　　　　　至多1个。

060 关于Hive的调优（本身，sql，mapreduce）的更多相关文章

11g新特性-自动sql调优(Automatic SQL Tuning)
11g新特性-自动sql调优(Automatic SQL Tuning) 在Oracle 10g中,引进了自动sql调优特性.此外,ADDM也会监控捕获高负载的sql语句. 在Oracle 11g中, ...
《高性能SQL调优精要与案例解析》一书谈主流关系库SQL调优（SQL TUNING或SQL优化）核心机制之——索引（index）
继<高性能SQL调优精要与案例解析>一书谈SQL调优(SQL TUNING或SQL优化),我们今天就谈谈各主流关系库中,占据SQL调优技术和工作半壁江山的.最重要的核心机制之一——索引(i ...
《高性能SQL调优精要与案例解析》一书谈SQL调优（SQL TUNING或SQL优化）学习
<高性能SQL调优精要与案例解析>一书上市发售以来,很多热心读者就该书内容及一些具体问题提出了疑问,因读者众多外加本人日常工作的繁忙 ,在这里就SQL调优学习进行讨论并对热点问题统一作答. ...
十八般武艺玩转GaussDB(DWS)性能调优：SQL改写
摘要:本文将系统介绍在GaussDB(DWS)系统中影响性能的坏味道SQL及SQL模式,帮助大家能够从原理层面尽快识别这些坏味道SQL,在调优过程中及时发现问题,进行整改. 数据库的应用中,充斥着坏味 ...
Hive（十）Hive性能调优总结
一.Fetch抓取 1.理论分析 Fetch抓取是指,Hive中对某些情况的查询可以不必使用MapReduce计算.例如:SELECT * FROM employees;在这种情况下,Hive可以简单 ...
Hive参数调优
调优 Hive提供三种可以改变环境变量的方法,分别是: (1)修改${HIVE_HOME}/conf/hive-site.xml配置文件: 所有的默认配置都在${HIVE_HOME}/conf/hiv ...
hive的调优
调优 1 Fetch抓取(Hive可以避免进行MapReduce) Hive中对某些情况的查询可以不必使用MapReduce计算.例如:SELECT * FROM employees;在这种情况下,H ...
Oracle中SQL调优（SQL TUNING）之最权威获取SQL执行计划大全
该文档为根据相关资料整理.总结而成,主要讲解Oracle数据库中,获取SQL语句执行计划的最权威.最正确的方法.步骤,此外,还详细说明了每种方法中可选项的意义及使用方法,以方便大家和自己日常工作中查阅 ...
AX2012 ERP “系统慢”调优---跟踪SQL执行，优化代码
对于用户来说,系统是:慢的,难用的.你看xxx,多好用,多快,多人性化. 对于AX ERP系统也不例外,调优是必须的,调优一般分为几种: 系统性监测针对瓶劲环节提升,如:用户--应用服务器--DB-- ...

随机推荐

DjangoAdmin自定义过滤器
class UserIDFilter(admin.SimpleListFilter): # 自定义用户查询过滤器 title = _('关联用户') parameter_name = 'user_id ...
【文件】使用word的xml模板生成.doc文件
一.编辑模板替换地方以变量标记如“案件编号”可写成{caseNo} template.xml 二.准备数据以HashMap封装数据,原理是替换模板中的变量三.替换操作选择输出位置:writeP ...
mysql 开源~canal安装解析
一简介:今天咱们来聊聊canal的一些东西二原理: canal模拟mysql slave的交互协议,伪装自己为mysql slave,向mysql master发送dump协议 mysql ma ...
java Comparable 和 Cloneable接口
Comparable接口定义了compareTo方法,用于比较对象. 例如,在JavaAPI中,Integer.BigInteger.String以及Date类定义如下 Cloneable接口 Clo ...
【ARTS】01_03_左耳听风-20181126~1202
ARTS: Algrothm: leetcode算法题目 Review: 阅读并且点评一篇英文技术文章 Tip/Techni: 学习一个技术技巧 Share: 分享一篇有观点和思考的技术文章 Algo ...
python内置模块之unittest测试（五）
系列文章 python模块分析之random(一) python模块分析之hashlib加密(二) python模块分析之typing(三) python模块分析之logging日志(四) pytho ...
【转】OpenCV—imread读取数据为空
之前遇到一个很郁闷的问题,因为从用OpenCV2.3.1改成OpenCV2.4.4,开始改用Mat和imread来代替Iplimage和cvLoadImage,出了点小问题:imread读入数据总是为 ...
(常用)time,datetime,random,shutil(zipfile,tarfile),sys模块
a.time模块import time 时间分为三种形式1.时间戳 (时间秒数的表达形式, 从1970年开始)print(time.time())start_time=time.time()time. ...
zabbix系列(四)Zabbix3.0.4添加对Nginx服务的监控
Zabbix3.0.4添加对Nginx服务的监控通过Nginx的http_stub_status_module模块提供的状态信息来监控,所以在Agent端需要配置Nginx状态获取的脚本,和添加ke ...
02-第一个JavaScript代码
在页面中,我们可以在body标签中放入<script type=”text/javascript”></script>标签对儿,<script type=”text/ja ...

060 关于Hive的调优（本身，sql，mapreduce）

060 关于Hive的调优（本身，sql，mapreduce）的更多相关文章

随机推荐

热门专题