[Hive_8] Hive 设计优化
0. 说明
在 Hive 中,数据库是一个文件夹,表也是文件夹
partition,是一个字段,是文件
前提:在 Hive 进行 where 子句查询的时候,会将条件语句和全表进行比对,搜索出所需的数据,性能极差,partition 就是为了避免全表扫描
bucket(桶表)
避免多级分区导致分区目录过多,以指定字段进行 hash 分桶
新型数据结构,以文件段的形式在分区表内部按照指定字段进行分隔
重要特性:优化 join 的速度
1. 分区
1.1 创建非分区表 user_nopar
create table user_nopar
(id int, name string, age int, province string, city string)
row format delimited
fields terminated by '\t';
1.2 加载数据
load data local inpath '/home/centos/files/user_nopar.txt' into table user_nopar;
1.3 创建分区表 user_par
create table user_par(id int, name string, age int)
partitioned by(province string, city string)
row format delimited
fields terminated by '\t';
1.4 手动添加分区
alter table user_par add partition(province='beijing',city='beijing');
1.5 将数据加载到指定分区(分区可以不存在)
load data local inpath '/home/centos/files/customers.txt'
into table user_par
partition (province='shanxi',city='taiyuan');
1.6 将表清空
truncate table user_par;
1.7 设置动态分区非严格模式,无需指定静态分区
set hive.exec.dynamic.partition.mode=nonstrict;
1.8 插入数据动态指定分区
insert into user_par
partition(province,city)
select * from user_nopar;
(PS: 在动态插入分区字段时注意,字段顺序必须要和分区顺序保持一致,和字段名称无关)
1.9 删除分区
alter table user_par2 drop partition(province='sichuan');
1.10 insert 数据到分区表
insert into user_par2 partition(province='USA', city='NewYork') select 10,'jerry',30;
1.11 查看指定表的分区
show partitions user_par2;
1.12 建立分区的依据
- 以日期或时间进行分区 比如 year, month, and day
- 以位置进行分区 比如 country, territory, state, and city
- 以业务逻辑进行分区
2. 分桶
2.1 创建桶表
create table user_bucket(id int, name string, age int) CLUSTERED BY (id) INTO 2 BUCKETS row format delimited fields terminated by '\t';
2.2 在桶表中转储数据
insert into user_bucket select id, name , age from user_par2;
2.3 查看 HDFS 中桶表的数据结构
2.4 将桶表和分区表一同使用建立新表 user_new, 分区在前
create table user_new(id int, name string, age int)
partitioned by (province string, city string)
CLUSTERED BY (id) INTO 2 BUCKETS
row format delimited
fields terminated by '\t';
2.5 通过 load 加载数据
load 并不会修改表中的数据结构,在桶表中的体现,就是没有将数据进行分段
load data local inpath '/home/centos/files/customers.txt' into table user_new partition (province='sichaun',city='chengdu');
2.6 insert 数据
insert into user_new partition(province='USA', city='NewYork') select 10,'jerry',30;
2.7 指定分桶字段
通过 join 字段进行桶字段的确定,在以下场景中分桶字段 a => no , b => uid
SELECT a.no, a.name, b.oname, b.oprice from customers a inner join orders b on a.no=b.uid;
3. 内部表 & 外部表
3.1 内部表
删除内部表的同时也会删除元数据,删除真实数据
MANAGED_TABLE 也叫托管表,是默认表类型
3.2 外部表
删除外部表的同时只删除元数据,不删除真实数据
场景:为了防止 drop 或者 truncate 表的时候数据丢失的问题
创建 external table
create external table user_external(id int, name string, age int);
insert into user_external select id,name,age from user_par;
[Hive_8] Hive 设计优化的更多相关文章
- HBase最佳实践-列族设计优化
本文转自hbase.收藏学习下. 随着大数据的越来越普及,HBase也变得越来越流行.会用HBase现在已经变的并不困难,然而,怎么把它用的更好却并不简单.那怎么定义'用的好'呢?很简单,在保证系统稳 ...
- Hive性能优化
1.概述 继续<那些年使用Hive踩过的坑>一文中的剩余部分,本篇博客赘述了在工作中总结Hive的常用优化手段和在工作中使用Hive出现的问题.下面开始本篇文章的优化介绍. 2.介绍 首先 ...
- 《Java程序性能优化》学习笔记 设计优化
豆瓣读书:http://book.douban.com/subject/19969386/ 第一章 Java性能调优概述 1.性能的参考指标 执行时间: CPU时间: 内存分配: 磁盘吞吐量: 网络吞 ...
- Web交互设计优化的简易check list
Web交互设计优化的简易check list 00 | 时间: 2011-02-11 | 28,842 Views 交互设计, 用户研究 “优化已有产品的体验”,这是用户体验相关岗位职责中常见的描 ...
- (数字IC)低功耗设计入门(六)——门级电路低功耗设计优化
三.门级电路低功耗设计优化 (1)门级电路的功耗优化综述 门级电路的功耗优化(Gate Level Power Optimization,简称GLPO)是从已经映射的门级网表开始,对设计进行功耗的优化 ...
- Hive篇---Hive使用优化
一.前述 本节主要描述Hive的优化使用,Hive的优化着重强调一个 把Hive SQL 当做Mapreduce程序去优化 二.主要优化点 1.Hive运行方式:本地模式集群模式 本地模式开启本地模式 ...
- Hive性能优化上的一些总结
https://blog.csdn.net/mrlevo520/article/details/76339075 1.介绍 首先,我们来看看Hadoop的计算框架特性,在此特性下会衍生哪些问题? 数据 ...
- 《Java程序性能优化》之设计优化
豆瓣读书:http://book.douban.com/subject/19969386/ 第一章 Java性能调优概述 1.性能的参考指标 执行时间: CPU时间: 内存分配: 磁盘吞吐量: 网络吞 ...
- 关于hive的优化
首先hive本质就是mapreduce,那么优化就从mapreduce开始入手. 然而mapreduce的执行快慢又和map和reduce的个数有关,所以我们先从这里下手,调整并发度. 关于map的优 ...
随机推荐
- 利用Python测量滴水湖的水面面积
美丽的滴水湖 美丽的滴水湖坐落在上海的东南角,濒临东海,风景秀丽,安静舒适,是旅游.恋爱的绝佳去处.笔者有幸去过一回,对那儿的风土人情留下了深刻的印象,如果有机会,笔者还会多去几次! 滴水湖是 ...
- JavaScript Date 对象的异常现象-new Date('0001-01-01 00:00:00')
Date 对象 Date 对象用于处理日期和时间. new Date() :Date 对象会自动把当前日期和时间保存为其初始值. 打开chrome的开发者工具,在Console敲下new Date() ...
- [leetcode]1007. 行相等的最少多米诺旋转
在一排多米诺骨牌中,A[i] 和 B[i] 分别代表第 i 个多米诺骨牌的上半部分和下半部分.(一个多米诺是两个从 1 到 6 的数字同列平铺形成的 —— 该平铺的每一半上都有一个数字.) 我们可以旋 ...
- 4.5 explain 之 ref
一.说明 显示索引的哪一列被使用了,如果可能的话,是一个常数.哪些列或常量被用于查找索引上的值. 二.示例 a. b. c. 关注我的公众号,精彩内容不能错过
- 修改tomcat命令黑窗口的名字
一.为什么要修改tomcat黑窗口的名字 同时启动多个tomcat时,不好区分,而给tomcat的命令窗口取名区分是个不错的选择,例如下面这个效果. 二.修改的方法 1.找到tomcat的bin目录下 ...
- 重装MacOS
从U盘启动 开启或重新启动您的 Mac 后,立即按住 Option 键。 当您看到“启动管理器”窗口时,松开 Option 键。 选择您的启动磁盘,然后点按箭头或按下 Return 键。 Mac 的启 ...
- JavaScript初学者必看“箭头函数”
译者按: 箭头函数看上去只是语法的变动,其实也影响了this的作用域. 原文: JavaScript: Arrow Functions for Beginners 译者: Fundebug 为了保证可 ...
- 记录一些日常windows命令或操作技巧
一.远程连接 通常我们发布项目的时候会先发布成本地文件然后通过远程服务器连接放到测试服务器发布成站点,这里就涉及到对远程发布的一些操作. 1. 点击运行,输入 mstsc /admin (这里的adm ...
- 亲测:LNMP环境下,解决项目缓冲慢、502以及配置https的问题
在做的项目在nginx下访问缓冲时间过长,明显比apache下访问蛮11倍有余, 解决办法: 1增加nginx的upstream,其中upstream中为php-cgi的地址: 2利用nginx作为反 ...
- 2017-11-09 中英文代码对比系列之Java一例
原文: https://zhuanlan.zhihu.com/p/30905033. 作者为本人. 这个系列将对同一段代码进行中文命名和英文命名两个版本的比较. 目的包括, 演示中文命名, 发现命名时 ...