Hive - [08] 数据仓库物理模型设计
分区
分区是将表的数据按照某个列的值进行划分和存储的一种方式。通过分区,可以将数据按照特定的维度进行组织,提高查询效率和数据管理的灵活性。
一、分区的优势
- 提高查询性能:通过分区,可以将数据按照特定的列值进行划分,使得查询只需要扫描特定分区的数据,减少了全表扫描的开销。
- 管理数据更加灵活:可以根据业务需求对数据进行分区,方便数据的管理和维护。
- 支持数据生命周期:可以根据数据的时间或其他维度进行分区,方便数据的归档和清理。
二、创建分区表
create table my_table(
col1 int,
col2 string
)
partitioned by (dt string,country string);
- 时间:根据时间戳或日期将数据按照不同的时间段进行分区,例如按年、月、日等。
- 地理位置:根据地理位置将数据按照不同的地域进行分区,例如国家、城市等。
- 类别/类型:根据某个类别或类型属性将数据进行分类并进行相应的分区。
三、操作分区数据
-- 开启动态分区功能
SET hive.exec.dynamic.partition=true;
-- 设置动态分区模式为非严格模式(允许部分分区为静态分区,部分为动态分区)
SET hive.exec.dynamic.partition.mode=nonstrict;
-- 插入分区数据
insert into my_table
partition (dt='2024-04-18',country='China')
values (1,'data1'),(2,'data2');
-- 查询分区数据
select col1,col2
from my_table
where dt='2024-04-18' and country='China';
此外,为了控制动态分区的数量,避免过多的小文件,还可以设置以下参数
SET hive.exec.max.dynamic.partitions.pernode=1000; -- 每个节点的最大动态分区数
SET hive.exec.max.dynamic.partitions=10000; -- 总的最大动态分区数
SET hive.exec.max.created.files=100000; -- 一次查询中创建的最大文件数
在hive中可以使用如下sql查看相关参数(比如hive.exec.dynamic.partition)的当前配置
set hive.exec.dynamic.partition;
四、分区的设置
- 选择合适的分区键,通常选择日期作为分区键
- 评估每天的数据增长量,预估未来三年内的空间情况及记录数
- 若每天的记录数较少,则选择范围分区,若每天记录数较多,则选择单值分区。
- 范围分区视数据增长情况,按月、按季、按年进行
分桶
分桶是将表的数据按照哈希函数的结果进行划分和存储的一种方式。通过分桶,可以将数据均匀地分布到不同的桶中,提高查询的并行度和性能。
一、分桶的优势
- 提高查询性能:通过分桶,可以将数据均匀地分布到不同的桶中,使得查询可以并行地处理不同的桶,提高查询性能。
- 支持随机抽样:分桶可以方便地进行随机抽样操作,从而进行数据分析和调试。
二、创建分桶表
create table my_bucketed_table (
column1 int,
column2 string
)
clustered by (column1) into 3 buckets
stored as orc;
三、分桶数据的操作
-- 插入数据
insert overwrite table my_bucketed_table
select col1,col2 from my_table;
-- 查询数据
select column1,column2
from my_bucketed_table
where column1=1;
四、分桶键的确认
通常对于单个分桶,记录数建议不超过1000w,或压缩前文本大小不超过1000MB
- 分桶数必须为质数(只能被1和它本身整除的数)
- 分桶数量 < 500个
- 选择分桶字段时,尽量选择离散度较高的列,以避免造成Bucket的大小过意悬殊。
- 常用的分桶字段多为原表主键,或者身份证号码、手机号等信息
- 选择不会做update的字段(即确认下来的分桶键字段的值相对来说是常量,字段的值不会因为业务而变动)
查看数据分布,确认离散度较高的列,也就是相对来说数据分布较为均衡的字段。
select column_name,count(*) as count
from table_name
group by column_name
order by count;
分区分桶数的综合评估
- 分区数 * 分桶数 < 10000个
- 单个分区记录数 < 5000w
- 分区数量 < 200个
- 单个分区内的分桶数是否小于Hive配置CPU数
— 要养成终身学习的习惯 —
Hive - [08] 数据仓库物理模型设计的更多相关文章
- Hive:数据仓库工具,由Facebook贡献。
Hadoop Common: 在0.20及以前的版本中,包含HDFS.MapReduce和其他项目公共内容,从0.21开始HDFS和MapReduce被分离为独立的子项目,其余内容为Hadoop Co ...
- 杂项:hive(数据仓库工具)
ylbtech-杂项:hive(数据仓库工具) hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapRedu ...
- 胖子哥的大数据之路(10)- 基于Hive构建数据仓库实例
一.引言 基于Hive+Hadoop模式构建数据仓库,是大数据时代的一个不错的选择,本文以郑商所每日交易行情数据为案例,探讨数据Hive数据导入的操作实例. 二.源数据-每日行情数据 三.建表脚本 C ...
- 一脸懵逼学习Hive(数据仓库基础构架)
Hive是什么?其体系结构简介*Hive的安装与管理*HiveQL数据类型,表以及表的操作*HiveQL查询数据***Hive的Java客户端** Hive的自定义函数UDF* 1:什么是Hive(一 ...
- Sqoop+mysql+Hive+ Ozzie数据仓库案例
mysql 数据库脚本为: /*==============================================================*/ /* DBMS name: MySQL ...
- Hbase物理模型设计
Hbase的存储结构 1.Hbase宏观架构 从上图可以看hbase集群由一个master和多个RegionServer组成,右下角是一个RegionServer的内部图. Hbase的服务器角色构成 ...
- 【hive】数据仓库层次设计
转载 https://www.jianshu.com/p/849db358ec61
- hive数据仓库入门到实战及面试
第一章.hive入门 一.hive入门手册 1.什么是数据仓库 1.1数据仓库概念 对历史数据变化的统计,从而支撑企业的决策.比如:某个商品最近一个月的销量,预判下个月应该销售多少,从而补充多少货源. ...
- Hive分布式的数据仓库
1.hive介绍 hive是一个数据仓库的解决方案,它的数据存储依赖于HDFS,数据结算依赖于MR,也就是说,hive就是一个在数据仓库的服务,它只需要安装到一台普通的PC上即可,仅仅对外提供SQL服 ...
- Hive数据仓库笔记(一)
Hive建表: CREATE TABLE records (year STRING,temperature INT, quality INT) ROW FORMAT DELIMITED FIELDS ...
随机推荐
- 使用 cProfile 分析和定位 Python 应用性能瓶颈点
一.需求背景 性能压测时,发现某接口存在性能瓶颈,期望借助工具定位该瓶颈,最好能定位至具体慢方法. 二.cProfile 简介 cProfile 是 Python 标准库中的一个模块,用于对 Pyth ...
- 鸿蒙UI开发快速入门 —— part01: 装饰器&UI描述
1. 背景 在鸿蒙开发中,ArkTS是优选的主力应用开发语言. ArkTS围绕应用开发在TypeScript(简称TS)生态基础上做了进一步扩展,继承了TS的所有特性,是TS的超集. 因此,在学习Ar ...
- MyBatisPlus中updateById与updateAllColumnById方法区别
实现 updateById方法在插入时,会根据实体类的每个属性进行非空判断,只有非空的属性所对应的字段才会出现在SQL语句中. updateAllColumnById方法在插入时,不管属性是否为空,属 ...
- 人工生命(AL:Artificial life)兰顿蚂蚁多版本代码html\go\php\python\java
背景介绍 人工生命(AL:Artificial life)这一概念由美国计算机科学家.人工生命领域创始人之一克里斯托弗・盖尔・兰顿(Christopher G. Langton)提出.1986 年,兰 ...
- Qt开源作品43-超级图形字体
一.前言 对于众多的Qter程序员来说,美化UI一直是个老大难问题,毕竟这种事情理论上应该交给专业的美工妹妹去做,无奈在当前整体国际国内形式之下,绝大部分公司是没有专门的美工人员的,甚至说有个兼职的美 ...
- opencv只在bin目录下编译dll,在lib目录下编译lib,在bin目录下不编译测试程序的各种exe
penCV是一个开源的计算机视觉库,它提供了多种编程语言的接口.如果你只想编译出DLL和Lib库文件,而不编译EXE(可执行文件),这通常是因为你想要进行某种形式的动态链接或者库的分发,而不关心EXE ...
- 意外之喜——黑夜 CrossFire!!!
在日常逛L站时,偶然发现了"友链"功能,机缘巧合下进入了specialhua的博客,又被吸引着点进了其中一篇博客,于是便通过specialhua的博客看到了黑夜的这篇文章,感觉就像 ...
- C# wpf,winform修改另一个.net EXE程序集的resources 资源文件
可以使用Mono.Cecil库更新.添加可执行文件的资源 以下是使用 Mono.Cecil 进行资源操作的三种基本方法: 首先需要程序中引入 Mono.Cecil Nuget: PM> Inst ...
- kubeadm 快速搭建 Kubernetes 集群
快速搭建 K8s 集群 角色 ip k8s-master-01 192.168.111.170 k8s-node-01 192.168.111.171 k8s-node-02 192.168.111. ...
- Sharding-JDBC分库分表
https://blog.csdn.net/bochuangli/article/details/123029392 https://blog.csdn.net/bochuangli/article/ ...