分区

分区是将表的数据按照某个列的值进行划分和存储的一种方式。通过分区，可以将数据按照特定的维度进行组织，提高查询效率和数据管理的灵活性。

一、分区的优势

提高查询性能：通过分区，可以将数据按照特定的列值进行划分，使得查询只需要扫描特定分区的数据，减少了全表扫描的开销。
管理数据更加灵活：可以根据业务需求对数据进行分区，方便数据的管理和维护。
支持数据生命周期：可以根据数据的时间或其他维度进行分区，方便数据的归档和清理。

二、创建分区表

create table my_table(

    col1 int,

    col2 string

)

partitioned by (dt string,country string);

时间：根据时间戳或日期将数据按照不同的时间段进行分区，例如按年、月、日等。
地理位置：根据地理位置将数据按照不同的地域进行分区，例如国家、城市等。
类别/类型：根据某个类别或类型属性将数据进行分类并进行相应的分区。

三、操作分区数据

 -- 开启动态分区功能

SET hive.exec.dynamic.partition=true;

-- 设置动态分区模式为非严格模式（允许部分分区为静态分区，部分为动态分区）

SET hive.exec.dynamic.partition.mode=nonstrict;

-- 插入分区数据

insert into my_table

partition (dt='2024-04-18',country='China')

values (1,'data1'),(2,'data2');

-- 查询分区数据

select col1,col2

from my_table

where dt='2024-04-18' and country='China';

此外，为了控制动态分区的数量，避免过多的小文件，还可以设置以下参数

SET hive.exec.max.dynamic.partitions.pernode=1000; -- 每个节点的最大动态分区数

SET hive.exec.max.dynamic.partitions=10000; -- 总的最大动态分区数

SET hive.exec.max.created.files=100000; -- 一次查询中创建的最大文件数

在hive中可以使用如下sql查看相关参数（比如hive.exec.dynamic.partition）的当前配置

set hive.exec.dynamic.partition;

四、分区的设置

选择合适的分区键，通常选择日期作为分区键
评估每天的数据增长量，预估未来三年内的空间情况及记录数
若每天的记录数较少，则选择范围分区，若每天记录数较多，则选择单值分区。
范围分区视数据增长情况，按月、按季、按年进行

分桶

分桶是将表的数据按照哈希函数的结果进行划分和存储的一种方式。通过分桶，可以将数据均匀地分布到不同的桶中，提高查询的并行度和性能。

一、分桶的优势

提高查询性能：通过分桶，可以将数据均匀地分布到不同的桶中，使得查询可以并行地处理不同的桶，提高查询性能。
支持随机抽样：分桶可以方便地进行随机抽样操作，从而进行数据分析和调试。

二、创建分桶表

create table my_bucketed_table (

    column1 int,

    column2 string

)

clustered by (column1) into 3 buckets

stored as orc;

三、分桶数据的操作

-- 插入数据

insert overwrite table my_bucketed_table

select col1,col2 from my_table;

-- 查询数据

select column1,column2

from my_bucketed_table

where column1=1;

四、分桶键的确认

通常对于单个分桶，记录数建议不超过1000w，或压缩前文本大小不超过1000MB

分桶数必须为质数（只能被1和它本身整除的数）
分桶数量 < 500个
选择分桶字段时，尽量选择离散度较高的列，以避免造成Bucket的大小过意悬殊。
常用的分桶字段多为原表主键，或者身份证号码、手机号等信息
选择不会做update的字段（即确认下来的分桶键字段的值相对来说是常量，字段的值不会因为业务而变动）

查看数据分布，确认离散度较高的列，也就是相对来说数据分布较为均衡的字段。
select column_name,count(*) as count

from table_name

group by column_name

order by count;

分区分桶数的综合评估

分区数 * 分桶数 < 10000个
单个分区记录数 < 5000w
分区数量 < 200个
单个分区内的分桶数是否小于Hive配置CPU数

— 要养成终身学习的习惯 —

Hive - [08] 数据仓库物理模型设计的更多相关文章

Hive：数据仓库工具，由Facebook贡献。
Hadoop Common: 在0.20及以前的版本中,包含HDFS.MapReduce和其他项目公共内容,从0.21开始HDFS和MapReduce被分离为独立的子项目,其余内容为Hadoop Co ...
杂项：hive（数据仓库工具）
ylbtech-杂项:hive(数据仓库工具) hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapRedu ...
胖子哥的大数据之路（10）- 基于Hive构建数据仓库实例
一.引言基于Hive+Hadoop模式构建数据仓库,是大数据时代的一个不错的选择,本文以郑商所每日交易行情数据为案例,探讨数据Hive数据导入的操作实例. 二.源数据-每日行情数据三.建表脚本 C ...
一脸懵逼学习Hive（数据仓库基础构架）
Hive是什么?其体系结构简介*Hive的安装与管理*HiveQL数据类型,表以及表的操作*HiveQL查询数据***Hive的Java客户端** Hive的自定义函数UDF* 1:什么是Hive(一 ...
Sqoop+mysql+Hive+ Ozzie数据仓库案例
mysql 数据库脚本为: /*==============================================================*/ /* DBMS name: MySQL ...
Hbase物理模型设计
Hbase的存储结构 1.Hbase宏观架构从上图可以看hbase集群由一个master和多个RegionServer组成,右下角是一个RegionServer的内部图. Hbase的服务器角色构成 ...
【hive】数据仓库层次设计
转载 https://www.jianshu.com/p/849db358ec61
hive数据仓库入门到实战及面试
第一章.hive入门一.hive入门手册 1.什么是数据仓库 1.1数据仓库概念对历史数据变化的统计,从而支撑企业的决策.比如:某个商品最近一个月的销量,预判下个月应该销售多少,从而补充多少货源. ...
Hive分布式的数据仓库
1.hive介绍 hive是一个数据仓库的解决方案,它的数据存储依赖于HDFS,数据结算依赖于MR,也就是说,hive就是一个在数据仓库的服务,它只需要安装到一台普通的PC上即可,仅仅对外提供SQL服 ...
Hive数据仓库笔记（一）
Hive建表: CREATE TABLE records (year STRING,temperature INT, quality INT) ROW FORMAT DELIMITED FIELDS ...

随机推荐

内网穿透之http代理服务器
在公网访问内网http服务可以用内网穿透工具,例如frp和nps等优秀工具.但我发现这类工具会在服务器启动不止一个端口,对于有些网络审查来说很容易发现在进行内网穿透.因此我想是否可以只在服务器启动一个 ...
金TECH频道|最近备受关注的“应用重构”到底是什么？
"金TECH频道"旨在为您分享中电金信助力行业数字化转型的最新产品业务动态.技术观点洞察与应用实践案例.让我们在这里,与行业发展同频共振,共筑数字新基石.
2024年1月Java项目开发指南14：关于post中的body和param以及java中的@RequestBody和@RequestParam
在HTTP请求中,POST方法通常用于向服务器发送数据,这些数据可以在请求的body中,也可以在URL的param中.不过,这两者的使用方式和适用场景是不同的. Body:在POST请求中,body主 ...
第 5 章 Debian 系统中可用的软件
目录 5.1. Debian GNU/Linux 收录了哪些类型的应用程序和开发工具? 5.2. 谁编写了所有这些软件? 5.3. 我应该如何获得一份 Debian 打包的程序的最新列表? 5.4. ...
Linux下修改文件所属用户和组
chgrp 用户名文件名 -R chown 用户名文件名 -R -R表示递归目录下所有文件以上部分已验证一.修改文件所属组群--chgrp 修改文件所属组群很简单-chg ...
一套分布式IM即时通讯系统的技术选型和架构设计
本文由冰河分享,作者博客 binghe.gitcode.host,原题"这套分布式IM即时通讯系统如何写到简历上?我给你整理好了!",本文有修订和改动. 1.引言分布式IM即时通 ...
概率图模型&机器学习 -- 精确推断方法 -- 变量消去(Variable Elimination)和信念传播(Belief Propagation)
参考资料西瓜书 An introduction to hidden Markov model -- Rabiner, Juang [机器学习][白板推导系列][合集 1-33]_哔哩哔哩_bilib ...
C# wpf,winform修改另一个.net EXE程序集的resources 资源文件
可以使用Mono.Cecil库更新.添加可执行文件的资源以下是使用 Mono.Cecil 进行资源操作的三种基本方法: 首先需要程序中引入 Mono.Cecil Nuget: PM> Inst ...
c# WPF convert photo to Sketch effects
using the online website https://imagetosketch.com/ <Window x:Class="WpfMosaic.PhotoSketchWi ...
部署简单的单节点k8s
1.Kubernetes简介 Kubernetes,简称K8s,是用8代替名字中间的8个字符"ubernete"而成的缩写.Kubernetes是Google开源的一个容器编排引擎 ...

Hive - [08] 数据仓库物理模型设计

分区

一、分区的优势

二、创建分区表

三、操作分区数据

四、分区的设置

分桶

一、分桶的优势

二、创建分桶表

三、分桶数据的操作

四、分桶键的确认

分区分桶数的综合评估

Hive - [08] 数据仓库物理模型设计的更多相关文章

随机推荐

热门专题