从HBase底层原理解析HBASE列族不能设计太多的原因？

在之前的文章《深入探讨HBASE》中，笔者详细介绍了：

HBase基础知识（包括简介、表结构）、系统架构、数据存储
WAL log和HBase中LSM树的应用
HBase寻址机制
minor合并和major合并
region管理以及region server上下线
HMaster工作机制和HBase容错性
HBASE数据迁移和备份

distcp命令拷贝hdfs文件的方式
copytable的方式实现表的迁移和备份
replication的方式实现表的复制
Export/Import的方式实现表的迁移和备份

布隆过滤器在HBase中的应用
协处理器（observer和endpoint）
row key设计要点
HBase热点问题及处理

通过上述文章的介绍，我们了解到：

HBase底层存储依赖于HDFS，HBase中table在行的方向上分割为多个region，它是HBase负载均衡的最小单元，可以分布在不同的RegionServer上，但是一个region不能拆分到多个RegionServer上。

但是region不是HBase物理存储的最小单元，它由一个或者多个store组成，每个store保存一个column family即列族。每个store由一个memstore和多个storefile组成，storefile由hfile组成是对hfile的轻量级封装，存储在hdfs上。

所以，每个column family可以看作是HBase中一个集中的存储单元。在生产中，我们设计列族时会将具有相似属性的比如IO特性或者将经常一起查询的列放到一个列族中，可以减少文件的IO、寻址时间，从而提高性能。

刚才说到HBase中每个store由memstore和storefile组成，这里的memstore其实是Sorted Memory Buffer，在WAL机制开启的情况下，不考虑块缓存，数据日志会先写入HLog，然后进入Memstore，最后持久化到HFile中。

在这个过程中，如果某region下下的storeFile大小超过阀值就需要进行切分。每个列族在文件层面上是以单独的文件存储的。但是不同的列族，却可能会共享一个region。这就会导致一个问题：

HBase 表中列族A的数据有100万行，但是列族B可能才1000行。当进行region split时，会列族B也进行切分，从而导致这1000行数据也分布在多个不同region中，最终导致查询数据时，导致寻址时间等增加，影响性能。

此外，默认情况下，只有一个region，当满足一定条件，region会进行分裂。如果一个HBase表中设置过多的列族，则可能引起以下问题：

一个region中存有多个store，当region分裂时导致多个列族数据存在于多个region中，查询某一列族数据会涉及多个region导致查询效率低（这一点在多个列族存储的数据不均匀时尤为明显）
多个列族则对应有多个store，那么Memstore也会很多，因为Memstore存于内存，会导致内存的消耗过大
HBase中的压缩和缓存flush是基于region的。当一个列族出现压缩或缓存刷新时，因为关联效应会引起临近的其他列族做同样的操作，在列族过多时会涉及大量的IO开销

所以，我们在设计HBase表的列族时，遵循以下几个主要原则，以减少文件的IO、寻址时间：

列族数量，要尽可能的少
列族名字可读性好，但不能过长。原因可类比于HBase row key设计原则
1. 关注微信公众号：大数据学习与分享，获取更对技术干货

从HBase底层原理解析HBASE列族不能设计太多的原因？的更多相关文章

HBase 底层原理详解（深度好文，建议收藏）
HBase简介 HBase 是一个分布式的.面向列的开源数据库.建立在 HDFS 之上.Hbase的名字的来源是 Hadoop database,即 Hadoop 数据库.HBase 的计算和存储能力 ...
为什么不建议在 HBase 中使用过多的列族
我们知道,一张 HBase 表包含一个或多个列族.HBase 的官方文档中关于 HBase 表的列族的个数有两处描述: A typical schema has between 1 and 3 col ...
Spring Cloud底层原理解析
概述毫无疑问,Spring Cloud是目前微服务架构领域的翘楚,无数的书籍博客都在讲解这个技术.不过大多数讲解还停留在对Spring Cloud功能使用的层面,其底层的很多原理,很多人可能并不知晓 ...
git的核心命令使用和底层原理解析
文章目录: GIT体系概述 GIT 核心命令使用 GIT 底层原理一.GIT体系概述 GIT 与 svn 主要区别: 存储方式不一样使用方式不一样管理模式不一样 1.存储方式区别 GIT把内容按 ...
利用Redisson实现分布式锁及其底层原理解析
Redis介绍参考地址:https://blog.csdn.net/turbo_zone/article/details/83422215 redis是一个key-value存储系统.和Memcac ...
spring底层原理解析
注解测试:如何使用注解(去掉配置文件)开发新建MainConfig类注解测试:新建MainTest2注解测试,用来测试//AnnoatationConfigApplicationContext: ...
远程服务调用RMI框架演示,和底层原理解析
远程服务调用RMI框架: 是纯java写的, 只支持java服务之间的远程调用,很简单, // 接口要继承 Remote接口 public interface IHelloService extend ...
HBase中Memstore存在的意义以及多列族引起的问题和设计
Memstore存在的意义 HBase在WAL机制开启的情况下,不考虑块缓存,数据日志会先写入HLog,然后进入Memstore,最后持久化到HFile中.HFile是存储在hdfs上的,WAL预写日 ...
HBase 架构与工作原理3 - HBase 读写与删除原理
本文系转载,如有侵权,请联系我:likui0913@gmail.com 一.前言在 HBase 中,Region 是有效性和分布的基本单位,这通常也是我们在维护时能直接操作的最小单位.比如当一个集群 ...

随机推荐

IP 层收发报文简要剖析5--ip报文发送2
udp 发送ip段报文接口ip_append_data ip_append_data 函数主要用来udp 套接字以及raw套接字发送报文的接口.在tcp中发送ack 以及rest段的ip_send_u ...
手写atoi、strcpy、strcat
一:实现atoi函数 1 #include<iostream> 2 3 using namespace std; 4 5 int atoi_my(const char *str) 6 { ...
11Linux之软件包管理
11Linux之软件包管理目录 11Linux之软件包管理 11 软件包管理 11.1 软件包介绍 11.1.1 编程语言分类 11.1.2 三种安装包 11.2 rpm包管理 11.2.1 rpm ...
MYSQL学习(三) --索引详解
创建高性能索引 (一)索引简介索引的定义索引,在数据结构的查找那部分知识中有专门的定义.就是把关键字和它对应的记录关联起来的过程.索引由若干个索引项组成.每个索引项至少包含两部分内容.关键字和关键 ...
Java项目读取resources资源文件路径那点事
今天在Java程序中读取resources资源下的文件,由于对Java结构了解不透彻,遇到很多坑.正常在Java工程中读取某路径下的文件时,可以采用绝对路径和相对路径,绝对路径没什么好说的,相对路径, ...
git操作之三：git reset
在上篇文章中介绍了git restore命令,该命令的可以看作是撤销命令,文件在不同的状态下,使用git restore <file> 命令,会撤销对文件的修改,是文件回到修改前的状态也就 ...
CTF-Web-NSCTF-解密WP
CTF-Web-NSCTF-解密WP 题目链接-攻防世界-web2 知识考察:PHP代码审计.逆向加解密解题思路先搞清楚各个PHP函数的含义 <?php $miwen="a1zLb ...
Redis 用的很溜，了解过它用的什么协议吗？
我是风筝,公众号「古时的风筝」,一个兼具深度与广度的程序员鼓励师,一个本打算写诗却写起了代码的田园码农! 文章会收录在 JavaNewBee 中,更有 Java 后端知识图谱,从小白到大牛要走的路都在 ...
用Python写一个病毒
WARNING 本文仅供学习和测试,请勿用于非法用途. 前言花了挺长时间去开发的,中间有很多包是抄的,比如DDL注入.关于opencv等等,主要其实做了一些拼接.打包.部署. 写这篇博客并不真的想去 ...
python 中 try...finally... 的优雅实现
1. 关于 try.. finally.. 假如上帝用 python 为每一个来到世界的生物编写程序,那么除去中间过程的种种复杂实现,最不可避免的就是要保证每个实例最后都要挂掉.代码可简写如下: tr ...

从HBase底层原理解析HBASE列族不能设计太多的原因？

从HBase底层原理解析HBASE列族不能设计太多的原因？的更多相关文章

随机推荐

热门专题