HRegionServer

HBase的数据文件都存储在HDFS上，格式主要有两种:

- HFile:HBase中KeyValue数据的存储格式，HFile是Hadoop的二进制文件，实际上StoreFile就是对HFile做了轻量级的包装，即StoreFile底层就是HFile

- HLog File:HBase中WAL(Write Ahead Log)的存储格式，物理上是Hadoop的Sequence File带项目符号的内容

- HRegionServer管理一些列HRegion对象

- 每个HRegion对应Table中一个Region,Hegion由多个HStore组成

- 每个HStore对应Table中一个Column Family存储

- Column Family就是一个集中的存储单元，故将具有相同IO的Column放在一个Column Family会更高效

HStore(MemStore和StoreFile)

- Client写入:存入MemStore,一直到MemStore满了->Flush成一个StoreFile,直至增长到一定阈值->发出Compact合并操作->多个StoreFile合并成一个StoreFile,同时进行版本合并和数据删除->当StoreFiles compact后，逐步形成越来越大的StoreFile->单个StoreFile大小超过一定阈值之后，触发Split操作，会把当前Region Split成2个Region,Region会下线，新Split出的2个孩子Region会被HMaster分配到响应的HRegionServer上，使得原先1个Region的压力得以分流到2个Region上。

- HBase只是增加数据，所有的更新和删除操作，都是在Compact阶段做的，所以，用户写操作只需要进入内存即可立即返回，从而保证IO高性能

- StoreFile以HFile格式保存在HDFS上

- Data Block段保存表中的数据，这部分可以被压缩

- Meta Block段(可选)保存用户自定义的KV对，可以被压缩

- File Info段–HFile的元信息，不压缩，用户可以在这一部分添加自己的元信息

- Data Block Index段 -Data Block的索引。每条索引的Key是被索引的block的第一条记录的Key

- Meta Block Index段(可选)-Meta Block的索引

- Trailer -这一段是定长的，保存的是每一段的偏移量

压缩

- HFile的Data Block.Meta Block通常采用压缩方式存储；

好处:压缩之后可以大大减少网络IO和磁盘IO

坏处:需要花费cup进行压缩和解压缩

-HFlie支持的压缩格式:Gzip,Lzo,Snappy…

KeyValue存储结构

- HFile里面的每个KeyValue对就是一个简单的byte数组

- KeyLength和ValueLength:两个固定的长度，分别代表Key和Value的长度

- Key部分:Row Length是固定长度的数值，表示RowKey的长度，Row就是RowKey

- Column Family Length是固定长度的数值，表示Family的长度，接着就是Column Family,再接着是Qualifier，然后是两个固定长度的数值，表示TimeStamp和Key Type(Put/Delete)

- Value部分没有那么复杂的结构，就是纯粹的二进制数据

HLog文件结构

HBase数据存储的更多相关文章

使用MapReduce读取HBase数据存储到MySQL
Mapper读取HBase数据 package MapReduce; import org.apache.hadoop.hbase.Cell; import org.apache.hadoop.hba ...
BigData NoSQL —— ApsaraDB HBase数据存储与分析平台概览
一.引言时间到了2019年,数据库也发展到了一个新的拐点,有三个明显的趋势: 越来越多的数据库会做云原生(CloudNative),会不断利用新的硬件及云本身的优势打造CloudNative数据库, ...
HBase 数据存储结构
在HBase中, 从逻辑上来讲数据大概就长这样: 单从图中的逻辑模型来看, HBase 和 MySQL 的区别就是: 将不同的列归属与同一个列族下支持多版本数据这看着感觉也没有那么太大的区别呀, ...
2.1-2.2 HBase数据存储
一.HBase数据检索流程一篇介绍HBase数据读写流程的解析的博文:http://hbasefly.com/2016/12/21/hbase-getorscan/?wsfatm=uqvhl3 1. ...
hbase数据加盐（Salting）存储与协处理器查询数据的方法
转自: https://blog.csdn.net/finad01/article/details/45952781 ----------------------------------------- ...
HBase介绍(2)---数据存储结构
在本文中的HBase术语:基于列:column-oriented行:row列组:column families列:column单元:cell 理解HBase(一个开源的Google的BigTable实 ...
万亿级日志与行为数据存储查询技术剖析——Hbase系预聚合方案、Dremel系parquet列存储、预聚合系、Lucene系
转自:http://www.infoq.com/cn/articles/trillion-log-and-data-storage-query-techniques?utm_source=infoq& ...
Spark Streaming接收Kafka数据存储到Hbase
Spark Streaming接收Kafka数据存储到Hbase fly spark hbase kafka 主要参考了这篇文章https://yq.aliyun.com/articles/60712 ...
大数据存储利器 - Hbase 基础图解
由于疫情原因在家办公,导致很长一段时间没有更新内容,这次终于带来一篇干货,是一篇关于 Hbase架构原理的分享. Hbase 作为实时存储框架在大数据业务下承担着举足轻重的地位,可以说目前绝大多数大 ...

随机推荐

20144303 《Java程序设计》第五周学习总结
20144303 <Java程序设计>第五周学习总结教材学习内容总结第八章异常处理异常就是程序在运行时出现不正常情况,异常的由来是因为Java把出现的问题封装成了对象,换句话说Ja ...
20145230熊佳炜《网络对抗》实验八：WEB基础
20145230熊佳炜<网络对抗>实验八:WEB基础实验目标 Web前端HTML:能正常安装.启停Apache.理解HTML,理解表单,理解GET与POST方法,编写一个含有表单的HTM ...
react-native中使用自定义的字体图标iconfont
iconfont图标库下载可在 http://www.iconfont.cn 下载下载完成后的目录中有字体文件: iconfont.ttf 拷贝字体文件 Android: 在 Android/ap ...
Linux下ping命令参数详细解析
-a Audible ping. #Audible ping. -A Adaptive ping. Interpacket interval adapts to round-trip time, so ...
valid 校验方式
校验参数方法:1.最简单的方式是,使用Java bean注解校验(如 @NotEmpty...)2.适合复杂点的自定义校验(推荐) 2.1 先定义一个校验接口: public interface Va ...
[BZOJ1117]救火站gas
Description 给你一棵树,现在要建立一些消防站,有以下要求: 1. 消防站要建立在节点上,每个节点可能建立不只一个消防站. 2. 每个节点应该被一个消防站管理,这个消防站不一定建立在该节点上 ...
Maven取消编译自动测试
Maven取消编译自动测试 <build> <plugins> <plugin> <groupId>org.apache.maven.plugins&l ...
Tomcat access log配置（二）
前次讨论了spring boot 中添加Tomcat access log 是轻松愉快,配置文件中添加server.tomcat.accesslog即可,那么如果是外置的Tomcat容器又该如何配置呢 ...
如何打开windows的远程桌面
WINDOWS 2003/XP 系列设置方法右键点击[我的电脑]选择[属性],进入[系统属性]界面,点击[远程]选项卡,勾选[启用这台计算机上的远程桌面]即可. 2003/XP系统默认只允许计算机a ...
Ubuntu+apache安装redmin
公司要迁移redmin,本来以为是一个很简单的项目,想不到整整搞了一天加一个晚上. 首先是对ruby的安装不熟悉,现在明白了ruby的安装顺序是先安装rvm版本管理,然后用rvm安装ruby,安装好后 ...