HBase拥有出色的扩展性,其中最依赖的就是region的自动split机制。

1.split触发时机与策略

前面我们已经知道了,数据写入过程中,需要先写memstore,然后memstore满了以后,flush写入磁盘,形成新的HFile文件。

当HFile文件数量不断累积,Region server就会触发compaction机制,把小文件合并为大的HFIle。

当每次flush完成 或者 compaction完成后,regionSplitPolicy就会判断是否需要进行split。

split触发时机简单来说,就是看一个region里面的最大store是否超过阈值。

当然,hbase支持多种策略来设置这个阈值到底怎么计算,这就是触发策略。

  • 0.94版本前默认的策略是ConstantSizeRegionSplitPolicy,这个阈值时一个固定值。
  • 0.94-2.0版本的默认策略是IncreasingToUpperBoundRegionSplitPolicy。
  • 2.0版本的默认策略是SteppingSplitPolicy。这两种策略设置的阈值不是一个固定值,而是会和region所属表在当前regionserver上的region个数有关。只是在计算公式上稍有差异。

另外,还有比如DisableSplitPolicy、KeyPrefixRegionSplitPolicy,DelimitedKeyPrefixRegionSplitPolicy等策略,就不一一介绍了。

2.split流程

一旦开始region split,那么就会创建两个daughter region。

这时候不会立刻将所有数据写到新的region里面去,而是创建引用文件,叫做Reference files,指向parent region。

reference文件作为一个数据规则文件,在split期间,新的查询会根据这个文件去父region的HStore上查询数据。当经过一次major compaction后,数据迁移到新的region中,reference文件会被删除,表示spilit真正完成。

具体过程如下:

1)regionserver在zookeeper中创建一个新的znode在/hbase/region-in-transition/region-name目录下,状态为SPLITTING

2)master通过watch zk上的region-in-transition目录,得知这个region处于split状态

3)region server在HDFS的parent region目录下创建一个子目录叫做“.splits”

4)region server关闭parent region,强制flush这个region下的cache数据,并且标记这个region为下线状态。这个时候,如果有客户端请求落在这个region上,就会抛出NotServingRegionException。

5)Region server创建新的region在.spllits目录下,我们标记为daughter region A和daughter region B,同时创建必要的数据结构。然后就会创建两个Reference文件,指向parent region的那些存储文件。

6)Region Server在HDFS中创建实际的region目录,并将daughterA和daughter B移动到HBase根目录下,形成两个新的region。

7)Region server会发送put请求给.mete. table,然后把parent region设置为offline的状态,并且给新的region添加信息。

8)region server 打开新的region接受读写请求

9)region server将region A和B的信息添加到.meta.表,可以真正对外提供服务了。

扫尾工作:

1)客户端请求.meta.表,发现新的region信息,就会把本地缓存重新设置

2)region server更新zk上/hbase/region-in-transition/region-name目录下的znode状态,改为SPLIT,然后master通过watch得知这个信息。如果有必要,负载均衡器可以选择将新的region分布到新的region server上。

3)完成split工作后,meta和HDFS还是会保留reference文件到parent region。等到下次compaction时,会完成数据到新region的迁移,然后才会删除reference文件。

3.pre-splitting

当一张表被首次创建时,只会分配一个region给这个表。因此,在刚刚开始时,所有读写请求都会落在这个region所在的region server上,而不管你整个集群有多少个region server。不能充分地利用集群的分布式特性。

主要原因跟split的机制有关,一开始的时候,系统无法判断你到底需要用哪个rowkey进行split。

因此,hbase提供了工具让你能自己解决这个问题,叫做pre-splitting。

你可以在创建表的时候,指定哪些split point将region分成几份。如果切分的好,那么自然就可以一开始就充分利用分布式的特性。但是需要注意,如果切分的不好,存在热点region,那么反而会影响读写性能。

这里也没有一个特别好的原则来说到底pre split多少个region最合适,不过最好的方式,还是以region server数量的倍数(较小的倍数)来创建pre split的region数量,然后让集群本身去做自动的spliting。

4.split的事务性保证

2.0版本后,HBase会使用HLog存储单机事务(DDL\Split\Move等)的中间状态,保证了即使事务过程中出现异常,也能安全地回滚或继续提交。

看到这里了,原创不易,点个关注、点个赞吧,你最好看了~

知识碎片重新梳理,构建Java知识图谱:https://github.com/saigu/JavaKnowledgeGraph(历史文章查阅非常方便)

扫码关注我的公众号“阿丸笔记”,第一时间获取最新更新。同时可以免费获取海量Java技术栈电子书、各个大厂面试题。

「从零单排HBase 05」核心特性region split的更多相关文章

  1. 「从零单排HBase 06」你必须知道的HBase最佳实践

    前面,我们已经打下了很多关于HBase的理论基础,今天,我们主要聊聊在实际开发使用HBase中,需要关注的一些最佳实践经验. 1.Schema设计七大原则 1)每个region的大小应该控制在10G到 ...

  2. 「从零单排HBase 04」HBase高性能查询揭秘

    先给结论吧:HBase利用compaction机制,通过大量的读延迟毛刺和一定的写阻塞,来换取整体上的读取延迟的平稳. 1.为什么要compaction 在上一篇 HBase读写 中我们提到了,HBa ...

  3. 「从零单排HBase 12」HBase二级索引Phoenix使用与最佳实践

    Phoenix是构建在HBase上的一个SQL层,能让我们用标准的JDBC APIs对HBase数据进行增删改查,构建二级索引.当然,开源产品嘛,自然需要注意“避坑”啦,阿丸会把使用方式和最佳实践都告 ...

  4. 「从零单排canal 05」 server模块源码解析

    基于1.1.5-alpha版本,具体源码笔记可以参考我的github:https://github.com/saigu/JavaKnowledgeGraph/tree/master/code_read ...

  5. 「从零单排HBase 09」Hbase的那些数据结构和算法

    在之前学习MySQL的时候,我们知道存储引擎常用的索引结构有B+树索引和哈希索引. 而对HBase的学习,也离不开索引结构的学习,它使用了一种LSM树((Log-Structured Merge-Tr ...

  6. 「从零单排HBase 10」HBase集群多租户实践

    在HBase1.1.0发布之前,HBase同一集群上的用户.表都是平等的,大家平等共用集群资源.容易碰到两个问题: 一是某些业务较其他业务重要,需要在资源有限的情况下优先保证核心重要业务的正常运行 二 ...

  7. 「从零单排canal 04」 启动模块deployer源码解析

    基于1.1.5-alpha版本,具体源码笔记可以参考我的github:https://github.com/saigu/JavaKnowledgeGraph/tree/master/code_read ...

  8. 「从零单排canal 06」 instance模块源码解析

    基于1.1.5-alpha版本,具体源码笔记可以参考我的github:https://github.com/saigu/JavaKnowledgeGraph/tree/master/code_read ...

  9. 「从零单排canal 07」 parser模块源码解析

    基于1.1.5-alpha版本,具体源码笔记可以参考我的github:https://github.com/saigu/JavaKnowledgeGraph/tree/master/code_read ...

随机推荐

  1. Leetcode14._最长公共前缀

    题目 编写一个函数来查找字符串数组中的最长公共前缀. 如果不存在公共前缀,返回空字符串 "". 示例 1: 输入: ["flower","flow&q ...

  2. Python连接SQLServer2000或连接mysql代码示例

    1.Python连接SQLServer2000 # 获取连接 import pymssql db = pymssql.connect('127.0.0.1', 'sa', 'ddh123', &quo ...

  3. 规范化开发和time相关模块

    1. 规范化开发 如果在开发的过程中将所有的程序放在一个py文件中,加载时会很慢,同时降低了代码的可读性,查询起来也麻烦 所以要将一个oy文件合理的分成多个py文件,在blog大目录下分为以下几个部分 ...

  4. AngularJS前端以ArrayBuffer类型请求后端数据以生成文件时,出现异常的处理

    .error(function(error){ var decodedString = String.fromCharCode.apply(null, new Uint8Array(error)); ...

  5. 关于php自学

    自己本人现在正在自学php有一段时间了,不知道现在的学习状态咋样,在我看来应该属于不算很糟糕,但有点糟糕的状态. 如果算学习自学php的话,现在断断续续应该是有5个月了,按理说是差不多可以做出独立项目 ...

  6. NopCommerce上二次开发 触发器记录

    最近要在NopCommerce上二次开发. 开发也就算了,该项目的架构设计很好,但性能不可谓不低. 扯远了,为了保持项目以后升级顺利,开次开发不允许在原项目基础上大改,只能以插件形式开发…… 因一个功 ...

  7. EL表达式详细教程

    EL 全名为Expression Language EL 语法很简单,它最大的特点就是使用上很方便.接下来介绍EL主要的语法结构: ${sessionScope.user.sex} 所有EL都是以${ ...

  8. JXJJOI2018_T3_catch

    题目描述 Lemon因为偶然的原因,当上了警察局长.而一上任,他就碰到了个大麻烦:追捕周克华. 周克华是人尽皆知的抢劫杀人犯,而就在几天前,他在Lemon辖区内的银行门口,枪杀了一名储户后逃之夭夭.L ...

  9. [资讯]同济D&I出品 | 绝对是史上最萌的机器人教具!!!

      机器人小曼……" 3D打印.激光切割等先进工艺. Anibot中包含三种不同的动物形象:小鸡安妮.小鹿安娜.猫头鹰安迪.孩子们通过对各个元器件的学习及编程确保它们幸福成长在阳光氤氲的森林 ...

  10. OpenStack官方镜像无法ssh登陆

    0x00 序 当前主流的Linux系统都有提供可以在OpenStack中直接使用cloud镜像,但当使用从官方网站下载的镜像创建云主机时,你会发现Linux下经常使用的ssh竟然无法登陆新创建好的云主 ...