HBase基于region数目和data locality来balance regions

1. 在Hbase的运维过程中，我们经常需要做如下操作：

移动 regionserver 到其他的 regionserver group中
下线一台机器
增加一台机器
移动 table 到其他 regionserver group中。

2. 在进行上述操作的过程中，一个 regionserver 上的 regions，或者一个 table 的 regions 都会重新进行分配，这样的分配过程是 HBase 控制的，我们无法控制一个 region 会移动到哪一个 regionserver 上。

3. 在 region 提供服务的过程中，影响服务质量的因素有：

regionserver的负载情况，一般来说，region 的数目越多，如果不考虑热键的话regionserver的负载也会越高。
regionserver机器的性能，性能越好的机器，可以提供越多的服务，在异构的HBase集群中，尤其明显。对于一些比较重要的表我们会把它们放在性能比较好的机器上。
region的cache locality，region在服务的过程中，会通过memstore&blockcache缓冲机制来提高服务的速度，当region迁移后，region会丢失缓冲。
data locality，data locality用来衡量region服务的数据即region的HFile位于本地的程度，在region写HFile的时候，根据HDFS的replica策略，至少会有一个备份存储在本地，因此随着时间的推移，region的locality会逐渐趋于1。region迁移的时候，不一定能移动到正好有这个region数据备份的机器上，因此，数据就会从其他节点获取，造成网络开销增加，延迟增加。

4. 考虑上面情况，我们希望可以人工干预region的迁移，比如下线一台机器之前，我们可以先把它上面的region移动到最合适的位置，然后再把机器下线。我们的移动策略有:

cache locality：尽可能保证region的位置不发生移动。
data locality：尽可能把region迁移到data locality高的节点。
region count：尽可能使得region的数目分配均衡，不给单一节点造成较大的压力。
Ability and responsibility：性能越好的机器，需要承担更多的责任。

5. 总结以上需求，我们需要这样一个工具：

输入1——table 我们需要balance的表，这是我们操作的基本单位。
输入2——server list，我们需要把表中的数据balance到那些机器上，通过用户提供列表可以非常方便实现机器的增加和减少，以及把table上的region移动到指定机器上。在提供server list的时候可以指定机器的性能参数。
输入3——balance的策略

6. 具体实现可见github：git@github.com:LiuPeien/hbase-balance-util.git

HBase基于region数目和data locality来balance regions的更多相关文章

HBase单个RegionServer的region数目上限
前言 RegionServer维护Master分配给它的region,处理对这些region的IO请求,负责切分在运行过程中变得过大的region, 由于集群性能( 分配的内存和磁盘是有限的 )有限的 ...
HBase -- 基于HDFS的开源分布式NoSQL数据库
HBase(Hadoop Database)是一个高可靠性.高性能.面向列.可伸缩的分布式存储系统,我们可以利用HBase技术在廉价的PC上搭建起大规模结构化存储集群.同Google的Bigtable ...
HBase之五：hbase的region分区
一.Region 概念 Region是表获取和分布的基本元素,由每个列族的一个Store组成.对象层级图如下: Table (HBase table) Region (Regions for the ...
【转帖】HBase之五：hbase的region分区
HBase之五:hbase的region分区 https://www.cnblogs.com/duanxz/p/3154487.html 一.Region 概念 Region是表获取和分布的基本元素, ...
hbase的region
一.Region 概念 Region是表获取和分布的基本元素,由每个列族的一个Store组成.对象层级图如下: Table (HBase table) Region (Regions for the ...
hbase删除region块的脚本
删除hbase表region块脚本文件hua.txt格式: CHAT_INFO,1318153079100530000314050,1318173760068.991ca04ff164c3f7987 ...
Spark笔记之数据本地性（data locality）
一.什么是数据本地性(data locality) 大数据中有一个很有名的概念就是"移动数据不如移动计算",之所以有数据本地性就是因为数据在网络中传输会有不小的I/O消耗,如果能够 ...
Hadoop生态圈-Hbase的Region详解
Hadoop生态圈-Hbase的Region详解作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任.
HBase，region以及HFile概念
什么是HBase的Region? 大家一定对一个词不陌生:域分区,这个域就是Region:Region定义为key的一个取值范围的子集的数据载体:比如常见的域分区有固定大小分区,比如1-10一个reg ...

随机推荐

Linux基础命令---lsusb
lsusb 显示本机的usb设备列表,可以显示出usb的详细信息,包括设备的读取速度和描述符.此命令的适用范围:RedHat.RHEL.Ubuntu.CentOS.SUSE.openSUSE ...
案例：java进制互转
十进制转成十六进制: Integer.toHexString(int i) 十进制转成八进制 Integer.toOctalString(int i) 十进制转成二进制 Integer.toBina ...
Python之路----迭代器与生成器
一.迭代器 L=[1,,2,3,4,5,] 取值:索引.循环for 循环for的取值:list列表 dic字典 str字符串 tuple元组 set f=open()句柄 range() enumer ...
MySQL数据库----存储引擎
什么是存储引擎? 存储引擎说白了就是如何存储数据.如何为存储的数据建立索引和如何更新.查询数据等技术的实现方法.因为在关系数据库中数据的存储是以表的形式存储的,所以存储引擎也可以称为表类型(即存储和操 ...
python之路----进程（一）
一.理论知识1.操作系统发展简介 1.没有操作系统 —— 穿孔卡片 2.批处理系统 —— 串行 ,速度块联机批处理读磁带的时候速度快脱机批处理读磁带和cpu工作并发 3.多道程序系统 —— 并 ...
bootstrap 日期控件常用选项
使用bootstrap作为UI基础之后,为了尽可能的保持系统风格的一致性,通常我们不太会考虑再引入My97DatePicker作为日期控件. 作为潜在实现的选择之一,http://www.bootcs ...
获取GetOpenFileName多选文件名
void CWriteWnd::OpenFileDialog() { OPENFILENAME ofn; TCHAR szOpenFileNames[*MAX_PATH] = _T("&qu ...
SQL语句查询同一个字符在某一个字符串中出现的次数
select len(replace(字段名A,';','--'))-len(字段名A) from table表名
DDMS files not found
在eclipse中启动新建的android项目的时候,控制台提示如图: 方法1.cmd中adb kill-server,然后adb -startserver 方法2.方法1不管用,那么在任务管理器中杀 ...
ACM-ICPC 2018 徐州赛区网络预赛A Hard to prepare（DP）题解
题目链接题意:有n个格子拉成一个环,给你k,你能使用任意个数的0 ~ 2^k - 1,规定操作 i XNOR j 为~(i ^ j),要求相邻的格子的元素的XNOR为正数,问你有几种排法,答案取 ...

HBase基于region数目和data locality来balance regions

HBase基于region数目和data locality来balance regions的更多相关文章

随机推荐

热门专题