HBase基于region数目和data locality来balance regions
1. 在Hbase的运维过程中,我们经常需要做如下操作:
- 移动 regionserver 到其他的 regionserver group中
- 下线一台机器
- 增加一台机器
- 移动 table 到其他 regionserver group中。
2. 在进行上述操作的过程中,一个 regionserver 上的 regions,或者一个 table 的 regions 都会重新进行分配,这样的分配过程是 HBase 控制的,我们无法控制一个 region 会移动到哪一个 regionserver 上。
3. 在 region 提供服务的过程中,影响服务质量的因素有:
- regionserver的负载情况,一般来说,region 的数目越多,如果不考虑热键的话regionserver的负载也会越高。
- regionserver机器的性能,性能越好的机器,可以提供越多的服务,在异构的HBase集群中,尤其明显。对于一些比较重要的表我们会把它们放在性能比较好的机器上。
- region的cache locality,region在服务的过程中,会通过memstore&blockcache缓冲机制来提高服务的速度,当region迁移后,region会丢失缓冲。
- data locality,data locality用来衡量region服务的数据即region的HFile位于本地的程度,在region写HFile的时候,根据HDFS的replica策略,至少会有一个备份存储在本地,因此随着时间的推移,region的locality会逐渐趋于1。region迁移的时候,不一定能移动到正好有这个region数据备份的机器上,因此,数据就会从其他节点获取,造成网络开销增加,延迟增加。
4. 考虑上面情况,我们希望可以人工干预region的迁移,比如下线一台机器之前,我们可以先把它上面的region移动到最合适的位置,然后再把机器下线。我们的移动策略有:
- cache locality:尽可能保证region的位置不发生移动。
- data locality:尽可能把region迁移到data locality高的节点。
- region count:尽可能使得region的数目分配均衡,不给单一节点造成较大的压力。
- Ability and responsibility:性能越好的机器,需要承担更多的责任。
5. 总结以上需求,我们需要这样一个工具:
- 输入1——table 我们需要balance的表,这是我们操作的基本单位。
- 输入2——server list,我们需要把表中的数据balance到那些机器上,通过用户提供列表可以非常方便实现机器的增加和减少,以及把table上的region移动到指定机器上。在提供server list的时候可以指定机器的性能参数。
- 输入3——balance的策略
6. 具体实现可见github:git@github.com:LiuPeien/hbase-balance-util.git
HBase基于region数目和data locality来balance regions的更多相关文章
- HBase单个RegionServer的region数目上限
前言 RegionServer维护Master分配给它的region,处理对这些region的IO请求,负责切分在运行过程中变得过大的region, 由于集群性能( 分配的内存和磁盘是有限的 )有限的 ...
- HBase -- 基于HDFS的开源分布式NoSQL数据库
HBase(Hadoop Database)是一个高可靠性.高性能.面向列.可伸缩的分布式存储系统,我们可以利用HBase技术在廉价的PC上搭建起大规模结构化存储集群.同Google的Bigtable ...
- HBase之五:hbase的region分区
一.Region 概念 Region是表获取和分布的基本元素,由每个列族的一个Store组成.对象层级图如下: Table (HBase table) Region (Regions for the ...
- 【转帖】HBase之五:hbase的region分区
HBase之五:hbase的region分区 https://www.cnblogs.com/duanxz/p/3154487.html 一.Region 概念 Region是表获取和分布的基本元素, ...
- hbase的region
一.Region 概念 Region是表获取和分布的基本元素,由每个列族的一个Store组成.对象层级图如下: Table (HBase table) Region (Regions for the ...
- hbase删除region块的脚本
删除hbase表region块脚本 文件hua.txt格式: CHAT_INFO,1318153079100530000314050,1318173760068.991ca04ff164c3f7987 ...
- Spark笔记之数据本地性(data locality)
一.什么是数据本地性(data locality) 大数据中有一个很有名的概念就是"移动数据不如移动计算",之所以有数据本地性就是因为数据在网络中传输会有不小的I/O消耗,如果能够 ...
- Hadoop生态圈-Hbase的Region详解
Hadoop生态圈-Hbase的Region详解 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任.
- HBase,region以及HFile概念
什么是HBase的Region? 大家一定对一个词不陌生:域分区,这个域就是Region:Region定义为key的一个取值范围的子集的数据载体:比如常见的域分区有固定大小分区,比如1-10一个reg ...
随机推荐
- python xml练习:从database.xml文件取databaselist的ip、name、passwd,写入列表
xml: <?xml version='1.1' encoding='utf-8'?><!--this is a test about xml--><databaseli ...
- win10如何设置自动睡眠时间(修改电源计划不好用的情况下)
https://answers.microsoft.com/en-us/windows/forum/windows_10-power/windows-10-sleeping-when-set-not- ...
- Linux服务器---安装Tomcat
安装Tomcat Tomcat作为web服务器实现了对servlet和jsp的支持,centos目前不支持yum方式安装.在使用Tomcat之前,确保你已经安装并配置好了jdk,而且jdk的版本要和t ...
- PowerDesigner 教程
摘自:http://www.cnblogs.com/advocate/p/3730027.html 目标:本文主要介绍PowerDesigner中概念数据模型 CDM的基本概念. 一.概念数据模型概述 ...
- 优化 MySQL: 3 个简单的小调整
我并不期望成为一个专家级的 DBA,但是,在我优化 MySQL 时,我推崇 80/20 原则,明确说就是通过简单的调整一些配置,你可以压榨出高达 80% 的性能提升.尤其是在服务器资源越来越便宜的当下 ...
- windows tomcat web应用以及eclipse console乱码解决方法
在windows下,如果vm文件名为UTF-8格式,则显示乱码(velocity写出的不乱码): 改回GBK,则不再乱码.
- 高通平台读写nv总结【转】
本文转载自:https://blog.csdn.net/suofeng12345/article/details/52713993 一,引言 1. 什么是NV 高通平台的NV,保 ...
- 分析linux内核中的slub内存管理算法
1. 分析的linux内核源码版本为4.18.0 2. 与slub相关的内核配置项为CONFIG_SLUB 3. 一切都从一个结构体数组kmalloc_caches开始,它的原型如下: ] __ro_ ...
- linux下使用grep在当前目录下搜索所有文件中含有的字符串
grep -r yourstr ./ 举例: grep -r sprintf ./ (在当前目录下递归查找含有字符串sprintf的文件)
- fastjson 简单使用 及其JSONObject使用
阿里巴巴FastJson是一个Json处理工具包,包括“序列化”和“反序列化”两部分,它具备如下特征:速度最快,测试表明,fastjson具有极快的性能,超越任其他的Java Json parser. ...