Hbase Region合并

小跑、追幸福 2024-08-23 11:54:36 原文

业务场景：

Kafka+SparkStreaming+Hbase
由于数据大量的迁移，再加上业务的改动，新增了很多表，导致rerigon总数接近4万（36个节点）

组件版本：

Kafka：2.1.1

Spark：2.2.0-cdh5.12.0

Hbase：1.2.0-cdh5.12.0

问题发现：

CDH界面较多关于web服务器相应时间过长，和队列刷新速度较慢。
streaming界面，每隔一段时间就会需要较长的处理时间

解决过程：

【1】

首先把一些业务不需要的表disable掉，region下线，最后还剩2.5万个线上region，随后CDH页面无异常信息了，并且streaming处理时间都比较正常了（四类业务表现都相同）

【2】

由于业务上每月都会有新表，所以以上的操作不能满足，经过研究，可以在保证表的请求量不高的情况下，把当前表的region合并，从而减少region数。而且Hbase集群目前已经停掉了region自动分裂，所以不会有在合并完之后再分裂的情况。

禁用分裂机制：

集群配置：

理论上讲，现在regionserver分配了64G内存，0.8的写入高水位线，也就是64*0.8=51.2G用作写，每个memstore占用128M，这么算的话理论上也就每个server400多个region的时候，不会造成过早的flush，总共下来400*36个，现在已经是超负荷运行了，所以还需要将Region进行合并。

合并代码：

public class Hbase_Merge {

public static void main(String[] args) throws Exception {

Configuration conf = HBaseConfiguration.create();

conf.set("hbase.zookeeper.property.clientPort", "2181");

conf.set("hbase.zookeeper.quorum", "zk1,zk2,zk3");

HBaseAdmin admin = new HBaseAdmin(conf);

List<HRegionInfo> regions = admin.getTableRegions(TableName.valueOf("TableName"));

Collections.sort(regions, new Comparator<HRegionInfo>() {

@Override

public int compare(HRegionInfo o1, HRegionInfo o2) {

return Bytes.compareTo(o1.getStartKey(),o2.getStartKey());

}

});

HRegionInfo regionInfo =null;

for (HRegionInfo r : regions){

int index =regions.indexOf(r);

if(index %2 == 0){

regionInfo = r;

}else{

System.out.println("start to merge two regions,NUM:"+index+" and "+(index+1) );

admin.mergeRegions(regionInfo.getEncodedNameAsBytes(),r.getEncodedNameAsBytes(),false);

System.out.println("merge two regions finished");

}

}

System.out.println("merge all regions finished");

}

}

结果：

最终Region数大量减少，Streaming任务也恢复正常。

后记：

IO高峰为合并region导致的，入Hbase的程序都将受到影响，Streaming批处理时间增长，中间还伴随着Region-In-Transition（此处影响不大）

建议：避开业务高峰期对Region合并

这些都是之前存到有道上了，搬到这里费了好大的劲，还得不断学习，哈哈

Hbase Region合并的更多相关文章

HBase Region合并分析
1.概述 HBase中表的基本单位是Region,日常在调用HBase API操作一个表时,交互的数据也会以Region的形式进行呈现.一个表可以有若干个Region,今天笔者就来和大家分享一下Reg ...
hbase优化之region合并和压缩
HBASE操作:(一般先合并region然后再压缩) 一 .Region合并: merge_region 'regionname1','regionname2' ,'true' --true代表 ...
【原创】大叔问题定位分享（13）HBase Region频繁下线
问题现象:hive执行sql报错 select count(*) from test_hive_table; 报错 Error: java.io.IOException: org.apache.had ...
【转】HBASE Region in Transition issue on Master UI
[From]https://community.hortonworks.com/content/supportkb/244808/hbase-region-in-transition-issue-on ...
Hbase Region Server整体架构
Region Server的整体架构本文主要介绍Region的整体架构,后续再慢慢介绍region的各部分具体实现和源码 RegionServer逻辑架构图 RegionServer职责 1. ...
HBase Region重点剖析
Region的概念 Region是HBase数据管理的基本单位.数据的move,数据的balance,数据的split,都是按照region来进行操作的. region中存储这用户的真实数据,而为了管 ...
Hbase region 某个regionserver挂掉后的处理
aaarticlea/png;base64,iVBORw0KGgoAAAANSUhEUgAAAwoAAACdCAMAAAAjbX91AAAABGdBTUEAALGPC/xhBQAAAAFzUkdCAK
hbase region 分配方式
参与 Region 分配的重要对象在 Region 分配过程中,起着重要作用有如下一些对象. HMaster— 是 HBase 中的 Master server ,仅有一个. HRegionServ ...
HBase Region级别二级索引
我们会经常谈及二级索引,这是对全表数据进行另外一种方式的组织存储,是针对table级别的.如果要为HBase上的表实现一个强一致性的二级索引,那么就无法逃避分布式事务,而这一直是用户最期待的功能. 而 ...

随机推荐

zstd c++ string 压缩&解压
zstd 简介维基百科定义: Zstandard(或Zstd)是由Facebook的Yann Collet开发的一个无损数据压缩算法.该名称也指其C语言的参考实现.第1版的实现于2016年8月31日 ...
mysql 8.0 改变数据目录和日志目录（二）
一.背景原数据库数据目录:/data/mysql3306/data,日志文件目录:/data/mysql3306/binlog 变更后数据库目录:/mysqldata/3306/data,日志文件目 ...
软件工程与UML的第一次课
| 这个作业属于哪个课程 | https://edu.cnblogs.com/campus/fzzcxy/2018SE1 | | 这个作业要求在哪里 | https://edu.cnblogs.com ...
Kafka客户端编程入门介绍
1.maven依赖 <dependency> <groupId>org.apache.kafka</groupId> <artifactId>kafka ...
python 字典常用操作
字典键是唯一的,但值则不是一个简单的字典 dict = {"guo":"1106","tang":"0809",&qu ...
Flink 自定义触发器
import org.apache.flink.api.common.state.ReducingState; import org.apache.flink.api.common.state.Red ...
javaweb练手项目jsp+servlet简易购物车系统
简易购物车项目这是一个用intellij IDEA做的简易的javaweb项目,开发环境使用的jdk1.8和tomcat8以及mysql数据库. 1.项目开发准备: 创建github仓库项目框架搭 ...
C#中的深度学习（一）：使用OpenCV识别硬币
在本系列文章中,我们将使用深度神经网络(DNN)来执行硬币识别.具体来说,我们将训练一个DNN识别图像中的硬币. 在本文中,我们将描述一个OpenCV应用程序,它将检测图像中的硬币.硬币检测是硬币完整 ...
阿里云Centos7.6上面部署基于redis的分布式爬虫scrapy-redis将任务队列push进redis
Scrapy是一个比较好用的Python爬虫框架,你只需要编写几个组件就可以实现网页数据的爬取.但是当我们要爬取的页面非常多的时候,单个服务器的处理能力就不能满足我们的需求了(无论是处理速度还是网络请 ...
快速理解Python异步编程的基本原理
第一个例子假设你需要用电饭煲煮饭,用洗衣机洗衣服,给朋友打电话让他过来吃饭.其中,电饭煲需要30分钟才能把饭煮好,洗衣机需要40分钟才能把衣服洗好,朋友需要50分钟才能到你家.那么,是不是你需要在这 ...