一. Hbase的region

我们先简单介绍下Hbase的架构和Hbase的region：

从物理集群的角度看，Hbase集群中，由一个Hmaster管理多个HRegionServer，其中每个HRegionServer都对应一台物理机器，一台HRegionServer服务器上又可以有多个Hregion（以下简称region）。要读取一个数据的时候，首先要先找到存放这个数据的region。而Spark在读取Hbase的时候，读取的Rdd会根据Hbase的region数量划分stage。所以当region存储设置得比较大导致region比较少，而spark的cpu core又比较多的时候，就会出现无法充分利用spark集群所有cpu core的情况。

我们再从逻辑表结构的角度看看Hbase表和region的关系。

Hbase是通过把数据分配到一定数量的region来达到负载均衡的。一个table会被分配到一个或多个region中，这些region会被分配到一个或者多个regionServer中。在自动split策略中，当一个region达到一定的大小就会自动split成两个region。
Region由一个或者多个Store组成，每个store保存一个columns family，每个Strore又由一个memStore和0至多个StoreFile组成。memStore存储在内存中，StoreFile存储在HDFS上。
region是HBase中分布式存储和负载均衡的最小单元。不同Region分布到不同RegionServer上，但并不是存储的最小单元。

二. Spark读取Hbase优化及region手动拆分

在用spark的时候，spark正是根据hbase有多少个region来划分stage。也就是说region划分得太少会导致spark读取时的并发度太低，浪费性能。但如果region数目太多就会造成读写性能下降，也会增加ZooKeeper的负担。所以设置每个region的大小就很关键了。

自0.94.0版本以来，split还有三种策略可以选择，不过一般使用默认的分区策略就可以满足需求，我们要修改的是会触发region分区的存储容量大小。

而在0.94.0版本中，默认的region大小为10G，就是说当存储的数据达到10G的时候，就会触发region分区操作。有时候这个值可能太大，这时候就需要修改配置了。我们可以在HBASE_HOME/conf/hbase-site.xml文件中，增加如下配置：

<property>

<name>hbase.hregion.max.filesize</name>

<value>536870912</value>

</property>

其中的value值就是你要修改的触发region分区的大小，要注意这个值是以bit为单位的，这里是将region文件的大小改为512m。

修改之后我们就可以手动split region了，手动分区会自动根据这个新的配置值大小，将region已经存储起来的数据进行再次进行拆分。

我们可以在hbase shell中使用split来进行操作，有以下几种方式可以进行手动拆分。

split ‘tableName’

split ‘namespace:tableName’

split ‘regionName’ # format: ‘tableName,startKey,id’

split ‘tableName’, ‘splitKey’

split ‘regionName’, ‘splitKey’

这里使用的是split‘namespace:tableName’这种方式。其中tableName自不必多说，就是要拆分的表名，namespace可以在hbase的web界面中查看，一般会是default。

使用命令之后稍等一会，hbase会根据新的region文件大小去split，最终结果可以在web-ui的"table Details"一栏，点击具体table查看。

以上~

Spark读Hbase优化 --手动划分region提高并行数的更多相关文章

Spark读HBase写MySQL
1 Spark读HBase Spark读HBase黑名单数据,过滤出当日新增userid,并与mysql黑名单表内userid去重后,写入mysql. def main(args: Array[Str ...
HBase Shell手动移动Region
在生产环境中很有可能有那么几个Region比较大,但是都运行在同一个Regionserver中. 这个时候就需要手动将region移动到负载低的Regionserver中. 步骤: 1.找到要移动的r ...
IDEA中Spark读Hbase中的数据
import org.apache.hadoop.hbase.HBaseConfiguration import org.apache.hadoop.hbase.io.ImmutableBytesWr ...
IDEA中 Spark 读Hbase 报错处理：
SLF4J: Actual binding is of type [org.slf4j.impl.Log4jLoggerFactory] // :: ERROR RecoverableZooKeepe ...
Spark 读 Hbase
package com.grady import org.apache.hadoop.hbase.HBaseConfiguration import org.apache.hadoop.hbase.c ...
HBase最佳实践－读性能优化策略
任何系统都会有各种各样的问题,有些是系统本身设计问题,有些却是使用姿势问题.HBase也一样,在真实生产线上大家或多或少都会遇到很多问题,有些是HBase还需要完善的,有些是我们确实对它了解太少.总结 ...
spark sql读hbase
项目背景 spark sql读hbase据说官网如今在写,但还没稳定,所以我基于hbase-rdd这个项目进行了一个封装,当中会区分是否为2进制,假设是就在配置文件里指定为#b,如long#b,还实用 ...
hbase优化之region合并和压缩
HBASE操作:(一般先合并region然后再压缩) 一 .Region合并: merge_region 'regionname1','regionname2' ,'true' --true代表 ...
spark读HFile对hbase表数据进行分析
要求:计算hasgj表,计算每天新增mac数量. 因为spark直接扫描hbase表,对hbase集群访问量太大,给集群造成压力,这里考虑用spark读取HFile进行数据分析. 1.建立hasgj表 ...

随机推荐

[Swift]LeetCode466. 统计重复个数 | Count The Repetitions
Define S = [s,n] as the string S which consists of n connected strings s. For example, ["abc&qu ...
CentOS随笔——Service与防火墙关闭
Service后台服务管理基本语法 service 服务名 start 开启服务 service 服务名 stop 关闭服务 service 服务名 restart 重启服务 service 服务名 ...
VSCode与Deepin资源管理器冲突
解决方式: xdg-mime default dde-file-manager.desktop inode/directory 此外,网上有较多推荐(在deepin 15.8版本上测试无效): gvf ...
解决 python 读取文件乱码问题（UnicodeDecodeError）
解决 python 读取文件乱码问题(UnicodeDecodeError) 确定你的文件的编码,下面的代码将以'utf-8'为例,否则会忽略编码错误导致输出乱码解决方案一 with open(r' ...
npm私有仓库配置verdaccio在docker环境
前端开发过程中,少不了自己封装一些通用的包,但又不想放在公共的平台,所以搭建一个npm私有的仓库是很有必要的. 在这里简单介绍如何使用 verdoccio 在docker环境下的配置.verdocci ...
动手实现一个 LRU cache
前言 LRU 是 Least Recently Used 的简写,字面意思则是最近最少使用. 通常用于缓存的淘汰策略实现,由于缓存的内存非常宝贵,所以需要根据某种规则来剔除数据保证内存不被撑满. 如常 ...
【干货】.NET WebApi HttpMessageHandler管道
消息拦截器是一个类,接收 HTTP request并返回 HTTP response,Message handler 继承自抽象类 HttpMessageHandler,那么学习消息过滤器之前你应该了 ...
基础才是重中之重~Dictionary<K,V>里V的设计决定的性能
回到目录字典对象Dictionary<K,V>我们经常会用到,而在大数据环境下,字典使用不当可能引起性能问题,严重的可能引起内在的溢出! 字典的值建议为简单类型,反正使用Tuple< ...
VSCode搭建Vue项目
在vscode上搭建一个vue项目---初学总结. 1.假设Vscode.nodejs等已经安装好了. 2.全局安装vue-cli,vue-cli可以帮助我们快速构建Vue项目. 安装命令: npm ...
Spring IOC核心源码学习
1. 初始化大致单步跟了下Spring IOC的初始化过程,整个脉络很庞大,初始化的过程主要就是读取XML资源,并解析,最终注册到Bean Factory中: 在完成初始化的过程后,Bean们就在B ...

Spark读Hbase优化 --手动划分region提高并行数

一. Hbase的region

二. Spark读取Hbase优化及region手动拆分

Spark读Hbase优化 --手动划分region提高并行数的更多相关文章

随机推荐

热门专题