前面，我们已经打下了很多关于HBase的理论基础，今天，我们主要聊聊在实际开发使用HBase中，需要关注的一些最佳实践经验。

1.Schema设计七大原则

1）每个region的大小应该控制在10G到50G之间；

2）一个表最好保持在 50到100个 region的规模；

3）每个cell最大不应该超过10MB，如果超过，应该有些考虑业务拆分，如果实在无法拆分，那就只能使用mob；

4）跟传统的关系型数据库不同，一个HBase的表中列族最多不超过3个，列族中的列可以动态添加的，不要设计过多列族；

5）列族名必须尽量短，因为我们知道在存储的时候，每个keyvalue都会包含列族名；

6）如果一个表存在一个以上的列族，那么必须要注意，不同列族之间行数相差不要太大。例如列族A有10万行，而列族B有1亿行，那么rowkey就有1亿行，而region是按照行键进行切分的，因此列族A可能会被打散为很多很多小region，这会导致在扫描列族A时会引发较多IO，效率低下。

7）列族可以设置TTL时间，HBase在超过设定时间后，会自动删除数据。

设置方法有两种：

# 建表时设置,TTL单位为秒，此例中列簇'f1'的数据保留1天（86400秒）

hbase(main):002:0>create 'table', {NAME => 'f1', TTL => 86400}

# 通过修改表设置

hbase(main):002:0>alter 'table', {NAME => 'f1', TTL => 86400}

这里需要注意，一旦超过设定时间后，该数据就无法读取了，但是，真正的过期数据删除，是发生在major compaction时。

2.RowKey设计三大策略

HBase作为一个分布式存储数据库，虽然扩容非常容易，但是，对于“热点”问题，还是非常头疼的。

所谓“热点”问题（HotSpotting），就是请求（读或者写）短时间内落在了集中的个别region上，导致了该region所在机器的负载急剧上升，超过了单点实例的承受能力，从而引起性能下降或者不可用。

要解决这个问题，就需要设计RowKey时，使得数据尽量往多个region上去写。

举个例子：

假如region按照26个字母分成26个，那么同时写入m开头的rowkey的记录都会同时写入同一个region

比如m001,m002,m003,m004,m005。

因此，RowKey的设计非常关键。常见的设计策略有这么几种。

1）salting

salting策略就是将生成随机数放在行键的开头作为前缀，使得每个行键有随机的字典序。

对上面的案例进行优化，我们采用了salting策略，插入前给每个rowkey生成一个随机的字母，变成了

am001,zm002,nm003,qm004,lm005

这样就能同时往5个region里面写入了，成功打散。

副作用：由于前缀生成是随机的，因此如果想要按照字典序查询这些行，则需要做更多的事情。从这个角度上看，salting增加了写操作的吞吐量，却也增大了读操作的开销。

2）Hashing

Hashing策略也是一种特殊的salting，是用一个单向的 hash 来取代随机指派前缀。

这样能使一个给定rowkey的行在“salted”时有相同的前缀，因此，这样既可以分散RegionServer间的负载的，同时也允许在读操作时能够预测这个前缀值是什么。确定性hash（ deterministic hash ）可以让客户端重建完整的行键，然后就可以像正常一样用Get方法查询确定的行。

3）reverse key

第三种预防hotspotting的方法是反转一段固定长度或者可数的键，让变化最多的某个位置放在rowkey的第一位，

副作用：对于Get操作没有影响，但是不利于Scan操作进行范围查询，因为数据在原RowKey上的顺序已经被打乱。

3.预分区

在 HBase核心特性—region split 中，我们知道已经提到过关于预分区。

主要原因是当一张表被首次创建时，只会分配一个region给这个表。因此，在刚刚开始时，所有读写请求都会落在这个region所在的region server上，而不管你整个集群有多少个region server。不能充分地利用集群的分布式特性。

因此，预分区主要也是解决“热点”问题。

最为常见的建表语句为：

create ‘tb’,{NAME => ‘f1’,COMPRESSION => ‘snappy’ }, { NUMREGIONS => 50, SPLITALGO => ‘HexStringSplit’ }

NUMREGIONS 为 region的个数，一般按照每个region 8-10GB左右来计算region数量，如果集群规模非常大，那么region数量可以适当取大一些
SPLITALGO 为 rowkey分割的算法，Hbase自带了三种pre-split的算法，分别是 HexStringSplit、DecimalStringSplit 和 UniformSplit。

各种Split算法适用场景：

HexStringSplit: rowkey是十六进制的字符串作为前缀的
DecimalStringSplit: rowkey是10进制数字字符串作为前缀的
UniformSplit: rowkey前缀完全随机

4.读性能优化

前面主要讲一些设计方面的优化点。

那如果在HBase的使用过程中，发现查询较慢，那么就需要根据具体情况，分析查询慢的原因，并采取相应的策略。

看到这里了，原创不易，点个关注、点个赞吧，你最好看了～

知识碎片重新梳理，构建Java知识图谱：https://github.com/saigu/JavaKnowledgeGraph（历史文章查阅非常方便）

扫码关注我的公众号“阿丸笔记”，第一时间获取最新更新。同时可以免费获取海量Java技术栈电子书、各个大厂面试题。

「从零单排HBase 06」你必须知道的HBase最佳实践的更多相关文章

「从零单排canal 06」 instance模块源码解析
基于1.1.5-alpha版本,具体源码笔记可以参考我的github:https://github.com/saigu/JavaKnowledgeGraph/tree/master/code_read ...
「从零单排canal 04」启动模块deployer源码解析
基于1.1.5-alpha版本,具体源码笔记可以参考我的github:https://github.com/saigu/JavaKnowledgeGraph/tree/master/code_read ...
「从零单排canal 05」 server模块源码解析
基于1.1.5-alpha版本,具体源码笔记可以参考我的github:https://github.com/saigu/JavaKnowledgeGraph/tree/master/code_read ...
「从零单排canal 07」 parser模块源码解析
基于1.1.5-alpha版本,具体源码笔记可以参考我的github:https://github.com/saigu/JavaKnowledgeGraph/tree/master/code_read ...
「从零单排canal 03」 canal源码分析大纲
在前面两篇中,我们从基本概念理解了canal是一个什么项目,能应用于什么场景,然后通过一个demo体验,有了基本的体感和认识. 从这一篇开始,我们将从源码入手,深入学习canal的实现方式.了解can ...
「从零单排canal 01」 canal 10分钟入门（基于1.1.4版本）
1.简介 canal [kə'næl],译意为水道/管道/沟渠,主要用途是基于 MySQL 数据库增量日志解析,提供增量数据订阅和消费.应该是阿里云DTS(Data Transfer Servi ...
「从零单排canal 02」canal集群版 + admin控制台最新搭建姿势（基于1.1.4版本）
canal [kə'næl],译意为水道/管道/沟渠,主要用途是基于 MySQL 数据库增量日志解析,提供增量数据订阅和消费.应该是阿里云DTS(Data Transfer Service)的开 ...
《HBase在滴滴出行的应用场景和最佳实践》
HBase在滴滴出行的应用场景和最佳实践背景对接业务类型 HBase是建立在Hadoop生态之上的Database,源生对离线任务支持友好,又因为LSM树是一个优秀的高吞吐数据库结构,所以同时 ...
「从零单排HBase 12」HBase二级索引Phoenix使用与最佳实践
Phoenix是构建在HBase上的一个SQL层,能让我们用标准的JDBC APIs对HBase数据进行增删改查,构建二级索引.当然,开源产品嘛,自然需要注意“避坑”啦,阿丸会把使用方式和最佳实践都告 ...

随机推荐

奇点云数据中台技术汇(一) | DataSimba——企业级一站式大数据智能服务平台
在这个“数据即资产”的时代,大数据技术和体量都有了前所未有的进步,若企业能有效使用数据,让数据赚钱,这必将成为企业数字化转型升级的有力武器. 奇点云自研的一站式大数据智能服务平台——DataSimba ...
[LC] 437. Path Sum III
You are given a binary tree in which each node contains an integer value. Find the number of paths t ...
EntityNotFoundException EntityExistException
package me.zhengjie.common.exception; import org.springframework.util.StringUtils; import java.util. ...
spring-boot jpa mysql emoji utfmb4 异常处理
spring-boot jpa mysql utf8mb4 emoji 写入失败 mysql database,table,column 默认为utf8mb4 Caused by: java.sql. ...
花生壳的ddns 关键时刻又掉链子，准备迁到阿里万网
https://www.oray.com/news/affiche/?aid=628 免费版花生壳服务故障因免费版机房线路节点负荷突然暴增,导致花生壳免费版登录缓慢或异常,或出现域名指向到127.0 ...
FPGA设计思想之串并转换
数据流中,用面积换速度-串行转并行的操作并行转串行数据输出:采用计数方法,将并行的数据的总数先表示出来,然后发送一位数据减一,后面的接收的这样表示: data_out <= data[cnt] ...
[洛谷P4782] [模板] 2-SAT 问题
NOIp后第一篇题解. NOIp我考的很凉啊...... 题目传送门之前讲过怎么判断2-SAT是否存在解. 至于如何构造一组解: 我们想到对tarjan缩点后的图进行拓扑排序. 那么对于代表0状态的 ...
关于apache的几个常见问题
一.安装apache的时候总是不成功,提示:failed to open the winnt service manager 原因:软件安装时与windows7的"用户账户控制"( ...
Android ListView 常用技巧总结
本文对 ListView 中的一些常用技巧做一个总结.附:虽然现在 RecyclerView 已逐渐取代 ListView,但实际情况是大部分项目中还在使用 ListView.当然,后续我会在我的博客 ...
js类型比较
比较数据类型做比较的三种方法typeofinstanceofObject.prototype.toString.call() javascript七大类型 javascript的数据类型分为两类:原始 ...