首先要回答一个问题,为何要使用HBase?

随着业务不断发展、数据量不断增大,MySQL数据库存在这些问题:

  • MySQL支持的数据量为TB级,不能一直保留历史数据。而HBase支持的数据量为PB级,适合存储久远的历史冷数据
  • 新增列的代价较高,数据量越大耗费时间越长。而HBase可以随意增加列,空列不占据空间,业务模型可以灵活变化

要使用HBase,最重要的一点是rowkey行键设计,如果设计不妥,后续要改的代价非常大。

HBase行键设计原则

下面列几个HBase rowkey设计的原则:

  • 组合键:组合键是指拼接多个业务字段,如需查询,则业务字段必须作为rowKey的一部分
  • 字段顺序:一对多,则一应该放在前面,以便能够scan得到结果,如用户id:订单id,如果反过来则无法得到用户下的所有订单
  • 业务字段对齐长度:因为rowKey是按字典序排列的,所以需要对齐长度,比如id取12位,9位id前补齐3个0,否则就会出现123456789比654321比排在前面的问题。对齐长度后,000000654321排在000123456789之前,符合预期
  • 打散以避免热点:id与时间有关,随时间递增,如果不做处理可能导致部分节点有读写热点,加上前缀可以打散,如取 业务id的后几位 % region个数 作为rowKey的前缀

HBase应用举例

冷热数据分离

  • HBase适合作为冷数据存储,存储和查询海量历史数据
  • MySQL适合作为热存储存储,支持数据读写、事务操作
  • 归档近期未更新的历史数据,新增数据至HBase,再删除MySQL记录

流水记录

  • 流水记录可随时新增字段
  • 适合存储海量流水记录

简要回顾HBase架构

  • region:所有行按rowkey字典序排列,region是其中一部分,相当于分片,每个region只能在一个region server上
  • region server:可以包含一到多个region,调用HDFS的客户端接口对region所有数据进行读写操作
  • WAL:预写日志,WAL是Write-Ahead Log的缩写。预先写入,WAL是一个保险机制,数据在写到Memstore之前,先被写到WAL了。这样当故障恢复的时候可以从WAL中恢复数据
  • store:一个列族对应一个store,因此为了提高性能,不建议使用超过2个列族。一个store包含一个memstore和多个HFile
  • memstore:数据写入WAL之后就会被放入memstore,主要用于在内存中对行做排序,排序完成后再写入HFile
  • HFile:数据的存储实体,memstore写满后就会写入HFile
  • region自动分片(split)、合并(merge):region大小达到阈值后,会自动分区,反之会做合并region的操作
  • HFile合并(compaction):删除数据后会导致HFile变小,需要合并以减少HFile的数量,即减少碎片文件数量,提高寻址效率

架构师必备:HBase行键设计与应用的更多相关文章

  1. Hadoop HBase概念学习系列之优秀行键设计(十六)

    我们通过行键访问HBase.尽管使用扫描过滤器可以一次性指明大量的键,但是HBase仅仅能够根据行键识别出一行. 优秀的行键设计可以保证良好的HBase性能. 1.行键存在于HBase中的每一个单元格 ...

  2. 架构师必备:系统容量现状checklist

    正如飞机在起飞前,机长.副机长要过一遍checklist检查,确认没问题了才能起飞.楼主也整理了一个系统容量现状checklist,方便对照检查.本文搭配架构师必备:如何做容量预估和调优,食用更佳. ...

  3. Java架构师必备技能:docker使用大全

    前言   java工程师成长为架构师是一个艰难且耗费心力的过程,不仅仅需要熟悉java体系内相关的技术,同时要掌握许多运维相关的操作技能,随着k8s逐渐成为微服务持续集成开发难以越过的基础设施之后,d ...

  4. HBase行键的设计

    rowkey是行的主键,而且hbase只能用rowkey范围即scan来查找数据.rowkey是以字典排序的.可以巧妙设计行键,比如想通过电影的评价进行排序,可以把评分rate和电影id组合起来,ra ...

  5. 架构师必备:MySQL主从同步原理和应用

    日常工作中,MySQL数据库是必不可少的存储,其中读写分离基本是标配,而这背后需要MySQL开启主从同步,形成一主一从.或一主多从的架构,掌握主从同步的原理和知道如何实际应用,是一个架构师的必备技能. ...

  6. .NET架构师必备知识

    .NET架构师,我归纳一下要学的知识: 成为优秀程序员,需要学好的知识: 1. 面向对象编程.UML画图.设计模式.代码重构 2. 常用ORM工具 3.  MVC,WCF,XMl, JQuery ,S ...

  7. 架构师必备技能指南:SaaS(软件即服务)架构设计

    1.介绍 从计算机诞生开始,就伴随着计算机应用程序的演变.简短的回顾历史,我们可以清楚的看到应用程序发生的巨大变化.上世纪70年代中期,随着个人PC机的爆炸式增长以及程序员的崛起,让计算机的计算能力得 ...

  8. 架构师必备:巧用Canal实现异步、解耦的架构

    本文介绍如何应用Canal实现异步.解耦的架构,后续有空再写文章分析Canal原理和源代码. Canal简介 Canal是用来获取数据库变更的中间件. 伪装自己为MySQL从库,拉取主库binlog并 ...

  9. 金牌架构师:我们是这样设计APP数据统计产品的

    前言:近期,智能大数据服务商“个推”推出了应用统计产品“个数”,今天我们就和大家来谈一谈个数实时统计与AI数据智能平台整合架构设计. 很多人可能好奇,拥有数百亿SDK的个推,专注消息推送服务多年,现在 ...

随机推荐

  1. Smith数的判断

    题目描述: smith数是指满足下列条件的可分解的整数: 其所有位数上的数字和等于其全部素数因子的数字之和. 例如,9975是smith数,9975=3*5*5*7*19,即9975的数字和=因子的数 ...

  2. CCF201312-2ISBN号码

    问题描述 每一本正式出版的图书都有一个ISBN号码与之对应,ISBN码包括9位数字.1位识别码和3位分隔符,其规定格式如"x-xxx-xxxxx-x",其中符号"-&qu ...

  3. break,return,continue的区别和作用

    学习目标: 理解break.return.continue在循环中的区别和作用 学习内容: 1.break break表示结束当前所在的循环. 循环输出到3,当i等于4后,跳出当前循环,继续向下执行循 ...

  4. Mybatis个人笔记

    Mybatis 简介 官网地址:mybatis – MyBatis 3 | 简介 MyBatis 是一款优秀的持久层框架,它支持自定义 SQL.存储过程以及高级映射.MyBatis 免除了几乎所有的 ...

  5. Go语言 映射(map)

    Go语言  映射(map) 1. 什么是 map2. 创建 map3. 访问 map4. nil map和空map5. map中元素的返回值6. len()和delete()7. 测试map中元素是否 ...

  6. 痞子衡嵌入式:大话双核i.MXRT1170之单独在线调试从核工程的方法(IAR篇)

    大家好,我是痞子衡,是正经搞技术的痞子.今天痞子衡给大家分享的是i.MXRT1170下单独在线调试从核工程的方法(基于IAR). 两年前痞子衡写过一篇<双核i.MXRT1170之Cortex-M ...

  7. js的split函数

    split() 方法用于把一个字符串分割成字符串数组. separator 必需.字符串或正则表达式,从该参数指定的地方分割 stringObject. ***如果把空字符串 ("" ...

  8. Java Windows下读取注册表的工具类

    import java.io.BufferedReader; import java.io.IOException; import java.io.InputStreamReader; import ...

  9. .NET Core企业微信网页授权登录

    1.开发前准备 参数获取 corpid 每个企业都拥有唯一的corpid,获取此信息可在管理后台"我的企业"-"企业信息"下查看"企业ID" ...

  10. mysql常见的5种日志

    点赞再看,养成习惯,微信搜索「小大白日志」关注这个搬砖人. 文章不定期同步公众号,还有各种一线大厂面试原题.我的学习系列笔记. 错误日志(errorlog) 用来记录mysqlId的错误信息,如数据库 ...