hbase实践之Rowkey设计之道

small_k 2024-11-06 11:38:39 原文

笔者从一开始接触hbase就在思考rowkey设计，希望rowkey设计得好，能够支持查询的需求。使用hbase一段时间后，再去总结一些hbase的设计方法，无外乎以下几种：

reverse
salt
hash

本质上都是避免热点问题。那么如何根据查询场景设计rowkey？rowkey设计之道是什么？

rowkey设计之道

hbase通过分治策略将数据分散到1-N个Region中，以满足业务的读写需求，合理的分配是关键，这就涉及rowkey的设计。

抛开缓存，只从rowke的角度来考虑读写，如果追求读取高效，则希望查询时的数据是相对集中的，扫描范围比较小；如果写入比较大，更多的是靠集群的性能来支撑，对负载均衡要求比较高，也就是要最大化发挥集群的性能。

rowkey的设计，主要是根据查询的需求来设计。

收集各种查询需求与时延要求
解决最主要的矛盾：最高频查询场景是什么？
其他的查询场景和频度？

接下来进一步细化：如各种查询中是否多维查询？等等

梳理数据的特点，可以将理论与实践更好的结合。如果不知道数据的分布特点，仅仅根据字段的情况来设计rowkey，会出现这种情况：

我们根据省份这个字段进行hash，将数据分散到不同的region，但问题是我们的用户很可能就是集中在某几个省份，像江浙沪这种经济发达的大省，这种rowkey的设计，就是忽略了数据分布的特点，造成了热点问题。其他忽略数据分布的特点，还容易造成数据分析过程中的数据倾斜问题。

所以在rowkey设计中要注意数据的分布特点，同时考虑数据的生命周期。

rowkey索引设计

二级索引

组合索引

rowkey索引设计，是rowkey设计之术。

小结

rowkey设计之术，只见树木不见森林，很容易让人迷茫。从rowkey设计之道出发，让我们不再徘徊。

参考文献

HBase RowKey与索引设计(PPT)

hbase实践之Rowkey设计之道的更多相关文章

hbase实践之rowkey设计
rowkey设计的重要性 rowkeys是HBase表设计中唯一重要的一点. rowkey设计要求唯一性存储特性按照字典顺序排序存储查询特性由于其存储特性导致查询特性: 查询单个记录: 查定 ...
Hbase 表的Rowkey设计避免数据热点
一.案例分析常见避免数据热点问题的处理方式有:加盐.哈希.反转等方法结合预分区使用. 由于目前原数据第一字段为时间戳形式,第二字段为电话号码,直接存储容易引起热点问题,通过加随机列.组合时间戳.字段 ...
Hadoop HBase概念学习系列之RowKey设计（二十九）
HBase里的RowKey设计,分为随机查询的RowKey设计和连续查询的RowKey设计.
Hbase Rowkey设计
转自:http://www.bcmeng.com/hbase-rowkey/ 建立Schema Hbase 模式建立或更新可以通过 Hbase shell 工具或者使用Hbase Java API 中 ...
HBase的RowKey设计原则
HBase是三维有序存储的,通过rowkey(行键),column key(column family和qualifier)和TimeStamp(时间戳)这个三个维度可以对HBase中的数据进行快速定 ...
大数据性能调优之HBase的RowKey设计
1 概述 HBase是一个分布式的.面向列的数据库,它和一般关系型数据库的最大区别是:HBase很适合于存储非结构化的数据,还有就是它基于列的而不是基于行的模式. 既然HBase是采用KeyValue ...
HBase Rowkey 设计指南
为什么Rowkey这么重要 RowKey 到底是什么我们常说看一张 HBase 表设计的好不好,就看它的 RowKey 设计的好不好.可见 RowKey 在 HBase 中的地位.那么 RowKey ...
Hbase rowkey设计+布隆过滤器+STORE FILE & HFILE结构
Rowkey设计 Rowkey设计原则 Rowkey设计应遵循以下原则: 1.Rowkey的唯一原则必须在设计上保证其唯一性.由于在HBase中数据存储是Key-Value形式,若HBase中同一表 ...
HBase之六：HBase的RowKey设计
数据模型我们可以将一个表想象成一个大的映射关系,通过行健.行健+时间戳或行键+列(列族:列修饰符),就可以定位特定数据,Hbase是稀疏存储数据的,因此某些列可以是空白的, Row Key Time ...

随机推荐

（六）Cookie 知识点总结（来自那些年的笔记）
如果你想要转载话,可不可以不要删掉下面的作者信息呀!: 作者:淮左白衣写于 2018年4月18日18:47:41 来源笔者自己之前学javaWeb的时候,写的笔记 : 目录如果你想要转载话,可 ...
Docker从国内代理下载镜像
docker从国内拉取镜像,或者通过加速器拉取由于国内访问直接访问Docker hub网速比较慢,拉取镜像的时间就会比较长.一般我们会使用镜像加速或者直接从国内的一些平台 ...
asp.net core-14.JWT认证授权生成 JWT Token
源码下载语言组织能力不好 ,看这个视频用visual studio code打开文件,运行dotnet watch run 之后在postman里面去访问拿到Token后
SVM的概率输出（Platt scaling）
SVM的概率输出(Platt scaling) 2015-10-22 10:38:19 闲渔Love吉他阅读数 8121 文章标签: Platt Scaling Calibr 更多分类专栏: 计算 ...
SCALA基础知识学习
注:本文只说和Java不同的地方. 总结自: Scala详细教程 Scala教程 scala基础语法 Scala 与 Java 的最大区别是:Scala 语句末尾的分号 ";" 是 ...
qt翻译和国际化的探讨。
这段时间一直都在怼qt的国际化,以前也接触过国际化,但是感觉不是那么的深刻,这次是因为一个项目要做一个国际化的版本,代码里面是不能出现中文的,所以就翻译了一下.qt用的是4.8.6 64位的,IDE( ...
（二）SpringBoot之springboot开发工具的使用以及springboot插件的功能
一.springboot开发工具的使用 1.1 在项目中添加springoot开发工具 1.2 功能修改代码后点击保存自动重启二.springboot插件的功能 2.1 maven配置 <p ...
C#基础--Virtual与abstract区别、重写
Virtual作用:子类可以对父类重写,虚方法是对多态特征体现.代表一类对象的所具有的公共属性或方法. public class Animal { public string Name { get; ...
.net Core如何对静态文件的访问进行鉴权操作？
之前给公司开发了一个文件管理服务,最基本的功能就是文件的上传下载,以及更新删除.预览:负责公司各个子系统的相关附件的管理,所有的接口都通过AOP来进行身份拦截认证了,但是在进行预览的时候,因为采用的是 ...
Java Web 深入分析（7） Jetty原理解析
1Jetty的基本架构 Jetty有一个基本的数据模型,这个模式就是handle,所有拷贝拓展的组件都被当做一个handler被添加到server中,然后由jetty统一管理. 1.1Jetty基本架 ...