Hbase笔记——RowKey设计

一）、什么情况下使用Hbase

1）传统数据库无法承载高速插入、大量读取。

2）Hbase适合海量，但同时也是简单的操作。

3）成熟的数据分析主题，查询模式确立不轻易改变。

二）、现实场景

1、电商浏览历史

问题：

传统数据库

数据量很大，事情会变得复杂。

Order by 消耗很多性能。

大量发生又无法分布式处理，顾客需要事实看到自己足迹，传统数据库无法使用缓存。

Hbase

面向时间查询。

基于行健查询速度快，新产生数据存于内存中的memstore，完全没有IO开销。

分布式化解负荷。

思路:

RoeKey：userid

列族和列：book：bookid

/如果用userid作为RowKey进行存储，会发生因Rowkey范围制动进行分配存储节点时会发生因范围过小而之分配到一个或几个节点上发挥不出分布式系统的性能，

****为了充分利用分布式可以进行reverse key，Hash技巧进行行健设计。

reverse key 将userid进行导置如 userid为 11，12，13，14，15，16，17，18，19，20，11，12。

进行reverse key后会变成 21，11，02，91，81，71，61，51，41，31，21，11.这样会随机画的分配到多个节点上。

Hash

将userid进行hash生成hash值进行userid映射。

2、浏览XXXX贴子的人还浏览了XXX贴

Hbase实现

两张表，u-t，t-u

U-t结构：RowKey为userid，列族和列thread：threadid

T-u结构：RowKey为userid，列族和列user：userid

查询：t-u threadid->userid 再从u-t userid->threadid, 获得笛卡尔积（会存在大量无用数据）在程序中去重和统计。

2、多条件查询

例子：Student（sno,cardid,sname,sex,age）有时以sno进行查询，有事以cardid进行查询。

问题：传统型数据库中，一张中可以有多个字段为查询条件，但Hbase中只可以对Rowkey进行条件查询，

解决方案：主表 RowKey：sno。列族为学生列为 cardid，name,sex,age.

辅助表：RowKey：cardid 列族和列为 sno。

复合行键设计

例子;

Userid (用户id)、 Messageid（邮件id）、<email-message>(邮件内容)

有时需要查询某人的所有邮件（Rowkey为userid即可），有事又需要查询某人具体的邮件（userid和 Messageid为查询条件，如果邮件又1000+利用辅助表进行查询不是十分适合）利用复合行键 RowKey：userid-Messageid 对userid查询时，对RowKey进行分词，

好处：便于分布式，便于多条件伸缩查询。

此随笔非原创

Hbase笔记——RowKey设计的更多相关文章

大数据性能调优之HBase的RowKey设计
1 概述 HBase是一个分布式的.面向列的数据库,它和一般关系型数据库的最大区别是:HBase很适合于存储非结构化的数据,还有就是它基于列的而不是基于行的模式. 既然HBase是采用KeyValue ...
HBase之六：HBase的RowKey设计
数据模型我们可以将一个表想象成一个大的映射关系,通过行健.行健+时间戳或行键+列(列族:列修饰符),就可以定位特定数据,Hbase是稀疏存储数据的,因此某些列可以是空白的, Row Key Time ...
Hadoop生态圈-Hbase的rowKey设计原则
Hadoop生态圈-Hbase的rowKey设计原则作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任.
Hbase的rowkey设计
HBase的rowKey设计技巧 1.设计宗旨与目标主要目的就是针对特定的业务模型,按照rowKey进行预分区设计,使之后面加入的数据能够尽可能的分散于不同的rowKey中.比如复合RowKey. ...
HBase的RowKey设计原则
HBase是三维有序存储的,通过rowkey(行键),column key(column family和qualifier)和TimeStamp(时间戳)这个三个维度可以对HBase中的数据进行快速定 ...
HBase的Rowkey设计（mark）
在HBase中细节上的设计,最最最重要的就是我该选取什么做Rowkey,Rowkey的选择,最直接的影响就是对你之后分析数据的影响了. Rowkey是不可分割的字节数,按照字典排序由低到高存储在表中. ...
HBase的rowkey设计（含实例）
转自:http://www.aboutyun.com/thread-7119-1-1.html 对于任何系统的数据设计,我们都想提高性能,达到资源最大化利用,那么对于hbase我们产生如下问题: 1. ...
hbase 利用rowkey设计进行多条件查询
摘要本文主要内容是通过合理Hbase 行键(rowkey)设计实现快速的多条件查询,所采用的方法将所有要用于查询中的列经过一些处理后存储在rowkey中,查询时通过rowkey进行查询,提高rowk ...
Hbase中rowkey设计原则
1.热点问题在某一时间段,有大量的数据同时对一个region进行操作 2.原因对rowkey的设计不合理对rowkey的划分不合理 3.解决方式 rowkey是hbase的读写唯一标识最大长度 ...

随机推荐

AngularJS初探：搭建PhoneCat项目的开发与测试环境
AngularJS官方网站提供了一个用于学习的示例项目:PhoneCat.这是一个Web应用,用户可以浏览一些Android手机,了解它们的详细信息,并进行搜索和排序操作. 对于PhoneCat项目的 ...
受限波兹曼机导论Introduction to Restricted Boltzmann Machines
Suppose you ask a bunch of users to rate a set of movies on a 0-100 scale. In classical factor analy ...
PHP程序员最常犯的11个MySQL错误
对于大多数web应用来说,数据库都是一个十分基础性的部分.如果你在使用PHP,那么你很可能也在使用MySQL—LAMP系列中举足轻重的一份子. 对于很多新手们来说,使用PHP可以在短短几个小时之内轻松 ...
IOS地址
IOS开发-你不可缺少的资源汇总-知识分享-转如何用Facebook graphic api上传视频: http://developers.facebook.com/blog/post/532/ ...
删除 GPT 保护分区
问题: 将内置和/或外置硬盘连接到 Windows XP 32 位操作系统时,将无法访问硬盘,“磁盘管理”将会报告该硬盘包含 GPT 保护分区.在此状态下,将无法对硬盘进行重新分区和格式化. 原因: ...
table share
每个表的表结构会放到table_def_cache中,一个table share对应一个实例 table share 又会实例化为一个对象, 每个进程,每个实例化的对象,
函数fsp_header_init
/**********************************************************************//** Initializes the space he ...
jquery图表插件morris.js参数详解和highcharts图表插件
一.morris.js 优点:轻巧.简单好用缺点:没highcharts功能多,常用的足以网址:http://morrisjs.github.io/morris.js/ 核心代码 1.head调用 ...
[swustoj 771] 奶牛农场
奶牛农场 Description 将军有一个用栅栏围成的矩形农场和一只奶牛,在农场的一个角落放有一只矩形的箱子,有一天将军要出门,他就把奶牛用一根绳子套牢,然后将绳子的另一端绑到了那个箱子不靠栅栏的角 ...
fiddler2抓包工具使用图文教程
fiddler2抓包工具使用图文教程三.fiddler实用功能使用说明: 1.fiddler捕获浏览器的会话: 能支持http代理的任意程序都能被fiddler捕获到,由于fiddler的运行机制就 ...

Hbase笔记——RowKey设计

Hbase笔记——RowKey设计的更多相关文章

随机推荐

热门专题