Hbase笔记——RowKey设计

一）、什么情况下使用Hbase

1）传统数据库无法承载高速插入、大量读取。

2）Hbase适合海量，但同时也是简单的操作。

3）成熟的数据分析主题，查询模式确立不轻易改变。

二）、现实场景

1、电商浏览历史

问题：

传统数据库

数据量很大，事情会变得复杂。

Order by 消耗很多性能。

大量发生又无法分布式处理，顾客需要事实看到自己足迹，传统数据库无法使用缓存。

Hbase

面向时间查询。

基于行健查询速度快，新产生数据存于内存中的memstore，完全没有IO开销。

分布式化解负荷。

思路:

RoeKey：userid

列族和列：book：bookid

/如果用userid作为RowKey进行存储，会发生因Rowkey范围制动进行分配存储节点时会发生因范围过小而之分配到一个或几个节点上发挥不出分布式系统的性能，

****为了充分利用分布式可以进行reverse key，Hash技巧进行行健设计。

reverse key 将userid进行导置如 userid为 11，12，13，14，15，16，17，18，19，20，11，12。

进行reverse key后会变成 21，11，02，91，81，71，61，51，41，31，21，11.这样会随机画的分配到多个节点上。

Hash

将userid进行hash生成hash值进行userid映射。

2、浏览XXXX贴子的人还浏览了XXX贴

Hbase实现

两张表，u-t，t-u

U-t结构：RowKey为userid，列族和列thread：threadid

T-u结构：RowKey为userid，列族和列user：userid

查询：t-u threadid->userid 再从u-t userid->threadid, 获得笛卡尔积（会存在大量无用数据）在程序中去重和统计。

2、多条件查询

例子：Student（sno,cardid,sname,sex,age）有时以sno进行查询，有事以cardid进行查询。

问题：传统型数据库中，一张中可以有多个字段为查询条件，但Hbase中只可以对Rowkey进行条件查询，

解决方案：主表 RowKey：sno。列族为学生列为 cardid，name,sex,age.

辅助表：RowKey：cardid 列族和列为 sno。

复合行键设计

例子;

Userid (用户id)、 Messageid（邮件id）、<email-message>(邮件内容)

有时需要查询某人的所有邮件（Rowkey为userid即可），有事又需要查询某人具体的邮件（userid和 Messageid为查询条件，如果邮件又1000+利用辅助表进行查询不是十分适合）利用复合行键 RowKey：userid-Messageid 对userid查询时，对RowKey进行分词，

好处：便于分布式，便于多条件伸缩查询。

此随笔非原创

Hbase笔记——RowKey设计的更多相关文章

大数据性能调优之HBase的RowKey设计
1 概述 HBase是一个分布式的.面向列的数据库,它和一般关系型数据库的最大区别是:HBase很适合于存储非结构化的数据,还有就是它基于列的而不是基于行的模式. 既然HBase是采用KeyValue ...
HBase之六：HBase的RowKey设计
数据模型我们可以将一个表想象成一个大的映射关系,通过行健.行健+时间戳或行键+列(列族:列修饰符),就可以定位特定数据,Hbase是稀疏存储数据的,因此某些列可以是空白的, Row Key Time ...
Hadoop生态圈-Hbase的rowKey设计原则
Hadoop生态圈-Hbase的rowKey设计原则作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任.
Hbase的rowkey设计
HBase的rowKey设计技巧 1.设计宗旨与目标主要目的就是针对特定的业务模型,按照rowKey进行预分区设计,使之后面加入的数据能够尽可能的分散于不同的rowKey中.比如复合RowKey. ...
HBase的RowKey设计原则
HBase是三维有序存储的,通过rowkey(行键),column key(column family和qualifier)和TimeStamp(时间戳)这个三个维度可以对HBase中的数据进行快速定 ...
HBase的Rowkey设计（mark）
在HBase中细节上的设计,最最最重要的就是我该选取什么做Rowkey,Rowkey的选择,最直接的影响就是对你之后分析数据的影响了. Rowkey是不可分割的字节数,按照字典排序由低到高存储在表中. ...
HBase的rowkey设计（含实例）
转自:http://www.aboutyun.com/thread-7119-1-1.html 对于任何系统的数据设计,我们都想提高性能,达到资源最大化利用,那么对于hbase我们产生如下问题: 1. ...
hbase 利用rowkey设计进行多条件查询
摘要本文主要内容是通过合理Hbase 行键(rowkey)设计实现快速的多条件查询,所采用的方法将所有要用于查询中的列经过一些处理后存储在rowkey中,查询时通过rowkey进行查询,提高rowk ...
Hbase中rowkey设计原则
1.热点问题在某一时间段,有大量的数据同时对一个region进行操作 2.原因对rowkey的设计不合理对rowkey的划分不合理 3.解决方式 rowkey是hbase的读写唯一标识最大长度 ...

随机推荐

Java多线程3：Thread中start()和run()的区别
原文:http://www.cnblogs.com/skywang12345/p/3479083.html start() 和 run()的区别说明start():它的作用是启动一个新线程,新线程会执 ...
AndroidRichText 让Textview轻松的支持富文本（图像ImageSpan、点击效果等等类似QQ微信聊天）
代码地址:https://github.com/Luction/AndroidRichText AndroidRichText帮助实现像QQ,微信一样的,一个TextView里既有文字又有表情又有图片 ...
PHP输出缓冲控制- Output Control 函数应用详解
说到输出缓冲,首先要说的是一个叫做缓冲器(buffer)的东西.举个简单的例子说明他的作用:我们在编辑一篇文档时,在我们没有保存之前,系统是不会向磁盘写入的,而是写到buffer中,当buffer写满 ...
Image.FrameDimensionsList 属性-----具体使用案例
上一篇中说到了图片的具体产生以及属性,本篇主要是具体的使用,详情案例见下面的具体视图及代码 using System;using System.Collections.Generic;using Sy ...
UVa 11995 I Can Guess the Data Structure!
做道水题凑凑题量,=_=||. 直接用STL里的queue.stack 和 priority_queue模拟就好了,看看取出的元素是否和输入中的相等,注意在此之前要判断一下是否非空. #include ...
BZOJ_1025_[SHOI2009]_游戏_(素数表+最小公倍数+DP)
描述 http://www.lydsy.com/JudgeOnline/problem.php?id=1025 分析对于$n$,转一圈回来之后其实是好几个环各转了整数圈.这些环中的数为\(1,2 ...
poj 2184 Cow Exhibition
// 给定n头牛,每头有属性智商和幽默感,这两个属性值有正有负,现在要从这n头牛中选出若干头使得他们的智商和与幽默感和不为负数,// 并且两者两家和最大,如果无解输出0,n<=100,-1000 ...
【jQuery】总结:筛选器、控制隐藏、操作元素style属性
筛选器 -> http://blog.csdn.net/lijinwei112/article/details/6938134 常用到的: $("tr[id=ac_"+id+ ...
【转载】图论 500题——主要为hdu/poj/zoj
转自——http://blog.csdn.net/qwe20060514/article/details/8112550 =============================以下是最小生成树+并 ...
[Everyday Mathematics]20150128
求极限 $$\bex \lim_{x\to 0}\sex{\frac{e^x+e^{2x}+\cdots+e^{nx}}{n}}^\frac{1}{x}. \eex$$

Hbase笔记——RowKey设计

Hbase笔记——RowKey设计的更多相关文章

随机推荐

热门专题