一)、什么情况下使用Hbase

1)传统数据库无法承载高速插入、大量读取。

2)Hbase适合海量,但同时也是简单的操作。

3)成熟的数据分析主题,查询模式确立不轻易改变。

二)、现实场景

1、电商浏览历史

问题:

传统数据库

数据量很大,事情会变得复杂。

Order by 消耗很多性能。

大量发生又无法分布式处理,顾客需要事实看到自己足迹,传统数据库无法使用缓存。

Hbase

面向时间查询。

基于行健查询速度快,新产生数据存于内存中的memstore,完全没有IO开销。

分布式化解负荷。

思路:

RoeKey:userid

列族和列:book:bookid

/如果用userid作为RowKey进行存储,会发生因Rowkey范围制动进行分配存储节点时会发生因范围过小而之分配到一个或几个节点上发挥不出分布式系统的性能,

****为了充分利用分布式可以进行reverse  key,Hash技巧进行行健设计。

reverse  key    将userid进行导置如 userid为 11,12,13,14,15,16,17,18,19,20,11,12。

进行reverse  key后会变成 21,11,02,91,81,71,61,51,41,31,21,11.这样会随机画的分配到多个节点上。

Hash

将userid进行hash生成hash值进行userid映射。

2、浏览XXXX贴子的人还浏览了XXX贴

Hbase实现

两张表,u-t,t-u

U-t结构:RowKey为userid,列族和列thread:threadid

T-u结构:RowKey为userid,列族和列user:userid

查询:t-u  threadid->userid   再从u-t userid->threadid,  获得笛卡尔积(会存在大量无用数据)在程序中去重和统计。

2、多条件查询

例子:Student(sno,cardid,sname,sex,age)有时以sno进行查询,有事以cardid进行查询。

问题:传统型数据库中,一张中可以有多个字段为查询条件,但Hbase中只可以对Rowkey进行条件查询,

解决方案:主表 RowKey:sno。列族为学生 列为  cardid,name,sex,age.

辅助表:RowKey:cardid   列族和列为 sno。

复合行键设计

例子;

Userid (用户id)、 Messageid(邮件id)、<email-message>(邮件内容)

有时需要查询某人的所有邮件(Rowkey为userid即可),有事又需要查询某人具体的邮件(userid和 Messageid为查询条件,如果邮件又1000+利用辅助表进行查询不是十分适合)利用复合行键 RowKey:userid-Messageid    对userid查询时,对RowKey进行分词,

好处:便于分布式,便于多条件伸缩查询。

此随笔非原创

Hbase笔记——RowKey设计的更多相关文章

  1. 大数据性能调优之HBase的RowKey设计

    1 概述 HBase是一个分布式的.面向列的数据库,它和一般关系型数据库的最大区别是:HBase很适合于存储非结构化的数据,还有就是它基于列的而不是基于行的模式. 既然HBase是采用KeyValue ...

  2. HBase之六:HBase的RowKey设计

    数据模型 我们可以将一个表想象成一个大的映射关系,通过行健.行健+时间戳或行键+列(列族:列修饰符),就可以定位特定数据,Hbase是稀疏存储数据的,因此某些列可以是空白的, Row Key Time ...

  3. Hadoop生态圈-Hbase的rowKey设计原则

    Hadoop生态圈-Hbase的rowKey设计原则 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任.

  4. Hbase的rowkey设计

    HBase的rowKey设计技巧 1.设计宗旨与目标 主要目的就是针对特定的业务模型,按照rowKey进行预分区设计,使之后面加入的数据能够尽可能的分散于不同的rowKey中.比如复合RowKey. ...

  5. HBase的RowKey设计原则

    HBase是三维有序存储的,通过rowkey(行键),column key(column family和qualifier)和TimeStamp(时间戳)这个三个维度可以对HBase中的数据进行快速定 ...

  6. HBase的Rowkey设计(mark)

    在HBase中细节上的设计,最最最重要的就是我该选取什么做Rowkey,Rowkey的选择,最直接的影响就是对你之后分析数据的影响了. Rowkey是不可分割的字节数,按照字典排序由低到高存储在表中. ...

  7. HBase的rowkey设计(含实例)

    转自:http://www.aboutyun.com/thread-7119-1-1.html 对于任何系统的数据设计,我们都想提高性能,达到资源最大化利用,那么对于hbase我们产生如下问题: 1. ...

  8. hbase 利用rowkey设计进行多条件查询

    摘要 本文主要内容是通过合理Hbase 行键(rowkey)设计实现快速的多条件查询,所采用的方法将所有要用于查询中的列经过一些处理后存储在rowkey中,查询时通过rowkey进行查询,提高rowk ...

  9. Hbase中rowkey设计原则

    1.热点问题 在某一时间段,有大量的数据同时对一个region进行操作 2.原因 对rowkey的设计不合理 对rowkey的划分不合理 3.解决方式 rowkey是hbase的读写唯一标识 最大长度 ...

随机推荐

  1. CMake学习(1)---简单程序与库

    cmake是linux平台下重要的工具,可以方便的组织makefile.之前一直在windows平台下进行软件开发,在vs2010的IDE里,只要一点run程序就能跑出结果.但是程序的编译并没有那么简 ...

  2. Django admin site(二)ModelAdmin methods

    ModelAdmin methods save_model(request, obj, form, change) 此方法为admin界面用户保存model实例时的行为.request为HttpReq ...

  3. Docker实例教程[超详细](一)

    Docker Docker 是一个开源的应用容器引擎,让开发者可以打包他们的应用以及依赖包到一个可移植的容器中,然后发布到任何流行的 Linux 机器上,也可以实现虚拟化.容器是完全使用沙箱机制,相互 ...

  4. AXURE制作APP抽屉式菜单

    1.拖一个dynamic panel到窗体,将State1改名为State_首页: 2.拖2个dynamic panel到State_首页中,分别命名为侧边菜单及首页内容,首页内容盖住侧边菜单: 3. ...

  5. jsp获取struts2查询到的数据

    1.在struts2的方法中利用查询语句查询到结果,然后再对结果进行封装,jsp根据封装获取相关信息 struts2的查询和封装方法: private List<FreeMarkerDetail ...

  6. 我的MYSQL学习心得

    我的MYSQL学习心得(一) 简单语法 我的MYSQL学习心得(二) 数据类型宽度 我的MYSQL学习心得(三) 查看字段长度 我的MYSQL学习心得(四) 数据类型 我的MYSQL学习心得(五) 运 ...

  7. POJ 2947 Widget Factory (高斯消元 判多解 无解 和解集 模7情况)

    题目链接 题意: 公司被吞并,老员工几乎全部被炒鱿鱼.一共有n种不同的工具,编号1-N(代码中是0—N-1), 每种工具的加工时间为3—9天 ,但是现在老员工不在我们不知道每种工具的加工时间,庆幸的是 ...

  8. LA 4123 (计数 递推) Glenbow Museum

    题意: 这种所有边都是垂直或水平的多边形,可以用一个字符串来表示,一个270°的内角记作O,一个90°的内角记作R. 如果多边形内存在一个点,能看到该多边形所有的点,则这个多边形对应的序列是合法的.这 ...

  9. LeetCode Best Time to Buy and Sell Stock 买卖股票的最佳时机 (DP)

    题意:给定一个序列,第i个元素代表第i天这支股票的价格,问在最佳时机买入和卖出能赚多少钱?只买一次,且仅1股,假设本钱无限. 思路:要找一个最低价的时候买入,在最高价的时候卖出利润会最大.但是时间是不 ...

  10. Egret应用开发实践(01) Egret与WebPack

    Egret Egret引擎是一款使用TypeScript语言构建的开源免费的移动游戏引擎.Egret仅是纯粹的使用TypeScript语言来开发游戏,开发后可以使用Egret来打包为HTML5网页游戏 ...