《OD学HBase》20160820

一、案例

微博：

微博内容：

关注用户和粉丝用户：添加或移除关注用户

查看关注用户的微博内容

微博数据存储：

响应时间秒级无延迟

（1）mysql分布式

（2）hbase数据库

使用HBase数据库实现微博系统数据的存储

表的设计：

命名空间：weibo

1. 微博内容表

TableName： weibo:weibo-content

RowKey：用户ID_timestamp

列簇：cf

列标签： cf:content，cf:title，cf:photo

版本设计：只需要保留一个版本

2. 用户关系表

TableName： weibo:relations

rowkey：用户iID

列簇：

attend 关注用户

fan 粉丝用户

列标签：使用用户ID作为列标签，值为用户ID

rowkey 　　attend　　　　　　　　　　fan

0001 　 attend:0002=0002 fan:0004=0004

　 attend:0003=0003 fan:0004=0004

版本设计：只需要保留一个版本

3. 用户微博内容接收邮件箱表

TableName: weibo:receive-content-email

Rowkey：用户ID

列簇：cf

列标签：

直接使用用户ID，vlaue值取微博内容的rowkey

版本设计：设置最大版本为1000

rowkey　　cf

00001　　cf:0002=0002_2132455

　　　　　cf:0002=0002_2132456

1）rowkey设计：

（1）唯一性

（2）长度：最大64kb。rowkey是hbase中表数据冗余产生的因素

10~100 字节

最好 8字节 16字节 64位操作系统

（3）散列原则：

假如时间戳_用户ID 作为rowkey

10亿用户同时发微博，

1456777_000001

1456778_000002

1456778_100000

问题：集中到某个region，造成这单独几个region负载量偏大，而其他region完全没有负载

散列：尽量将某一时刻内的数据均衡分散到所有Region中（大部分Region）中

热点现象：数据在某一个时刻集中存储到某一两个Region上

rowkey设计规范；

方便查询，尽可能讲查询字段放到rowkey，HBase根据rowkey查询速度是最快。

2）列簇设计：

HBase面向列簇存储

region起始rowkey --- 终止rowkey范围内一个列簇下的数据

hdfs上的一个文件

StoreFile === HFile

跨列簇查询，速度相对较慢

一般设计一到两个列簇

HBase中的缓存

memstore: 写缓存

blockcache：块缓存，读缓存

HBase表单元格版本号：插入数据的时候如果没有单独制定，系统默认使用时间戳作为版本号。也可以自己制定时间戳。

Get查询单行记录，Scan查询多行记录

《OD学HBase》20160820的更多相关文章

《OD学HBase》20160821
一.HBase性能调优 1. JVM内存调优 MemStore内存空间,设置合理大小 memstore.flush.size 刷写大小 134217728 = 128M memstore.mslab. ...
《OD学HBase》20160814
一.HBase引入 http://hbase.apache.org/ 大数据的数据库 1. 概述 Hadoop生态系统中的一个分布式.可拓展.面向列.可伸缩,具有自动容错功能的数据库. NoSQL数据 ...
《OD学hive》第四周0717
一.Hive基本概念.安装部署与初步使用 1. 后续课程 Hive 项目:hadoop hive sqoop flume hbase 电商离线数据分析 CDH Storm:分布式实时计算框架 Spar ...
《OD学hadoop》20160903某旅游网项目实战
一.大数据的落地点 1.数据出售数据商城:以卖数据为公司的核心业务 2. 数据分析百度统计友盟 GA IBM analysis 3.搜索引擎 4. 推荐系统 mahout 百分比 5.精准营销 ...
《OD学Sqoop》数据转换工具Sqoop
一. 第二阶段课程回顾 hadoop 2.x HDFS YARN MapReduce Zookeeper Hive 二.大数据协作框架对日志类型的海量数据进行分析 hdfs mapreduce/hi ...
《OD学hadoop》第二周0702
大数据离线计算hadoop2.x 三周(6天) markdown文本剪辑器罗振宇--跨年演讲,时间的朋友 http://tech.163.com/16/0101/11/BC87H8DF000915B ...
《OD学hadoop》第一周0625
一.实用网站 1. linux内核版本 www.kernel.org 2. 查看网站服务器使用的系统 www.netcraft.com 二.推荐书籍 1. <Hadoop权威指南> 1- ...
一起学HBase——总结HBase中的PUT、GET、DELETE操作
传统的关系型数据库有CRUD增删改查操作,同样对于NoSQL列式数据库也有CRUD操作.本文对HBase中常用的Scan.GET.PUT.DELETE操作的用法做个总结. Put操作 Put相当于传统 ...
一起学HBase——简单介绍HBase各种组件
HBase是谷歌BigTble的开源实现.谷歌的三篇论文拉开了大数据江湖的序幕,铸就了现在以Hadoop为主的大数据技术生态圈.而HBase是开源的大数据数据库,和传统的行式数据库不同的是,HBase ...

随机推荐

android的布局管理器
理论上通过setContentView(view)能够把一个view设置到activity中,但当你有很多个view控件的时候,就需要用android的布局管理器来管理view控件了. android ...
第k短路
poj 2449 模板题 A*+spfa #include<iostream> #include<cstdio> #include<cstring> #inclu ...
来自平时工作中的javascript知识的积累---持续补充中
① SeaJs和RequireJS最大的区别解惑:来自豆友 ② javascript中如何判断undefined var exp = undefined; if (exp === undefined ...
thinkphp中SQLSTATE[42S02]: Base table or view not found: 1146 Table错误解决方法
随手记录下今天在thinkphp3.2.3中遇到的错误SQLSTATE[42S02]: Base table or view not found: 1146 Table 'test.file_info ...
context--command buffer
今天看了下 context ,因为要找怎么设置command buffer context为设备提供一些状态的设置和管理command buffer & const buffer buffe ...
查找出现次数大于n/k的重复元素
本文是对一篇英文论文的总结:Finding Repeated Elements.想看原文,请Google之. 这个问题的简单形式是“查找出现次数大于n/2的重复元素”.我们先从简单问题开始,然后再做扩 ...
Telnet、FTP、SSH、SFTP、SCP
[Telnet]著名的终端访问协议,传统的网络服务程序,如FTP.POP和Telnet,其本质上都是不安全的:因为它们在网络上用明文传送数据.用户帐号和用户口令. [telnet命令]telnet h ...
HDU4945 2048(dp)
先是看错题意..然后知道题意之后写了发dp..无限TLE..实在是不知道怎么优化了,跑了遍数据是对的,就当作理论AC掉好了.. #pragma warning(disable:4996) #inclu ...
LA 4287
Consider the following exercise, found in a generic linear algebra textbook. Let A be an n × n matri ...
POJ 1222
EXTENDED LIGHTS OUT Time Limit: 1000MS Memory Limit: 10000K Total Submissions: 6196 Accepted: 40 ...

《OD学HBase》20160820

《OD学HBase》20160820的更多相关文章

随机推荐

热门专题