《OD学HBase》20160820
一、案例
微博:
微博内容:
关注用户和粉丝用户: 添加或移除关注用户
查看关注用户的微博内容
微博数据存储:
响应时间 秒级 无延迟
(1)mysql分布式
(2)hbase数据库
使用HBase数据库实现微博系统数据的存储
表的设计:
命名空间:weibo
1. 微博内容表
TableName: weibo:weibo-content
RowKey:用户ID_timestamp
列簇:cf
列标签: cf:content,cf:title,cf:photo
版本设计:只需要保留一个版本
2. 用户关系表
TableName: weibo:relations
rowkey: 用户iID
列簇:
attend 关注用户
fan 粉丝用户
列标签:使用用户ID作为列标签,值为用户ID
rowkey attend fan
0001 attend:0002=0002 fan:0004=0004
attend:0003=0003 fan:0004=0004
版本设计:只需要保留一个版本
3. 用户微博内容接收邮件箱表
TableName: weibo:receive-content-email
Rowkey:用户ID
列簇:cf
列标签:
直接使用用户ID,vlaue值取微博内容的rowkey
版本设计:设置最大版本为1000
rowkey cf
00001 cf:0002=0002_2132455
cf:0002=0002_2132456
1)rowkey设计:
(1)唯一性
(2)长度: 最大64kb。rowkey是hbase中表数据冗余产生的因素
10~100 字节
最好 8字节 16字节 64位操作系统
(3)散列原则:
假如 时间戳_用户ID 作为rowkey
10亿用户同时发微博,
1456777_000001
1456778_000002
1456778_100000
问题: 集中到某个region,造成这单独几个region负载量偏大,而其他region完全没有负载
散列: 尽量将某一时刻内的数据均衡分散到所有Region中(大部分Region)中
热点现象:数据在某一个时刻集中存储到某一两个Region上
rowkey设计规范;
方便查询,尽可能讲查询字段放到rowkey,HBase根据rowkey查询速度是最快。
2)列簇设计:
HBase面向列簇存储
region起始rowkey --- 终止rowkey范围内一个列簇下的数据
hdfs上的一个文件
StoreFile === HFile
跨列簇查询,速度相对较慢
一般设计一到两个列簇
HBase中的缓存
memstore: 写缓存
blockcache:块缓存,读缓存
HBase表单元格版本号:插入数据的时候如果没有单独制定,系统默认使用时间戳作为版本号。也可以自己制定时间戳。
Get查询单行记录,Scan查询多行记录
《OD学HBase》20160820的更多相关文章
- 《OD学HBase》20160821
一.HBase性能调优 1. JVM内存调优 MemStore内存空间,设置合理大小 memstore.flush.size 刷写大小 134217728 = 128M memstore.mslab. ...
- 《OD学HBase》20160814
一.HBase引入 http://hbase.apache.org/ 大数据的数据库 1. 概述 Hadoop生态系统中的一个分布式.可拓展.面向列.可伸缩,具有自动容错功能的数据库. NoSQL数据 ...
- 《OD学hive》第四周0717
一.Hive基本概念.安装部署与初步使用 1. 后续课程 Hive 项目:hadoop hive sqoop flume hbase 电商离线数据分析 CDH Storm:分布式实时计算框架 Spar ...
- 《OD学hadoop》20160903某旅游网项目实战
一.大数据的落地点 1.数据出售 数据商城:以卖数据为公司的核心业务 2. 数据分析 百度统计 友盟 GA IBM analysis 3.搜索引擎 4. 推荐系统 mahout 百分比 5.精准营销 ...
- 《OD学Sqoop》数据转换工具Sqoop
一. 第二阶段课程回顾 hadoop 2.x HDFS YARN MapReduce Zookeeper Hive 二.大数据协作框架 对日志类型的海量数据进行分析 hdfs mapreduce/hi ...
- 《OD学hadoop》第二周0702
大数据离线计算hadoop2.x 三周(6天) markdown文本剪辑器 罗振宇--跨年演讲,时间的朋友 http://tech.163.com/16/0101/11/BC87H8DF000915B ...
- 《OD学hadoop》第一周0625
一.实用网站 1. linux内核版本 www.kernel.org 2. 查看网站服务器使用的系统 www.netcraft.com 二.推荐书籍 1. <Hadoop权威指南> 1- ...
- 一起学HBase——总结HBase中的PUT、GET、DELETE操作
传统的关系型数据库有CRUD增删改查操作,同样对于NoSQL列式数据库也有CRUD操作.本文对HBase中常用的Scan.GET.PUT.DELETE操作的用法做个总结. Put操作 Put相当于传统 ...
- 一起学HBase——简单介绍HBase各种组件
HBase是谷歌BigTble的开源实现.谷歌的三篇论文拉开了大数据江湖的序幕,铸就了现在以Hadoop为主的大数据技术生态圈.而HBase是开源的大数据数据库,和传统的行式数据库不同的是,HBase ...
随机推荐
- Linq to Xml示例
Xml文件: <?xml version="1.0"?> <Software xmlns:xsi="http://www.w3.org/2001/XML ...
- bzoj 1041 圆上的整点 分类: Brush Mode 2014-11-11 20:15 80人阅读 评论(0) 收藏
这里先只考虑x,y都大于0的情况 如果x^2+y^2=r^2,则(r-x)(r+x)=y*y 令d=gcd(r-x,r+x),r-x=d*u^2,r+x=d*v^2,显然有gcd(u,v)=1且u&l ...
- 【前端】js转码
js转码 function urlencode (str) { str = (str + '').toString(); return encodeURIComponent(str).replace( ...
- 利用URLRewriter.dll 实现ASP.NET实现伪静态
大家一定经常在网络上看到很多网站的地址后缀都是用XX.HTML或者XX.ASPX等类似静态文件的标示来操作的吧,那么大家有怀疑过他真的是一个一个的静态生成的文件么,静态文件的生成的优缺有好有坏,对于访 ...
- 浅谈MySQL索引背后的数据结构及算法【转】
摘要 本文以MySQL数据库为研究对象,讨论与数据库索引相关的一些话题.特别需要说明的是,MySQL支持诸多存储引擎,而各种存储引擎对索引的支持也各不相同,因此MySQL数据库支持多种索引类型,如BT ...
- codeforces 463D Gargari and Permutations(dp)
题目 参考网上的代码的... //要找到所有序列中的最长的公共子序列, //定义状态dp[i]为在第一个序列中前i个数字中的最长公共子序列的长度, //状态转移方程为dp[i]=max(dp[i],d ...
- POJ 2785
4 Values whose Sum is 0 Time Limit: 15000MS Memory Limit: 228000K Total Submissions: 14475 Accep ...
- 大一暑假为期五周的ACM实验室培训结束了(2013.8.24)
没想到,我的大学里第一个暑假,9周的时间只有最初的两周在家待着,接下来的7周将会在学校度过. 说真的,这是我上学以来,第一次真正好好利用的假期.在这五周里,周一.三.五下午学长都会给我们讲点知识,之后 ...
- 使用git了解代码编写过程
在看教程时,有的老师会将代码放到github,如果不想跟着视频一步一步来,那就直接clone整个代码,但整个看着又有点蒙,那就使用版本切换的功能了. 首先 git clone 下载下来 git log ...
- Vi的使用
Vi的使用: 范例一: 使用Vi进入一般模式: [root@dsetl lp]# vi test1.txt 范例二:按下i键进入编辑模式,开始编辑文字 -- INSERT – 范例三:按下[ESC]键 ...