HBase介绍 (1)---数据模型

http://blog.csdn.net/heyutao007/article/details/5766896

BigTable是什么？Google的Paper对其作了充分的说明。字面上看就是一张大表，其实和我们想象的传统数据库的表还是有些差别的。松散数据可以说是介于Map Entry（key & value）和DB Row之间的一种数据。在我使用Memcache的时候，有时候的需求是需要存储的不仅仅是简单的一个key对应一个value，可能我需要类似于数据库表结构中多属性的存储，但是又不会有传统数据库表结构中那么多关联关系的需求，其实这类数据就是所谓的松散数据。BigTable最浅显来看就是一张很大的表，表的属性可以根据需求去动态增加，但是又没有表与表之间关联查询的需求。

互联网应用有一个最大的特点，就是速度，功能再强大，速度慢，还是会被舍弃。因此在大访问量的网站都采取前后的缓存来提升性能和响应时间。对于Map Entry类型的数据，集中式分布式Cache都有很多选择，对于传统的关系型数据，从MySQL到Oracle都给了很好的支持，唯有松散数据这类数据，采用前后两种解决方案都不能最大化它的处理能力。因此BigTable才有了它用武之地。

HBase 是一个针对结构化数据的可伸缩、分布式和面向列的动态模式数据库。它能有效和可靠地管理分布在数千个商品服务器上的大规模数据（千兆兆字节或更多）。 HBase 根据 Google 的 Bigtable 数据库建模，是 Apache Software Foundation 的 Hadoop 项目的子项目。

最适合使用Hbase存储的数据是非常稀疏的数据(非结构化或者半结构化的数据)。Hbase之所以擅长存储这类数据，是因为Hbase是column- oriented列导向的存储机制，而我们熟知的RDBMS都是row- oriented行导向的存储机制(郁闷的是我看过N本关于关系数据库的介绍从来没有提到过row- oriented行导向存储这个概念)。在列导向的存储机制下对于Null值得存储是不占用任何空间的。比如，如果某个表 UserTable有10列，但在存储时只有一列有数据，那么其他空值的9列是不占用存储空间的(普通的数据库MySql是如何占用存储空间的呢?)。
　　Hbase适合存储非结构化的稀疏数据的另一原因是他对列集合 column families 处理机制。打个比方，ruby和python这样的动态语言和c++、java类的编译语言有什么不同? 对于我来说，最显然的不同就是你不需要为变量预先指定一个类型。Ok ，现在Hbase为未来的DBA也带来了这个激动人心的特性，你只需要告诉你的数据存储到Hbase的那个column families 就可以了，不需要指定它的具体类型：char,varchar,int,tinyint,text等等。

Hbase还有很多特性，比如不支持join查询，但你存储时可以用：parent-child tuple 的方式来变相解决。

注意：在撰写本文时，HBase 的最新版本是 V0.19.3。本文提供的信息适用于这个版本。

数据模型

HBase 数据被建模为多维映射，其中值（表单元）通过 4 个键索引：

value = Map(TableName, RowKey, ColumnKey, Timestamp)

其中：

TableName 是一个字符串。
RowKey 和 ColumnKey 是二进制值（Java 类型 byte[]）。
Timestamp 是一个 64 位整数（Java 类型 long）。
value 是一个未解释的字节数组（Java™ 类型 byte[]）。

二进制数据被编码为 Base64，以便通过网络传输。

行键是表的主键，通常是一个字符串。行通过行键按字典顺序排序。

存储在表中的信息的结构为列族（column family），您可以将这种结构视为类别。每个列族可以拥有任意数量的成员，它们通过标签（或修饰符）识别。column 键由族名、: 号和标签组成。例如，对于系列 info 和成员 date，列键为 info:date。

一个 HBase 表模式定义多个列族，但当您向表中插入一行时，应用程序能够在运行时创建新成员。对于一个列族，表中的不同行可以拥有不同数量的成员。换句话说，HBase 支持一个动态模式 模型。

表 1 展示了一个名为 Persons 的 HBase 表的简单示例，该表有两个列族：name 和 contact。

行键	时间戳	列族
行键	时间戳	name	contact
000001	t3		contact:http research.google.com/people/jeff/
	t2	name:first Jeffrey
	t1	name:last Dean
000002	t5	name:first Gabriel
000002	t4	name:last Mateescu

一个空单元没有与单元的键相关联的值。在表 1 中，与键 (000002, contact:http, t4) 关联的单元为空。空单元不存储在 HBase 中，读取空单元类似于根据不存在的键从映射提取值。HBase 表以这种方法适应稀疏的 行。

对于任意行，一次只能访问一个列族的一个成员（这与关系数据库不同，在关系数据库中，一个查询可以访问来自一个行中的多个列的单元）。您可以将一个行中的一个列族的成员视为子行。

表被分解为多个表区域，等同于 Bigtable 片（tablet）。一个区域包含某个范围中的行。将一个表分解为多个区域是高效处理大型表的关键机制。

HBASE中的每一张表，就是所谓的BigTable。BigTable会存储一系列的行记录，行记录有三个基本类型的定义：Row Key,Time Stamp,Column。Row Key是行在BigTable中的唯一标识，Time Stamp是每次数据操作对应关联的时间戳，可以看作类似于SVN的版本，Column定义为：<family>:<label>，通过这两部分可以唯一的指定一个数据的存储列，family的定义和修改需要对HBASE作类似于DB的DDL操作，而对于label的使用，则不需要定义直接可以使用，这也为动态定制列提供了一种手段。family另一个作用其实在于物理存储优化读写操作，同family的数据物理上保存的会比较临近，因此在业务设计的过程中可以利用这个特性。

看一下逻辑数据模型：

Row Key	Time Stamp	Column "contents:"	Column "anchor:"		Column "mime:"
"com.cnn.www"	t9		"anchor:cnnsi.com"	"CNN"
	t8		"anchor:my.look.ca"	"CNN.com"
	t6	"<html>..."			"text/html"
	t5	"<html>..."
	t3	"<html>..."

上表中有一列，列的唯一标识为com.cnn.www，每一次逻辑修改都有一个timestamp关联对应，一共有四个列定义：<contents:>,<anchor:cnnsi.com>,<anchor:my.look.ca>,<mime:>。如果用传统的概念来将BigTable作解释，那么BigTable可以看作一个DB Schema，每一个Row就是一个表，Row key就是表名，这个表根据列的不同可以划分为多个版本，同时每个版本的操作都会有时间戳关联到操作的行。

再看一下HBASE的物理数据模型：

Row Key	Time Stamp	Column "contents:"
"com.cnn.www"	t6	"<html>..."
	t5	"<html>..."
	t3	"<html>..."

Row Key	Time Stamp	Column "anchor:"
"com.cnn.www"	t9	"anchor:cnnsi.com"	"CNN"
"com.cnn.www"	t8	"anchor:my.look.ca"	"CNN.com"

Row Key	Time Stamp	Column "mime:"
"com.cnn.www"	t6	"text/html"

物理数据模型其实就是将逻辑模型中的一个Row分割成为根据Column family存储的物理模型。

对于BigTable的数据模型操作的时候，会锁定Row，并保证Row的原子操作。

HBase介绍 (1)---数据模型的更多相关文章

HBase介绍及简易安装（转）
HBase介绍及简易安装(转) HBase简介 HBase是Apache Hadoop的数据库,能够对大型数据提供随机.实时的读写访问,是Google的BigTable的开源实现.HBase的目标是存 ...
HBase介绍、安装与应用案例
搭建环境部署节点操作系统为CentOS,防火墙和SElinux禁用,创建了一个shiyanlou用户并在系统根目录下创建/app目录,用于存放 Hadoop等组件运行包.因为该目录用于安装hadoo ...
HBase（一）——HBase介绍
HBase介绍 1.关系型数据库与非关系型数据库 (1)关系型数据库关系型数据库最典型的数据机构是表,由二维表及其之间的联系所组成的一个数据组织优点: 1.易于维护:都是使用表结构,格 ...
Hadoop生态圈-hbase介绍-完全分布式搭建
Hadoop生态圈-hbase介绍-完全分布式搭建作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任.
Hadoop生态圈-hbase介绍-伪分布式安装
Hadoop生态圈-hbase介绍-伪分布式安装作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.HBase简介 HBase是一个分布式的,持久的,强一致性的存储系统,具有近似最 ...
吴超老师课程--Hbase介绍和伪分布式安装
1.HBase(NoSQL)的数据模型1.1 表(table),是存储管理数据的.1.2 行键(row key),类似于MySQL中的主键. 行键是HBase表天然自带的.1.3 列族(col ...
Hbase记录-Hbase介绍
Hbase是什么 HBase是一种构建在HDFS之上的分布式.面向列的存储系统,适用于实时读写.随机访问超大规模数据的集群. HBase的特点大:一个表可以有上亿行,上百万列. 面向列:面向列表(簇 ...
HBase介绍及简易安装
HBase简介 HBase是Apache Hadoop的数据库,能够对大型数据提供随机.实时的读写访问,是Google的BigTable的开源实现.HBase的目标是存储并处理大型的数据,更具体地说仅 ...
从零自学Hadoop(19)：HBase介绍及安装
阅读目录序介绍安装系列索引本文版权归mephisto和博客园共有,欢迎转载,但须保留此段声明,并给出原文链接,谢谢合作. 文章是哥(mephisto)写的,SourceLink 序上一篇, ...

随机推荐

基于vue-easytable实现数据的增删改查
基于vue-easytable实现数据的增删改查原理:利用vue的数据绑定和vue-easetable的ui完成增删改查后端接口: 1.条件查询表中数据 http://localhost:4795 ...
leetcode8
public class Solution { public int MyAtoi(string str) { , sign = , total = ; //1. Empty string ) { ; ...
使用AdBlock plus屏蔽广告
使用前使用后定制规则使用前添加规则 id=1的为广告
centos 和KVM安装
keepalived + nginx实现高可用
1. Keepalived介绍 Keepalived是一个基于VRRP协议来实现的服务高可用方案,可以利用其来避免IP单点故障,类似的工具还有heartbeat.corosync.pacemaker. ...
dos中的延迟环境变量扩展
一.前言昨天在写bat脚本的时候,发现在for里面的set命令竟然不起作用!于是搜了一下,前面的几篇都有说到这个是变量扩展的问题,但是什么是变量扩展?为什么会出现这种问题,什么又是延迟环境变量扩展? ...
在linux下设置定时任务
输入命令 crontab -l(列出当前有哪些定时任务)crontab -e(修改这些任务)然后编辑:添加定时任务(编辑命令是vi编辑器的,tips:i,insert;:wq,保存并退出)格式:* * ...
修改字段注释modify
alter table test1 modify 字段名类型 comment '修改后的字段注释'; ALTER TABLE tc_activity_miaosha MODIFY `validity ...
配置GIT DIFF/MERGE TOOL
关闭prompt backup git config --global difftool.prompt false git config --global mergetool.prompt false ...
SQL日期跟时间值序列
与数据操作相关的场景要生成日期和时间序列,序列的范围是从输入值@start到@end,且具有一定的时间间隔.这样的场景包括填充数据仓库中的时间维度.应用程序的运行时间安排以及其他.可以借助http:/ ...

HBase介绍 (1)---数据模型

数据模型

HBase介绍 (1)---数据模型的更多相关文章

随机推荐

热门专题