新项目准备上HBase。HBase眼下由组里某牛负责。本着学会使用HBase的目标，先阅读下HBase in Action，一共十章组织成三部分，须要学习的内容包含HBase基本实现原理，用法，Schema设计原则和实战等。借用Michael Stack（HBase Chair）的话，“At a highlevel, HBase is like
theatomic bomb. Its basic operation can be explained onthe back of a napkin over adrink (or two). Its deployment is another matter。(HBase像原子弹一样，它的基本操作能够写在一张餐巾纸的背面，可是它的部署就是还有一回事了。)

首先，HBase能够理解为Database on Hadoop，即山寨版的BigTable on GFS，具备下面几个主要特点：Key-Value分布式存储、面向列、实时随机读写。

基本概念&基本操作

下面是HBase的一些基本术语：

Table：和关系型数据库一样，HBase数据以表的形式组织，表也由行和列组成。
Column families：列族，即列分组，每一个列都属于一个列族。
Row key：即每行数据的主键，无数据类型，HBase依照rowkey字节序顺序存储记录。
Version:以时间戳表示的版本号号。默认每一个数据保留三个版本号，依照版本号号降序存储。
Cell：表中的基本存储单元，由{rowkey, column families,column, version} 唯一确定，无数据类型，和row key一样都是字节数组。

基本操作包含5种：

Put（存储或者改动单行记录）/Get（读取单行记录，能够指定列族、列等）/Delete（删除单行记录，因为底层存储不可变，实现为加入墓碑记录）/Scan（返回行集合，能够指定扫描起止row key，过滤条件等）/Increment（添加某个单元值，原子操作）

数据模型

逻辑上，能够把HBase数据理解成有序Map。当中记录行依照row key升序存储，version降序存储。

Map<RowKey, Map<ColumnFamily,Map<Column,Map<Version, Data>>>>

物理上（Region及HDFS细节下一节介绍），数据存储在HFile中，HFile仅仅包括某一个列族数据，而每个列族可能使用多个HFile。HFile使用列式存储。下图是HFile存储示意图，TheRealMT为row key，info为列族，email/name/password为列名，后两列为时间戳版本和cell值（注：因为使用列式存储，HBase不用存储null值）。

数据读写过程

HBase数据同一时候写入到WAL（wrete-ahead log）和MemStore。每一个列族都有一个MemStore缓存区，用于提高写入性能，数据定期同步到HFile；WAL用于保障可靠性，出问题时，假设MemStore数据没有同步到HFile中，能够从WAL回放恢复（WAL日志顺序写入，写入性能尚可）。

数据读取使用BlockCache/MemStore提高性能。

HBase与HDFS

理论上，HBase能执行在各种分布式文件系统之上，实际上，HBase和HDFS紧耦合在一起。HDFS提供可扩展性和容错性。HBase表能够存储数十亿行数据，每行能够包括成百上千个字段。Table随着记录数不断添加变大，会逐渐分裂成多个Region。Region由RegionServer进行管理。借用一张淘宝技术博客的图。在实际生产环境中，RegionServer能够部署在HDFS
DataNode节点上，节省网络IO。

从高层次来讲，通过HDFS引入统一命名空间，也保障了HBase的可用性，当某台RegionServer挂掉，其它ReginServer能够读取HDFS上数据。

Region分裂带来一个新问题：怎么查找特定Region。HBase通过两张特殊表-ROOT-和.META来实现。当中-ROOT-表记录了.META表Region信息，-ROOT-表仅仅有一个Region，其位置记录在ZooKeeper上。.META表记录用户表Region信息，能够有多个Region。能够把查找Region看做是在高度为3的B+Tree树中查找叶子节点的过程。

HBase与MapReduce

HBase主要用于低延迟訪问场景，假设应用强调吞吐量，不关心延迟时间，能够考虑使用MapReduce进行数据处理。TableMapper和TableReduer封装了訪问HBase数据的细节。Map和Reduce方法签名例如以下：

protected void map(ImmutableBytesWritable rowkey,Resultresult,Context context);

protected void reduce(ImmutableBytesWritablerowkey,Iterable<Put> values,Context context);

还须要使用TableMapReduceUtil帮助类初始化Job，指定HBase表名等參数。

TableMapReduceUtil.initTableMapperJob(

  "twits",

  scan,

  Map.class,

  ImmutableBytesWritable.class,

  Result.class,

  job);

另外，因为HBase天然是Key-Value存储，能够把它看做是一个分布式Map，利用HBase随机訪问高性能特性，使用Get和小范围的Scan操作帮助实现Map-Join，例如以下图所看到的：

读书笔记-HBase in Action-第一部分 HBase fundamentals的更多相关文章

1.HBase In Action 第一章-HBase简介（后续翻译中）
This chapter covers ■ The origins of Hadoop, HBase, and NoSQL ■ Common use cases for HBase ■ A basic ...
8.HBase In Action 第一章-HBase简介（1.2.2 捕获增量数据）
Data often trickles in and is added to an existing data store for further usage, such as analytics, ...
7.HBase In Action 第一章-HBase简介（1.2.1 典型的网络搜索问题：Bigtable的起原）
Search is the act of locating information you care about: for example, searching for pages in a text ...
6.HBase In Action 第一章-HBase简介（1.2 HBase的使用场景和成功案例）
Sometimes the best way to understand a software product is to look at how it's used. The kinds of pr ...
5.HBase In Action 第一章-HBase简介（1.1.3 HBase的兴起）
Pretend that you're working on an open source project for searching the web by crawling websites and ...
4.HBase In Action 第一章-HBase简介（1.1.2 数据创新）
As we now know, many prominent internet companies, most notably Google, Amazon, Yahoo!, and Facebook ...
3.HBase In Action 第一章-HBase简介（1.1.1 大数据你好呀）
Let's take a closer look at the term Big Data. To be honest, it's become something of a loaded term, ...
2.HBase In Action 第一章-HBase简介（1.1数据管理系统：快速学习）
Relational database systems have been around for a few decades and have been hugely successful in so ...
unix环境高级编程-读书笔记与习题解答-第一篇
从这周开始逐渐的进入学习状态,每天晚上都会坚持写c程序,并且伴随对这本书的深入,希望能写出更高质量的读书笔记和程序. 本书的第一章,介绍了一些关于unix的基础知识,在这里我不想去讨论linux到底是 ...
[读书笔记]算法(Sedgewick著)·第一章(1)
到家放松放松之后就开始学习算法了,手里拿的是拿的是一本Robert Sedgewick的橙皮书<算法(第四版)>的.这本书与导论那本书的不同之处在于轻数学思想.重实现,也就是说这是一本很不 ...

随机推荐

【BZOJ2595_洛谷4294】[WC2008]游览计划（斯坦纳树_状压DP）
上个月写的题qwq--突然想写篇博客题目: 洛谷4294 分析: 斯坦纳树模板题. 简单来说,斯坦纳树问题就是给定一张有边权(或点权)的无向图,要求选若干条边使图中一些选定的点连通(可以经过其他点) ...
JS中的面相对象
1.使用Object或对象字面量创建对象 JS中最基本创建对象的方式: var student = new Object(); student.name = "easy"; stu ...
kubernetes installing and using 单机版
centos安装docker uname -r yum remove docker \ docker-client \ docker-client-latest \ docker-common \ d ...
reactnative(1) - RefreshControl 使用案例
'use strict'; import React, { Component } from 'react'; import { AppRegistry, ScrollView, StyleSheet ...
SAS学习笔记之《SAS编程与数据挖掘商业案例》（1）系统简介和编程基础
SAS学习笔记之<SAS编程与数据挖掘商业案例>(1)系统简介和编程基础 1. SAS系统简介 1.1 SAS是先编译后执行的语言,data步标志着编译的开始. 数据指针:当前内存缓存区, ...
unity之Rigidbody属性
Rigidbody属性 Mass表示物体的质量,数值类型为float,默认值为1.大部分物体的质量属性接近于0.1才符合日常生活感官感受,超过10 ,则失去了仿真效果. Drag表示平移阻力,其数值类 ...
STL之vector篇
#include<iostream> #include<cstdio> #include<cstring> #include<vector> #incl ...
CSS——img标签消除3px
1.dispaly:block 2.float:left 这两种都可以消除3px
css中有些属性的前面会加上“*”或“_（兼容IE浏览器）
给不同浏览器识别: color{ background-color: #CC00FF; /*所有浏览器都会显示为紫色*/ background-color: #FF0000\9; /*IE6.IE7. ...
pymysql连接数据库
一.pymysql的相关参数及方法 1.pymysql.connect()参数说明:(连接数据库时需要添加的参数) 参数类型描述 host str MySQL服务器地址,IP地址或域名 port ...

读书笔记-HBase in Action-第一部分 HBase fundamentals