认识NoSQL

NoSQL：泛指非关系数据库（Not only SQL）
NoSQL两重要特征：使用硬盘和把随机存储器作为存储载体

NoSQL分类（按照存储格式）
1）键值（Key-Value）存储数据库
2）列存储数据库
3）文档型存储数据库
4）图形数据库

目前比较流行的NoSQL数据库有Casssandra，Lucene，Neo4J，MongoDB和HBase

HBase（Hadoop Database）概念

1）是一个高可靠，高性能，面向列，可伸缩的分布式数据库系统
2）它使用HDFS作为底层文件存储系统，在其上运行MapReduce批量处理数据，使用ZooKeeper作为协同服务组件
3）主要用于存储非结构化和半结构化的松散数据

HBase表的特点

1）大：一个表可以有十亿行，上百万列
2）无模式
3）面向列：面向列的存储和权限控制
4）稀疏：对于空（null）的列，不占用存储空间
5）数据多版本：每个单元中的数据可以有多个版本
6）数据类型单一：hbase中数据都是字符串，没有类型

HBase体系架构

1）Client

HBase Client使用HBase的RPC机制与HMaster和HRegionServer进行通信

管理类操作：Client与HMaster进行RPC
数据读写类操作：Client与HRegionServer进行RPC

Client访问用户数据之前需要首先访问zookeeper，然后访问-ROOT-表，接着访问.META.表，最后才能找到用户数据的位置去访问

-ROOT-是系统内部表：ROOT里面存储了对应的.META地址和开始结束信息
.META.是系统内部表:.META.里面同样存储了对应的HRegion地址和开始结束信息。

2）Zookeeper

1）保证任何时候，集群中只有一个maser
2）存储所有Region的寻址入口
3）实时监控Region server的上线和下线信息，并实时通知master
4）存储hbase的schema和table的元数据
5）存储了root表的地址（更快查询到那张表有数据）和Hmaster的地址（确定有哪些Hmaster）

3）HMaster

1）为Region server分配region，记录region在哪台Hregion server上
2）新机器加入时，管理HRegion Server的负载均衡，调整Region分布
3）发现失效HRegion Server 并将其上的Regions迁移
4）管理用户对Table的增、删、改、查操作

4）HRegionServer

1）HRegion server 维护 region ，处理对这些 region 的 IO 请求，，向HDFS文件系统中读写数据
2）HRegion server 负责切分在运行过程中变得过大的 region

HRegionServer包含一个HLog部分和HRegion部分（多个HRegion）
HLog部分保存着用户操作hbase的日志。用户的操作都会先记录到HLog中，然后再保存到HRegion中
HRegion是存储的实际数据，它包含了多个HStore
HStore：每一个列族都会形成一个HStore，它由MemStore和多个HFile组成
MemStore驻留在内存中，当数据保存时，数据会先存储到MemStore中，然后根据用户设定的显式刷写或隐式刷写模式，将数据再保存到HFile中。默认的存储模式是隐式存储
HLog的作用
HFile负责的是实际数据的存储了，它是HBase中的最小单位

HBase数据模型（物理模型和逻辑模型）

HRegion

HRegionServer内部管理了一系列的HRegion对象

Hbase自动把表水平划分成多个区域（region），每个region会保存一个表里面某段连续的数据
Hregion由多个HStore组成

Hstore（包含Memstore和storefile两部分）

每个HStore对应了table中的一个column family（CF）的存储
Hstore包括位于内存中的memstore和位于磁盘的storefile
MemStore：用户写人的数据先回放入memstore，当memstore满了以后会flush成一个storefile
StoreFiles：底层实现是Hfile，当storefile文件的数量增长到一定阀值后，系统会进行合并，在合并过程中会进行版本合并和删除工作，将多个storefile合并成更大的storefile
客户端检索数据，先在memstore找，找不到再找storefile

Hlog

在每次用户操作写入memstore的同时，也会写一份数据到HLog文件中，Hlog文件定期会滚动出新的，并删除旧的文件

Hfile

Hfile文件是不定长的，长度固定的只有两块

Row key（行键）

row key是用来检索记录的主键
访问HBASE table中的行，只有三种方式：
1）通过单个row key访问
2）通过row key的range（正则）
3）全表扫描
Row key行键 (Row key)可以是任意字符串(最大长度是 64KB，实际应用中长度一般为 10-100bytes)
在HBASE内部，row key保存为字节数组
存储时，数据按照Row key的字典序(byte order)排序存储

Column Family（列族）

HBASE表中的每个列，都归属于某个列族
列族是表的schema的一部分(而列不是)，必须在使用表之前定义
列名都以列族作为前缀。例如courses:history，courses:math都属于courses 这个列族。

TimeStamp（时间戳）

HBASE 中通过rowkey和columns确定的为一个存贮单元称为cell。每个cell都保存着同一份数据的多个版本。版本通过时间戳来索引
时间戳的类型是64位整型
时间戳可以由HBASE(在数据写入时自动 )赋值，也可以由客户显式赋值
每个 cell中，不同版本的数据按照时间倒序排序，即最新的数据排在最前面
为了避免数据存在过多版本造成的的管理 (包括存贮和索引)负担，HBASE提供了两种数据版本回收方式。一是保存数据的最后n个版本，二是保存最近一段时间内的版本

HBase学习1（hbase基础）的更多相关文章

Hbase 学习(一) hbase配置文件同步
最近在狂啃hadoop的书籍,这部<hbase:权威指南>就进入我的视野里面了,啃吧,因为是英文的书籍,有些个人理解不对的地方,欢迎各位拍砖. HDFS和Hbase配置同步 hbase的配 ...
HBase 学习之一 <<HBase使用客户端API动态创建Hbase数据表并在Hbase下导出执行>>
HBase使用客户端API动态创建Hbase数据表并在Hbase下导出执行 ----首先感谢网络能够给我提供一个开放的学习平台,如果没有网上的技术爱好者提供 ...
HBase学习——4.HBase过滤器
1.过滤器基础API中的查询操作在面对大量数据的时候是非常苍白的,这里Hbase提供了高级的查询方法:Filter.Filter可以根据簇.列.版本等更多的条件来对数据进行过滤,基于Hbase本身提 ...
HBase学习笔记-HBase性能研究(1)
使用Java API与HBase集群交互时,需要构建HTable对象,使用该对象提供的方法来进行插入/删除/查询等操作.要创建HTable对象,首先要创建一个带有HBase集群信息的配置对象Confi ...
HBase学习——3.HBase表设计
1.建表高级属性建表过程中常用的shell命令 1.1 BLOOMFILTER 默认是 NONE 是否使用布隆过虑及使用何种方式,布隆过滤可以每列族单独启用使用HColumnDescriptor. ...
HBase学习笔记-基础（一）
HBase版本:0.97 1.Get Gets实在Scan的基础上实现的. 2.联合查询(Join) HBase是否支持联合是一个网上常问问题.简单来说 : 不支持.至少不像传统RDBMS那样支持. ...
HBase学习系列
转自:http://www.aboutyun.com/thread-8391-1-1.html 问题导读: 1.hbase是什么? 2.hbase原理是什么? 3.hbase使用中会遇到什么问题? 4 ...
HBase学习与实践
Photo by bealach verse on Unsplash 参考书籍:<HBase 权威指南> -- Lars George著. 文章为个人从零开始学习记录,如有错误,还请不吝赐 ...
HBase学习（四）二级索引 rowkey设计
HBase学习(四) 一.HBase的读写流程画出架构 1.1 HBase读流程 Hbase读取数据的流程:1)是由客户端发起读取数据的请求,首先会与zookeeper建立连接2)从zookeepe ...

随机推荐

Linux C 获取系统时间信息
比如获取当前年份: /* 获取当前系统时间暂时不使用 ; ; time_t now; struct tm *timenow; time(&now); timeno ...
[转]JavaWeb之 Servlet执行过程与生命周期
https://www.cnblogs.com/vmax-tam/p/4122105.html Servlet的概念什么是Servlet呢? Java中有一个叫Servlet的接口,如果一个普通的类 ...
JS实现过一段时间后清理数据（以Lable为例）
<script type="text/javascript"> var t function cleaData() { t = setTimeout(syc, 3000 ...
ECMAScript6重复字符串方法repeat()
repeat() 1.定义 repeat()方法返回一个新字符串,新字符串将对象字符串重复指定次数. 2.语法 str.repeat(count) count:表示新构造的字符串把原字符串重复的次数, ...
JavaScript数据结构与算法-数组练习
一. 创建一个记录学生成绩的对象,提供一个添加成绩的方法,以及一个显示学生平均成绩的方法. // 创建一个记录学生成绩的对象 const Students = function Students () ...
TreeMap详细介绍(源码解析)和使用示例
本文转自 http://www.cnblogs.com/skywang12345/p/3310928.html 概要这一章,我们对TreeMap进行学习.我们先对TreeMap有个整体认识,然后再学 ...
数据库质疑修复（SUSPECT）总结，DBCC报错
当SQL SERVER数据库状态为质疑(SUSPECT)状态时,我们可以用以下方法来处理: DBCC报错 1. 修改数据库为紧急模式:ALTER DATABASE DBName SET EMERGEN ...
《Python数据分析》笔记1 ——Numpy
Numpy数组 1.Numpy数组对象 Numpy中的多维数组称为ndarray,他有两个组成部分. 1.数据本身 2.描述数据的元数据 2.Numpy的数值类型 bool: 布尔型 inti:其长度 ...
spring下配置shiro
1.web.xml中加入shiro的过滤器:   <context-param> < ...
redis性能测试以及影响性能的因素
redis-benchmark测试工具的命令使使用方法及参数如下:redis-benchmark [-h <host>] [-p <port>] [-c <clients ...

HBase学习1（hbase基础）