Overview

HBase中的一个big table，首先会按行划分成一些region(这些region之间是有序的，由startkey保证)，每个region分配到不同的节点进行存储。因此，region是HBase分布式和负载均衡的最小单元。
对每个节点而言，它会对分配到的region是按列族进行存储的。也即，region被分为多个store(对应多个列族)。而store内部，又有一个memStore和多个storeFiles组成。
数据首先更新到memStore，memStore会内排序，而storeFile是由memStore flush到磁盘的，所以每个storeFile内部都是有序的。但是，本质上HBase进行的都是append操作(删除并不是真正的删除，而是打上delete的tag)，所以是无法保证storeFiles之间有序的。
storeFiles之间无序，那么当storeFiles个数过多时，必然造成效率下降，因此会对storeFiles做merge操作。也即当 StoreFile 文件数量超过设定值时，会触发合并操作，合并成一个大文件。
同样的，当region的大小达到阈值时，会被切分开，生成一个新的region，HMaster会对其进行管理，分配到合适的 regionserver。region的变化后，系统还需要对hbase:meta 表进行维护。

HBase:meta

在Hbase的老版本中，是包含-root-和.meta.表的，每次索引数据都要进行三次定位。在新版本中改成了只有HBase:meta表，它存在于Zookeeper中。
当我们在HBase中查找某rowkey时，首先要定位其所在的RegionServer，这就需要通过HBase:meta表来实现了。
HBase:meta表本质上也是一张HBase表。

HBase Read

以上，查找某rowkey时：
1. 通过Zookeeper中的HBase:meta表定位其所在region(RegionServer)；【因为region之间是有序的，因此可以根据startKey来定位】
2. 在RegionServer中查找：首先是BlockCache，然后是MemStore，再然后是StoreFiles(StoreFiles之间虽是无序的，但每个StoreFile内部是有序的)。

LSM

参考：LSM树及其到HBase的应用
LSM全称是基于日志结构的合并树(Log-structured merge-Tree). NoSQL数据库一般采用LSM作为数据结构，HBase也不例外。
众所周知，RDBMS一般采用B+树作为索引的数据结构。RDBMS中的B+树一般是3层n路的平衡树。B+树的节点对应于磁盘数据块。因此对于RDBMS，数据更新操作需要5次磁盘操作（从B+树3次找到记录所在数据块，再加上一次读和一次写）。在RDBMS中，数据随机无序写在磁盘块中，如果没有B+树，读性能会很低。B+树对于数据读操作能很好地提高性能，但对于数据写，效率不高。对于大型分布式数据系统，B+树还无法与LSM树相抗衡。
讲LSM树之前，需要提下三种基本的存储引擎，这样才能清楚LSM树的由来：

哈希存储引擎是哈希表的持久化实现，支持增、删、改以及随机读取操作，但不支持顺序扫描，对应的存储系统为key-value存储系统。对于key-value的插入以及查询，哈希表的复杂度都是O(1)，明显比树的操作O(n)快,如果不需要有序的遍历数据，哈希表就是your Mr.Right。
B树存储引擎是B树的持久化实现，不仅支持单条记录的增、删、读、改操作，还支持顺序扫描（B+树的叶子节点之间的指针），对应的存储系统就是关系数据库（Mysql等）。
LSM树（Log-Structured Merge Tree）存储引擎和B树存储引擎一样，同样支持增、删、读、改、顺序扫描操作。而且通过批量存储技术规避磁盘随机写入问题。当然凡事有利有弊，LSM树和B+树相比，LSM树牺牲了部分读性能，用来大幅提高写性能。

LSM树的设计思想非常朴素：将对数据的修改增量保持在内存中，达到指定的大小限制后将这些修改操作批量写入磁盘，不过读取的时候稍微麻烦，需要合并磁盘中历史数据和内存中最近修改操作，所以写入性能大大提升，读取时可能需要先看是否命中内存，否则需要访问较多的磁盘文件。
LSM树原理把一棵大树拆分成N棵小树，它首先写入内存中，随着小树越来越大，内存中的小树会flush到磁盘中，磁盘中的树定期可以做merge操作，合并成一棵大树，以优化读性能。
LSM数据更新只在内存中操作，没有磁盘访问，因此比B+树要快。对于数据读来说，如果读取的是最近访问过的数据，LSM树能减少磁盘访问，提高性能。
LSM中的数据删除：不会去删除磁盘上的数据，而是为数据添加一个删除标记。在随后的major compaction中，被删除的数据和删除标记才会真的被删除。
以上这些大概就是HBase存储的设计主要思想，这里分别对应说明下：
- 因为小树先写到内存中，为了防止内存数据丢失，写内存的同时需要暂时持久化到磁盘，对应了HBase的MemStore和HLog；【数据首先顺序写如hlog (WAL), 然后写到MemStore】
- MemStore上的树达到一定大小之后，需要flush到HRegion磁盘中（一般是Hadoop DataNode），这样MemStore就变成了DataNode上的磁盘文件StoreFile，定期HRegionServer对DataNode的数据做merge操作，彻底删除无效空间，多棵小树在这个时机合并成大树，来增强读性能。【数据读：首先搜索MemStore,如果不在MemStore中，则到storefile中寻找】
hbase在实现中，是把整个内存在一定阈值后，flush到disk中，形成一个file，这个file的存储也就是一个小的B+树，因为hbase一般是部署在hdfs上，hdfs不支持对文件的update操作，所以hbase这么整体内存flush，而不是和磁盘中的小树merge update，这个设计也就能讲通了。内存flush到磁盘上的小树，定期也会合并成一个大树。整体上hbase就是用了lsm tree的思路。

HFile

所有block块都拥有相同的数据结构，HBase将block块抽象为一个统一的HFileBlock。HFileBlock支持两种类型，一种类型不支持checksum，一种不支持。
- 如上图： BlockHeader用于存储block元数据，BlockData存储具体数据。
- block元数据中最核心的字段是BlockType字段，用来标示该block块的类型，HBase中定义了8种BlockType，每种BlockType对应的block都存储不同的数据内容，有的存储用户数据，有的存储索引数据，有的存储meta元数据。
- 下面介绍几种blockType：
  - DataBlock是HBase中数据存储的最小单元。数据块：保存表中的数据，每一个数据块由块头和一些keyValue(record)组成，key的值是严格按照顺序存储的。块大小默认为64K（由建表时创建cf时指定或者HColumnDescriptor.setBlockSize(size)。大的Block有利于顺序Scan，小Block利于随机查询，因而需要权衡。），这一部分可以压缩存储。在查询数据时，是以数据块为单位从硬盘load到内存。查找数据时，是顺序的遍历该块中的keyValue对。
  - BloomFilter Meta Block & Bloom Block：BloomFilter对于HBase的随机读性能至关重要，对于get操作以及部分scan操作可以剔除掉不会用到的HFile文件，减少实际IO次数，提高随机读性能。但是，一个HFile文件越大，里面存储的KeyValue值越多，位数组就会相应越大。一旦太大就不适合直接加载到内存了，因此HFile V2在设计上将位数组进行了拆分，拆成了多个独立的位数组（根据Key进行拆分，一部分连续的Key使用一个位数组）。这样一个HFile中就会包含多个位数组，根据Key进行查询，首先会定位到具体的某个位数组，只需要加载此位数组到内存进行过滤即可，减少了内存开支。
  - 数据索引块：Data Block的索引，每条索引的key是被索引的block的第一条记录的key。HBase对于hfile的访问都是通过索引块来实现的，通过索引来定位所要查的数据到底在哪个数据块里面。类似bloom filter块，当单个的索引块中没有办法存储全部的数据块的信息时，索引块就会分裂，会产生叶索引块和根索引块，根索引块是对叶索引块的索引，如果数据块继续增加就会产生枝索引块，整个索引结果的层次也会加深。【
    想象一下，如果整个hfile中只有根索引块，那么访问真正的数据的路径是，首先查根索引块定位数据块的位置，然后去查询数据块找到需要的数据。整个过程涉及到一次对索引块的扫描和一次对数据块的扫描。
    
    如果hfile总块比较多，整个索引结构有2次的话，访问的路径是，首先访问根索引块定位叶索引块，访问叶索引块定位数据块，整个过程涉及到两次对索引块的扫描和一次对数据块的扫描。
    
    整个索引树的深度越深，那么访问过程就越长，相应的扫描的时间也会越长。
    
    那是不是把hfile.index.block.max.size设置得越大越好呢？也不是的，如果索引块太大了，对索引块本身的扫描时间就会显著的增加的。
    
    】

整个查询过程

首先，分析下一个相同的cell可能存在的位置：
- 新写入的cell：memStore；
- flush到HDFS中的cell，而存在于某个StoreFile中
- 对于刚读过的cell，他可能存在于BlockCache中
so，只需要扫描上述三个地方，将结果合并即可(merge read)。在HBase中扫描的顺序依次是：BlockCache、MemStore、StoreFile

读取

首先根据region的startKey定位所查找的rowkey所属的region，进而去相应的RegionServer；
然后在RegionServer的BlockCache中查找，看是否缓存命中。【这里不对？client端有缓存】
根据所查找的列族确定要查找的MemStore和StoreFile。
1. 首先查找memStore，
2. 然后查找StoreFiles：
  1. 过滤StoreFiles：对所有的StoreFiles，首先根据其BloomFilter(如果存在的话，否则，根据时间戳或者查询列的信息来进行过滤)过滤掉部分不可能存在该rowKey的StoreFiles。
  2. 二次过滤StoreFiles：缩小之后，仍然存在多个可能的StoreFiles需要查找。StoreFiles之间是无序的，所以不能是直接对StoreFiles进行顺序。hbase会首先查看每个storefile的最小的rowkey，然后按照从小到大的顺序进行排序，结果放到一个队列中，排序的算法就是按照hbase的三维顺序，按照rowkey，column，ts进行排序，rowkey和column是升序，而ts是降序。之后会对各个storefile中的数据进行探测，只会扫描那些存在比当前查询的rowkey大的记录的storefile。
  3. 查询：整个过程用到了类似归并排序的算法，首先找到key所在的HFile【如何定位到key所在的HFile？】。范围缩小到该HFile后，就根据上面介绍的索引查找定位到块，快速的找到对应的记录。

<HBase><读写><LSM>的更多相关文章

简单物联网：外网访问内网路由器下树莓派Flask服务器
最近做一个小东西,大概过程就是想在教室,宿舍控制实验室的一些设备. 已经在树莓上搭了一个轻量的flask服务器,在实验室的路由器下,任何设备都是可以访问的:但是有一些限制条件,比如我想在宿舍控制我种花 ...
利用ssh反向代理以及autossh实现从外网连接内网服务器
前言最近遇到这样一个问题,我在实验室架设了一台服务器,给师弟或者小伙伴练习Linux用,然后平时在实验室这边直接连接是没有问题的,都是内网嘛.但是回到宿舍问题出来了,使用校园网的童鞋还是能连接上,使 ...
外网访问内网Docker容器
外网访问内网Docker容器本地安装了Docker容器,只能在局域网内访问,怎样从外网也能访问本地Docker容器? 本文将介绍具体的实现步骤. 1. 准备工作 1.1 安装并启动Docker容器 ...
外网访问内网SpringBoot
外网访问内网SpringBoot 本地安装了SpringBoot,只能在局域网内访问,怎样从外网也能访问本地SpringBoot? 本文将介绍具体的实现步骤. 1. 准备工作 1.1 安装Java 1 ...
外网访问内网Elasticsearch WEB
外网访问内网Elasticsearch WEB 本地安装了Elasticsearch,只能在局域网内访问其WEB,怎样从外网也能访问本地Elasticsearch? 本文将介绍具体的实现步骤. 1. ...
怎样从外网访问内网Rails
外网访问内网Rails 本地安装了Rails,只能在局域网内访问,怎样从外网也能访问本地Rails? 本文将介绍具体的实现步骤. 1. 准备工作 1.1 安装并启动Rails 默认安装的Rails端口 ...
怎样从外网访问内网Memcached数据库
外网访问内网Memcached数据库本地安装了Memcached数据库,只能在局域网内访问,怎样从外网也能访问本地Memcached数据库? 本文将介绍具体的实现步骤. 1. 准备工作 1.1 安装 ...
怎样从外网访问内网CouchDB数据库
外网访问内网CouchDB数据库本地安装了CouchDB数据库,只能在局域网内访问,怎样从外网也能访问本地CouchDB数据库? 本文将介绍具体的实现步骤. 1. 准备工作 1.1 安装并启动Cou ...
怎样从外网访问内网DB2数据库
外网访问内网DB2数据库本地安装了DB2数据库,只能在局域网内访问,怎样从外网也能访问本地DB2数据库? 本文将介绍具体的实现步骤. 1. 准备工作 1.1 安装并启动DB2数据库默认安装的DB2 ...
怎样从外网访问内网OpenLDAP数据库
外网访问内网OpenLDAP数据库本地安装了OpenLDAP数据库,只能在局域网内访问,怎样从外网也能访问本地OpenLDAP数据库? 本文将介绍具体的实现步骤. 1. 准备工作 1.1 安装并启动 ...

随机推荐

Android -------- MVC，MVP 和 MVVM 架构设计模式
MVC(Model-View-Controller)是最常见的软件架构之一,业界有着广泛应用.它本身很容易理解,但是要讲清楚,它与衍生的 MVP 和 MVVM 架构的区别就不容易了. 一.MVC MV ...
Confluence 6 应该如何在我的空间中组织内容
页面和博客你在 Confluence 中创建的任何内容,从会议记录到回顾和任何中间的内容,不管来源是博客和页面. 你的主页将是任何访问你网站中的用户首先看到的内容.为了让用户更加容易的找到他们需要查 ...
文件名简体转繁体bat
@echo off rem 指定文件夹路径 set "fd=D:\下载的图片" rem 0为转换文件名,1为转换文件夹名,2为同时转换文件名和文件夹名 set f=0 rem 0为 ...
JDBC MVC框架实现用户登录
MVC全名是Model View Controller,是模型(model)-视图(view)-控制器(controller)的缩写 1.实体entity package com.uplooking. ...
Centos7 JDK安装过程中解决java -version 报错： bash: /home/jdk1.8.0_161/bin/java: Permission denied
1.执行Linux命令 -----vim /etc/profile 编辑profile 文件,在里面添加: #set java enviroment JAVA_HOME=/opt/JavaHome ...
ccf碰撞的小球
之前的代码有人运行不成功,自己又看了一下是输入变量顺序输入错了,现在是正确答案- #include<stdio.h> struct node{ int x; int dir; }; int ...
python 日期操作【转】
SQLite中的时间日期函数这是我学习SQLite时做的笔记,参考并翻译了Chris Newman写的<SQLite>中的<Working with Dates and Times& ...
338. Counting Bits_比特位计数_简单动态规划
https://leetcode.com/problems/counting-bits/ 这是初步了解动态规划后做的第一道题,体验还不错... 看完题目要求后,写出前10个数的二进制数,发现了以下规律 ...
Cassandra内部架构
Cassandra是一个开源的.分布式.无中心节点.弹性可扩展.高可用.容错.一致性协调.面向列的NoSQL数据库 Cassandra集群(Cluster) Cluster Data center(s ...
[luogu P3195] [HNOI2008]玩具装箱TOY
[luogu P3195] [HNOI2008]玩具装箱TOY 题目描述 P教授要去看奥运,但是他舍不下他的玩具,于是他决定把所有的玩具运到北京.他使用自己的压缩器进行压缩,其可以将任意物品变成一堆, ...

<HBase><读写><LSM>

Overview

HBase:meta

HBase Read

LSM

HFile

整个查询过程

读取

<HBase><读写><LSM>的更多相关文章

随机推荐

热门专题