整体框架



使用 ZooKeeper 框架协助 RegionServer(类似于HDFS的nodemanager)用户请求从 Client 到 Zookeeper 进行判断数据属于哪一个 Region 辅助 HBase 进行数据存储/检索

主节点 Master (类似HDFS的ResourceManager) 管理 RegionServer ,数据不经过 Master

物理模型

  • Table中多有行按照RowKey字典顺序排列
  • Table在行的方向上分割为多个Region

  • 随着Region大小的增大,达到一定阈值的时候,会分裂成两个新的Region
  • Table在行的方向上分割为多个Region

数据写入流程:put

  • Wal(Write Ahead Log) 预写日志(HLog)文件(HDFS/Hbase/目录下):这个是修改日志,不是整个文件?就像git一样?
  • memStore
  • storeFile

完整架构图HBase Architecture

数据存储

客户端 -> Zookeeper -> 得到 hbase:meta 表的 RegionServer -> 客户端从 meta 表中查得用户所需表的 RegionServer -> put/get/scan ...

1.nameSpace:类似于 RDBMS 中 Database 概念,用户创建的表在 default namespace 下 ,系统自带表在 hbase namespace 下

hbase:meta 表存储了 HBase 中所有(自己除外)表的元数据信息
hbase:namespace 表存储了 namespace 信息
# 显示所有 namespace
> list_namespace # 显示 namespace 下的表
> list_namespace_tables 'hbase' # 使用 hbase namespace 下的表 hbase:meta
> scan 'hbase:meta'

2.表数据存储位置:hdfs://HBase/data/

HFile:HBase中KeyValue数据的存储格式,是 Hadoop 的二进制文件格式,是 StoreFile 的轻量级包装
HLog File:(Write Ahead Log) 预写日志(HLog)文件,在物理上是 Hadoop 的 Sequence File

3.预写日志文件目录:hdfs://HBase/wals/

4.Zookeeper 作用:用户申请数据首先经过 Zookeeper,Zokkeeper 中存储了 mate 所在的 Region 被哪一个 RegionServer 管理的信息。Hmaster 管理 RegionServer 的信息存储在 Zookeeper 中

# 查看mate-server(bin/zkCli.sh)
$ get /hbase/meta-region-server # 查看 RegionServer 信息(分文件夹存储)
$ ls /hbase/rs

人工干预数据的读写

# 从 memStore 到 Hfile
$ flush 'tablename' # 合并小文件
$ compact 'tablename'

各个组件的功能和作用(参考JAVA API 导包)

Client

  • 整个集群的访问入口
  • 使用 HBase RPC(Remote Procedure Call Protocol)——远程过程调用协议 与 HMAster 和 HRegionServer 进行通信
  • 与 HMAster 进行通信,进行管理类操作(创建表,删除表...)
  • 与 HRegionServer 进行数据读写类操作(put get ...)
  • 包含访问 HBase 的接口,并维护 cache(缓存) 来加快对 HBase 的访问

Zookeeper

  • 通过 Zookeeper 协作,允许开启/存在多个 HMaster 但 Zookeeper 通过 Master Election 保证了任何时候,集群中只有一个 HMaster
  • 保存了所有的 HRegion 的寻址入口(Client 访问 Zookeeper 找到 Region 的信息)
  • 实时监控 HRegionServer 的上线和下线信息,并通知给 HMaster
  • 存储了 HBase 的所有表信息的元数据信息 namespace 的信息
  • 存储了 meta 表和 HMaster 的地址

HMaster

  • HMaster 不存在单点问题,HBase 中可以启动多个 HMaster (详情请看bin/master-backup.sh)通过 Zookeeper 通过 Master Election 保证了任何时候,集群中只有一个 HMaster 在运行,负责 Table 和 Region 的管理工作
  • 管理用户对 Table 的增删改查操作
  • 管理 HRegionServer 的负载平衡,调整 Region 分布
  • Region Split 后,负责新 Region 的分布
  • 在 HRegionServer 停机后,负责失效 HRegionServer 的 Region 转移工作

HRegionServer

  • 维护 HRegion 处理 HRegion 的 IO 请求,向 HDFS 文件系统中读写数据
  • 负责 Region Split ,之后再交给 HMaster 调整 Region 分布
  • 负责数据的访问过程,数据不经过 HMater ,HMaster 仅仅维护 Table 和 Region 的元数据信息,负载很低<<寻址访问 Zookeeper 和 HRegionServer ,数据访问 HRegionServer >>(重点)

HBase 高级架构解析的更多相关文章

  1. 深入HBase架构解析(二)【转】

    转自:http://www.blogjava.net/DLevin/archive/2015/08/22/426950.html 前言 这是<深入HBase架构解析(一)>的续,不多废话, ...

  2. [转]毕设- 深入HBase架构解析(二)

    深入HBase架构解析(二) 前言 这是<深入HBase架构解析(一)>的续,不多废话,继续.... HBase读的实现 通过前文的描述,我们知道在HBase写时,相同Cell(RowKe ...

  3. [转]毕设- 深入HBase架构解析(一)

    深入HBase架构解析(一)   前记 公司内部使用的是MapR版本的Hadoop生态系统,因而从MapR的官网看到了这篇文文章:An In-Depth Look at the HBase Archi ...

  4. 从程序员到CTO的Java技术路线图 JAVA职业规划 JAVA职业发展路线图 系统后台框架图、前端工程师技能图 B2C电子商务基础系统架构解析

    http://zz563143188.iteye.com/blog/1877266在技术方面无论我们怎么学习,总感觉需要提升自已不知道自己处于什么水平了.但如果有清晰的指示图供参考还是非常不错的,这样 ...

  5. HBase 系统架构及数据结构

    一.基本概念     2.1 Row Key (行键)     2.2 Column Family(列族)     2.3 Column Qualifier (列限定符)     2.4 Column ...

  6. HBase 学习之路(二)—— HBase系统架构及数据结构

    一.基本概念 一个典型的Hbase Table 表如下: 1.1 Row Key (行键) Row Key是用来检索记录的主键.想要访问HBase Table中的数据,只有以下三种方式: 通过指定的R ...

  7. HBase 系列(二)—— HBase 系统架构及数据结构

    一.基本概念 一个典型的 Hbase Table 表如下: 1.1 Row Key (行键) Row Key 是用来检索记录的主键.想要访问 HBase Table 中的数据,只有以下三种方式: 通过 ...

  8. Netty原理架构解析

    Netty原理架构解析 转载自:http://www.sohu.com/a/272879207_463994本文转载关于Netty的原理架构解析,方便之后巩固复习 Netty是一个异步事件驱动的网络应 ...

  9. 从HBase底层原理解析HBASE列族不能设计太多的原因?

    在之前的文章<深入探讨HBASE>中,笔者详细介绍了: HBase基础知识(包括简介.表结构).系统架构.数据存储 WAL log和HBase中LSM树的应用 HBase寻址机制 mino ...

随机推荐

  1. 【转载】#457 Converting Between enums and their Underlying Type

    When you declare an enum, by default each enumerated value is represented internally with an int. (S ...

  2. CF235C 【Cyclical Quest】

    厚颜无耻的发一篇可能是全网最劣解法 我们发现要求给定的串所有不同的循环同构出现的次数,可以直接暴力啊 因为一个长度为\(n\)的串,不同的循环同构次数显然是不会超过\(n\)的,所以我们可以直接对每一 ...

  3. 【[SCOI2009]粉刷匠】

    这好像是个暴力? 但是跑的挺快的 我们设\(dp[i][j][k]\)表示在第\(i\)行我们最远染到的位置是\(j\),这一行上一共染了\(k\)次最多能染对多少个格子 理性分析一下啊,每一行最多也 ...

  4. Ubuntu 16.04 源码方式安装 JDK

    1.去官网下载JDK http://www.oracle.com/technetwork/articles/javase/index-jsp-138363.html 2.下载完成后,创建一个我们将要安 ...

  5. org.apache.tomcat.util.descriptor.web.WebXml.setVersion Unknown version string [4.0]. Default version will be used.报错

    org.apache.tomcat.util.descriptor.web.WebXml.setVersion Unknown version string [4.0]. Default versio ...

  6. 【luogu P2299 Mzc和体委的争夺战】 题解

    题目链接:https://www.luogu.org/problemnew/show/P2299#sub 裸的迪杰斯特拉(我是在考试前复习一下板子) #include<iostream> ...

  7. EJB结合struts2创建项目、发布jboss服务器和访问、父类(BaseDaoImpl)的封装

    一.环境搭建: 1.准备jboss服务器,将对应数据库的xml配置好放到jboss的发布目录下. <?xml version="1.0" encoding="UTF ...

  8. mui 的多图片上传

    pickHead(){ var _this = this; plus.gallery.pick(function(path){ _this.headImage=path; var files = [{ ...

  9. 上传文件,经过Zuul,中文文件名乱码解决办法

    转载请标明出处: http://blog.csdn.net/forezp/article/details/77170470 本文出自方志朋的博客 问题描述 在项目中又一个上传文件的oss服务,直接调用 ...

  10. DBF导入到Oracle数据库

    今天我遇到了一个需求,是将一个DBF文件导入到Oracle库中,之前一直使用的是公司提供的迁移工具,但是不知道怎么回事今天一直报DBF文件无法访问之类的错误,尝试多次之后,一气之下弃之不用,另寻他法. ...