HBase体系结构

超大的雪童子 2024-10-16 11:33:11 原文

HBase的服务器体系结构遵从简单的主从服务器架构，它由HRegion服务器(HRegion Service)群和HBase Master服务器(HBase Master Server)构成。Hbase Master服务器负责管理所有的HRegion服务器，而Hbase中所有的服务器是通过Zookeeper来进行协调，并处理HBase服务器运行期间可能遇到的错误的。

1、HRegion

　　当表的大小超过设置的值时，HBase会自动地将表划分为不同的区域，每个区域包含所有行的子集。从物理上讲，一张表被拆分成了多块，每一块儿就是一个HRegion.一个HRegion会保存一表里面某段连续的数据，从开始主键到结束主键，一张完整的表格是保存在多个HRegion上面。

2、HRegion服务器

　　所有的数据一般都是保存在HDFS中，用户通过一系列HRegion服务器获取这些数据，一台机器上一般只运行一个HRegion服务器，且每一个区段的HRegion也只会被一个HRegion维护。

　　当用户需要更新数据的时候，他会被分配到对应的HRegion服务器上提交修改，这些修改先是被写到Hmemcache缓存和服务器的Hlog文件里面（Hmemcache是内存中的缓存，保存最新更新的数据数据：HLOG是磁盘上面的记录文件，它记录着所有的更新操作),在操作写入Hlog之后，commit()调用才会将其返回给客户端。

　　读取数据时，HRegion服务器会先访问Hmemcache缓存，如果缓存中没有该数据，才会回到Hstores磁盘上面寻找，每个列族都会有一个Hstore集合，每个Hstore集合包含很多具体的HstoreFile文件，这些文件都是B树结构，方便快速读取。

　　启动时，每台HRegion服务器会检查自己的Hlog文件，看看最近一次执行flushcache之后有没有新的更新写入操作。如果没有，表示数据都已经更新到文件中了，如果有更新，服务器会把这些更新写高速缓存，然后调用flushcache写入到文件中。最后服务器会删除旧的Hlog文件，并开始让用户访问数据。

3、HBase Master服务器

　　每台HRegion服务器都会和HMaster服务器通信，HMaster的主要任务就是告诉每台HRegion服务器它要维护哪些HRegion.当一台新的HRegion服务器登录到HMaster服务器时，HMaster会告诉它先等待分配数据。而当一台HRegion死机时，HMaster会把它负责的HRegion标记为未分配，然后再把它分配到其他HRegion服务器中。

4、ROOT表和META表

　　因为Hbase有合并和分割操作，如果正好在执行这些操作的过程中出现死机，那么就可能存在相同的 表名和开始主键,每个HRegion都有一个 regionId 来标识它的唯一性。所以一个HRegion的表达符最后是：表名+开始主键+唯一ID(tablename + startkey + regionId)。用这个识别符来区分不同的HRegion，这些数据就是元数据(META),而元数据本身也是被保存在HRegion里面的，所以我们称这个表为源数据表（META Table)，里面保存的就是HRegion标识符和实际HRegion服务器的映射关系。

　　元数据表是会不断增长的，也可能被分为几个HRegion,所以采用了一个根数据表(ROOT table)，它保存了所有元数据表的位置，根数据表是不会被拆分的，永远存在于一个HRegion。

HBase数据模型

　　（注意的是，每一条数据对应的时间戳都是用数字来表示，编号越大表示数据越旧，反之则表示数据越新）

　　

参考《Hadoop 实战》

HBase体系结构的更多相关文章

hadoop学习笔记（六）：HBase体系结构和数据模型
1. HBase体系结构一个完整分布式的HBase的组成示意图如下,后面我们再详细谈其工作原理. 1)Client 包含访问HBase的接口并维护cache来加快对HBase的访问. 2)Zooke ...
HBase体系结构(转)
HBase的服务器体系结构遵循简单的主从服务器架构,它由HRegion服务器(HRegion Server)群和HBase Master服务器(HBase Master Server)构成.HBase ...
HBase体系结构剖析
本文出自:http://wuyudong.com/archives/154 在上篇文章<HBase简介>中,已经提到过,HBase中的Table中的所有行都按照row key的字典序排列, ...
hbase体系结构以及说明
HMaster:数据库总控节点 HRegionServer:通常是一个物理节点即一台单独的计算机,一个HRegionServer包含多个HRegion,假如一个表有一亿行数据,那么可能会分散在一个Re ...
HBase(七): HBase体系结构剖析（下)
目录: write Compaction splite read Write: 当客户端发起一个Put请求时,首先根据RowKey寻址,从hbase:meta表中查出该Put数据最终需要去的HRegi ...
HBase(六): HBase体系结构剖析（上)
HBase隶属于hadoop生态系统,它参考了谷歌的BigTable建模,实现的编程语言为 Java, 建立在hdfs之上,提供高可靠性.高性能.列存储.可伸缩.实时读写的数据库系统.它仅能通过主键( ...
Hbase入门教程--单节点伪分布式模式的安装与使用
Hbase入门简介 HBase是一个分布式的.面向列的开源数据库,该技术来源于 FayChang 所撰写的Google论文"Bigtable:一个结构化数据的分布式存储系统".就像 ...
HBase介绍及简易安装（转）
HBase介绍及简易安装(转) HBase简介 HBase是Apache Hadoop的数据库,能够对大型数据提供随机.实时的读写访问,是Google的BigTable的开源实现.HBase的目标是存 ...
HBase(八): 表结构设计优化
在 HBase(六): HBase体系结构剖析(上) 介绍过,Hbase创建表时,只需指定表名和至少一个列族,基于HBase表结构的设计优化主要是基于列族级别的属性配置,如下图: 目录: BLOOMF ...

随机推荐

jquery实现自动滚屏效果，适用用公告新闻等滚屏
从网络上找到的例子,自己做了下扩展,原示例是向上滚动,扩展了一个向下滚动的方法: <html xmlns="http://www.w3.org/1999/xhtml"> ...
hdu 1532(最大流）
Drainage Ditches Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 65536/32768 K (Java/Others) ...
Huawei校招机试中的猴子吃桃问题
//============================================================================ // Name : Monkey& ...
CTSC&&APIO 2015 酱油记
在北京待了一周多,还是写点记录吧. 人民大学校园还是挺不错的,不过伙食差评. CTSC的题目太神,根本不会搞,一试20二试10分..本来都寄希望于提交答案题的..结果就悲剧了. 然后是听大爷们的论文答 ...
LazyLoad使用注意
今天使用ProgressHUD,进行网络请求后显示加载完成提示框,但是无效,检查以后发现数据源数组使用了懒加载,在调用数组之前调用ProgressHUD里的方法,根本无效啊!以后用懒加载注意.
使用 HttpClient 和 HtmlParser 实现简易爬虫
这篇文章介绍了 HtmlParser 开源包和 HttpClient 开源包的使用,在此基础上实现了一个简易的网络爬虫 (Crawler),来说明如何使用 HtmlParser 根据需要处理 Inte ...
我是一只IT小小鸟
不知不觉中走过了高三的时光,最后也没抓住时间的尾巴,不得不承认自己已经到了大一下学期了.接触了大学生职业生涯规划这门课程,一开始认为学习了这门课程以后就会对自己的未来有一个规划,渐渐的去意识到软件工程 ...
Hadoop生态上几个技术的关系与区别：hive、pig、hbase 关系与区别
初接触Hadoop技术的朋友肯定会对它体系下寄生的个个开源项目糊涂了,我敢保证Hive,Pig,HBase这些开源技术会把你搞的有些糊涂,不要紧糊涂的不止你一个,如某个菜鸟的帖子的疑问,when to ...
hibernate 的 CascadeType 属性
hibernateintegerstringfloatclassmerge @Entity @Table(name="orders")public class Order { // ...
[Java Basics] multi-threading
1, Process&Threads Most implementations of the Java virtual machine run as a single process. Thr ...