HBase 数据读写流程

2016-10-18 杜亦舒

读数据

HBase的表是按行拆分为一个个 region 块儿，这些块儿被放置在各个 regionserver 中

假设现在想在用户表中获取 row key 为 row0001 的用户信息

要想取得这条数据，就需要先找到含有此条记录的 region

HBase 是如何定位到具体 regionserver 中的具体 region 的呢？

HBase 中有一个内置的 hbase:meta 表，其中记录了所有表的所有 region 的详细信息

例如 region 的 开始KEY、结束KEY、所在server的地址……

hbase:meta 表就像一个目录，通过他可以快速定位数据的实际位置

hbase:meta 表是存储在 ZooKeeper 中的，所以客户端就需要先访问 ZooKeeper，获取到 hbase:meta，从中查询出目标数据是在哪个 regionserver 中的哪个 region 中，然后到 region 中进行读取

我们可能会感觉这个寻址路径有点长，所以客户端会将查询过的位置信息保存缓存起来，方便以后快速读取

写数据

写操作会被分配到对应的 regionserver 进行处理，先回顾一下 regionserver 的结构

从客户端来看，写操作比较简单，写请求到达 regionserver 后，这些修改会先被写到 MemStore和 HLog 中，成功写入后便会通知客户端写入完成了

MemStore 是内存缓存，保存最近更新的数据
HLog 是日志文件，记录着所有的更新操作

对于系统来说，写操作还没完，系统会定期调用刷新缓存的方法，把MemStore中的内容写入文件，生成一个新的 StoreFile，然后把缓存清空，并在HLog中做一个标记，表明上面的内容已经写入文件

这样，数据就真正落地了，但写操作会引发一些后续问题，例如HLog日志文件越来越大了、StoreFile越来越多了、当前region越来越大了，所以，系统有还有更多的工作需要做

系统会定期清理HLog日志文件，把其中已经写入文件的记录删除
当 StoreFile 文件数量超过设定值时，会触发合并操作，合并成一个大文件，如果这个大文件超过了设定值，会再被分割开
当region的大小达到阈值时，会被切分开，生成一个新的region，HMaster会对其进行管理，分配到合适的 regionserver
region的变化后，系统还需要对 hbase:meta 表进行维护

HBase 数据读写流程的更多相关文章

HBase数据读写流程（1.3.1）
===数据写入流程=== 源码:https://github.com/apache/hbase/blob/master/hbase-server/src/main/java/org/apache/ha ...
Hbase数据读写流程
From: https://blog.csdn.net/wuxintdrh/article/details/69056188 写操作: Client写入,存入Memstore,Memstore满则Fl ...
HBase - 数据写入流程解析
本文由网易云发布. 作者:范欣欣本篇文章仅限内部分享,如需转载,请联系网易获取授权. 众所周知,HBase默认适用于写多读少的应用,正是依赖于它相当出色的写入性能:一个100台RS的集群可以轻松 ...
Hbase的读写流程
HBase读写流程 1.HBase读数据流程 HRegionServer保存着meta表以及表数据,要访问表数据,首先Client先去访问zookeeper,从zookeeper里面获取meta表所在 ...
HBase数据存取流程
一.HBase的特点是什么 1.HBase一个分布式的基于列式存储或者行式存储的数据库,基于hadoop的hdfs存储,zookeeper进行管理. 2.HBase适合存储半结构化或非结构化数据,对于 ...
JuiceFS 数据读写流程详解
对于文件系统而言,其读写的效率对整体的系统性能有决定性的影响,本文我们将通过介绍 JuiceFS 的读写请求处理流程,让大家对 JuiceFS 的特性有更进一步的了解. 写入流程 JuiceFS 对大 ...
2.1-2.2 HBase数据存储
一.HBase数据检索流程一篇介绍HBase数据读写流程的解析的博文:http://hbasefly.com/2016/12/21/hbase-getorscan/?wsfatm=uqvhl3 1. ...
HBase 文件读写过程描述
HBase 数据读写过程描述我们熟悉的在 Hadoop 使用的文件格式有许多种,例如: Avro:用于 HDFS 数据序序列化与 Parquet:常见于 Hive 数据文件保存在 HDFS中 HFi ...
【HBase】知识小结+HMaster选举、故障恢复、读写流程
1:什么是HBase HBase是一个高可靠性,高性能,面向列,可伸缩的分布式数据库,提供海量数据存储功能,一个结构化的分布式存储系统,不同于一般的关系型数据库,它适合半结构化和非结构化数据存储. 2 ...

随机推荐

Python 多线程教程：并发与并行
转载于: https://my.oschina.net/leejun2005/blog/398826 在批评Python的讨论中,常常说起Python多线程是多么的难用.还有人对 global int ...
WebAPI使用多个xml文件生成帮助文档
一.前言上篇有提到在WebAPI项目内,通过在Nuget里安装(Microsoft.AspNet.WebApi.HelpPage)可以根据注释生成帮助文档,查看代码实现会发现是基于解析项目生成的xm ...
linux遇到软件包系统已损坏怎么解决
软件包系统已损坏检查您是否使用了第三方源.如果是就禁用它们,它们常常导致问题. 然后在终端中运行以下命令:apt-get install -f 如果遇到以上问题输入以下命令可以解决 sudo apt ...
handlebars.js 用 <br>替换掉内容的换行符
handlebars.js 用 <br>替换掉内容的换行符 JS: Handlebars.registerHelper('breaklines', function(text) { te ...
UBUNTU 10.04上安装和使用HAMACHI
https://secure.logmein.com/US-ES/labs/#HamachiforLinux https://secure.logmein.com/CN/,经过笔者使用,非常不错. 官 ...
.net常见的面试题
1,asp.net中的页生命周期答:msdn官网已给出标准答案,这里简述一下:页要经历下表概述的8个阶段.除了页生命周期阶段以外,在请求前后还存在应用程序阶段,但是这些阶段并不特定于页. 而这8个阶 ...
Linux的fasync驱动异步通知详解【转】
本文转载自:http://blog.csdn.net/coding__madman/article/details/51851338 版权声明:本文为博主原创文章,未经博主允许不得转载. 工作项目用有 ...
webService-cxf
官网必备包,自己研究api:http://cxf.apache.org/download.html 然后就是一个简单的例子了: 先服务端: package com.cxf; import javax. ...
javascript高级程序设计第5章，引用类型
object类型: 创建object实列的方式有两种,一种是new()方法,一种是对象字面量表示法: 第一种法方: var obj = new object(); obj.name = 'name' ...
传感器之超声波测距HC-SR04
一.前言 HC-SR04超声波测距模块可提供2cm-400cm的非接触式距离感测功能,测距精度可达高到3mm:模块包括超声波发射器.接收器与控制电路.像智能小车的测距以及转向,或是一些项目中,常常会用 ...

HBase 数据读写流程

HBase 数据读写流程

读数据

写数据

HBase 数据读写流程的更多相关文章

随机推荐

热门专题