我们从HRegion.flushcache开始分析。由于这个过程还是比较复杂的,因此,在这一节,我们不会分析的太过详细,只是单单的介绍一下其大体流程,待大家有了整体的把握之后,我们将在下一节详细介绍其持久化的具体流程。
  为了尽可能严谨的描述整个流程,小编在讲解过程中会贴比较多的图来描述。
  好了,闲话不说,下面我们进入正题:
  首先,让我们来到今天的入口方法HRegion.flushcache:下图的代码不少,但是,并没有我们今天要介绍的重点。此图只是用来表示我们今天要讲的方法。
  其实,重点的入口方法是下图的框选方法internalFlushcache。由该方法名,我们就可以猜到该方法应该就是我们要找的方法。
  接着,让我们追踪到该方法内部,看到其调用了下图所示的两个方法。如下图所框选的两个方法。他们都是我们今天要介绍的重量级方法。
  第一个方法主要实现的是内存快照的创建。(为简化描述,以后用方法一描述该方法)
  第二个方法主要实现了将内存中的数据flush到磁盘上。(同理,用方法二描述该方法)
  下面,我们来到第一个方法,也就是HRegion.internalPrepareFlushCache。这个方法的内容很多,但是与我们今天流程相关并不是很多,如下图所示的代码:
  这里,我们简单看一下WALUtil.writeFlushMarker,并不做深入讲解,因为后面的内容还很多,详情让我们放到下一节。
  接着,我们来到StoreFlusherImpl.prepare。下图所框选的方法比较重要,因为这是方法一的核心。它为当前的memstore创建了快照,并且调用了resetActive方法,重置了memstore中的active成员变量。大家可能不太清楚我为什么要强调这里的active成员变量。那么我们跳过这张图。
  来到DefaultMemStore.snapshot,看一下我特地为大家标注的。首先,根据当前的active创建ImmutableSegment,然后将刚刚创建的ImmutableSegment赋给成员变量snapshot,最后,调用resetActive重置了当前的active为MutableSegment。这里不是很难,就不详细介绍了,大家有兴趣可以追查一下源码。
  接下来,让我们来到今天的另一个重量级方法HRegion.internalFlushCacheAndCommit,由于该方法比较长,内容比较多,这里我们仅介绍第一张图,也就是下图。如下图所示,我们框选了两个比较重要的变量prepareResult.storeFlushCtxs、prepareResult.committedFiles。大家可能会对他们有点陌生。没有关系,让我们在下面插一张图稍稍回顾一下
  看了下图,你可能就恍然大悟了,这正是方法一为方法二调用做的必要准备。到这里,大家应该能够理解我这里为什么要将他们二者称之为两个重量级方法了。
  接着,让我们继续往下走,来到HStore.StoreFlusherImpl.flushCache方法。
  继续来到上图所示方法的具体调用,这里就实现了对快照的flush。
  接着,我们来到今天所介绍的方法中最为复杂的方法。在下图,我框选的内容比较多,大家不要担心,我仅介绍其中与我们这一节紧密相关的后三个方法。
  首先,我们来到HStore.createWriterInTmp方法。在这个方法中,获取了familyTempDir路径。该路径是regionDir/.tmp/family.getNameAsString()。然后构建了StoreFileWriter。
  对于StoreFileWriter的构造方法是比较重要的,特别是其writer的构建,我在下图特别作了标示。
  由于上图所示的方法比较重要,在这里,我再附一张图来说明上图所示的writer类型,这关乎后面两个方法的具体调用。
  接着,我们来到StoreFlusher.performFlush。你可能会对我在下图标注的sink比较懵逼。但是仔细想一想,你可能就猜到了,这里的sink正是上面我们重点描述的HFileWriterImpl。也就是说下面调用的sink.append正是HFileWriterImpl.append。
  下图所示正是HFileWriterImpl.append。这里我们就不详细叙述了,留待下一节具体分析。
  接下来,就是真正的持久化方法:finalizeWriter。显然,在这里调用了writer.close。这里的writer类型是StoreFileWriter。
  继续往下走,来到StoreFileWriter.close。而这里的writer正是我们刚刚再三强调的HFileWriterImpl。
  在HFileWriterImpl.close方法中,将相关信息写入到输出流。
  在最后的finishClose方法中,也正如后面的图所示,最后调用了outputStream.close,完成了输出流的关闭。也就是说HStore中存储的CF信息flush到磁盘上。
  这一节描述的信息量还是很大的,还是希望大家耐心阅读。在后面的博文中,小编将做更为详细的描述。
  如果大家感觉不错,希望点一下下面的推荐。你的肯定是小编最大的动力。如果有疑问,也可以发送邮件至15935152719@163.com。

HBase数据持久化之HRegion.flushcache即CF持久化的更多相关文章

  1. HBase之CF持久化系列(续2)

    正如上篇博文所说,在本节我将为大家带来StoreFlusher.finalizeWriter..如果大家没有看过我的上篇博文<HBase之CF持久化系列(续1)>,那我希望大家还是回去看一 ...

  2. HBase之CF持久化系列(续1)

    这一节本来打算讲解HRegion的初始化过程中一些比较复杂的流程.不过,考虑前面的博文做的铺垫并不够,因此,在这一节,我还是特意来介绍HBase的CF持久化.关于这个话题的整体流程性分析在博文< ...

  3. HBase之CF持久化系列(续3——完结篇)

    相信大家在看了该系列的前两篇文章就已经对其中的持久化有比较深入的了解.相对而言,本节内容只是对前两节的一个巩固.与持久化相对应的是打开文件并将其内容读入到内存变量中.而在本节,我就来介绍这一点. 本节 ...

  4. 怎样将关系型数据表转换至hbase数据表

    首先须要把关系型数据库的数据表的数据添加由 "纵向延伸",转变为HBase数据表的"横向延伸" 一.Hbase的存储结构 a)      HBase以表(HTa ...

  5. HBase源代码分析之HRegion上MemStore的flsuh流程(二)

    继上篇<HBase源代码分析之HRegion上MemStore的flsuh流程(一)>之后.我们继续分析下HRegion上MemStore flush的核心方法internalFlushc ...

  6. HBase数据存储格式

    好的数据结构,对于检索数据,插入数据的效率就会很高. 常见的数据结构 B+树 根节点和枝节点非常easy,分别记录每一个叶子节点的最小值,并用一个指针指向叶子节点.  叶子节点里每一个键值都指向真正的 ...

  7. HBase数据备份及恢复(导入导出)的常用方法

    一.说明 随着HBase在重要的商业系统中应用的大量增加,许多企业需要通过对它们的HBase集群建立健壮的备份和故障恢复机制来保证它们的企业(数据)资产.备份Hbase时的难点是其待备份的数据集可能非 ...

  8. HBase数据快速导入之ImportTsv&Bulkload

    导入数据最快的方式,可以略过WAL直接生产底层HFile文件 (环境:centos6.5.Hadoop2.6.0.HBase0.98.9) 1.SHELL方式 1.1 ImportTsv直接导入 命令 ...

  9. HBase伪分布式安装(HDFS)+ZooKeeper安装+HBase数据操作+HBase架构体系

    HBase1.2.2伪分布式安装(HDFS)+ZooKeeper-3.4.8安装配置+HBase表和数据操作+HBase的架构体系+单例安装,记录了在Ubuntu下对HBase1.2.2的实践操作,H ...

随机推荐

  1. PowerDesigner code、name显示设置 及 同时显示办法

    菜单->Tool->Model Options->Name Convention->右侧display中选择显示name还是code. 不支持同时显示,但可以选择显示code, ...

  2. Lucene学习笔记:基础

    Lucence是Apache的一个全文检索引擎工具包.可以将采集的数据存储到索引库中,然后在根据查询条件从索引库中取出结果.索引库可以存在内存中或者存在硬盘上. 本文主要是参考了这篇博客进行学习的,原 ...

  3. MongoDB学习记录(四) - MongoDB的"增查改删"操作之"改"

    更新文档主要有以下几种方法: db.collection.updateOne(filter, update, options) db.collection.updateMany(filter, upd ...

  4. k8s的基本使用

    一.kubectl的命令参数 1)kubectl 能使用的命令.即查看帮助 [root@k8s6 ~]# kubectl kubectl controls the Kubernetes cluster ...

  5. 数组,arrayList和List

    数组,arrayList和List (1)数组在C#中是最早出现的.它在内存中是连续的存储的,所以索引速度很快,而且赋值与修改元素也很简单.可以利用偏移地址访问元素,时间复杂度为O(1);可以用折半查 ...

  6. JAVA的环境变量配置

    开发JAVA程序需要先准备开发环境,安装好操作系统后首先需要去下载JDK并安装. JDk(Java Development Kit )是Java开发工具包,如果您要开发基于Java的应用首先需要下载并 ...

  7. 信号量(Semaphore)

    在python的多线程体系中,一共有4种锁: 同步锁(互斥锁):Lock: 递归锁:RLock: 信号量:Semaphore: 同步条件锁:Condition. 信号量(semaphore)是一种可以 ...

  8. U盘安装centos7 关键步骤

    出现安装界面 按tab键或e键进行修改 一般默认第二行为: vmlinuz intrd=initrd.img inst.stage2=hd:LABEL=CentOS\x207\x20x86_64 rd ...

  9. [swarthmore cs75] Compiler 6 – Fer-de-lance

    课程回顾 Swarthmore学院16年开的编译系统课,总共10次大作业.本随笔记录了相关的课堂笔记以及第8次大作业. First-class function: It treats function ...

  10. pycharm无法使用ctrl+c/v复制粘贴的问题

    最近在使用pycharm的时候发现不能正常使用ctrl+c/v进行复制粘贴,也无法使用tab键对大段代码进行整体缩进.后来发现是因为安装了vim插件的问题,在setting里找到vim插件,取消勾选即 ...