hbase源码系列（十五）终结篇&Scan续集-->如何查询出来下一个KeyValue

这是这个系列的最后一篇了，实在没精力写了，本来还想写一下hbck的，这个东西很常用，当hbase的Meta表出现错误的时候，它能够帮助我们进行修复，无奈看到3000多行的代码时，退却了，原谅我这点自私的想法吧。

在讲《Get、Scan在服务端是如何处理？》当中的nextInternal流程，它的第一步从storeHeap当中取出当前kv，这块其实有点儿小复杂的，因为它存在异构的Scanner（一个MemStoreScanner和多个StoreFileScanner），那怎么保证从storeHeap里面拿出来的总是离上一个kv最接近的kv呢？

这里我们知道，在打开这些Scanner之后，就对他们进行了一下seek操作，它们就已经调整到最佳位置了。

我们看看KeyValueHeap的构造函数里面去看看吧。

public KeyValueHeap(List<? extends KeyValueScanner> scanners, KVComparator comparator) throws IOException {
    this.comparator = new KVScannerComparator(comparator);
    if (!scanners.isEmpty()) {
      this.heap = new PriorityQueue<KeyValueScanner>(scanners.size(),
          this.comparator);
      //...　　   this.current = pollRealKV();
    }
}

它内部有一个叫heap的PriorityQueue<KeyValueScanner>队列，它会对所有的Scanner进行排序，排序的比较器是KVScannerComparator, 然后current又调用了pollRealKV通过比较获得当前的Scanner，后面会讲。

那好，我们直接进去KVScannerComparator看看它的compare方法就能知道怎么回事了。

public int compare(KeyValueScanner left, KeyValueScanner right) {      // 先各取出来一个KeyValue进行比较      int comparison = compare(left.peek(), right.peek());
      if (comparison != 0) {
        return comparison;
      } else {
        // key相同，选择最新的那个
        long leftSequenceID = left.getSequenceID();
        long rightSequenceID = right.getSequenceID();
        if (leftSequenceID > rightSequenceID) {
          return -1;
        } else if (leftSequenceID < rightSequenceID) {
          return 1;
        } else {
          return 0;
        }
      }
}

额，从上面代码看得出来，把left和right各取出一个kv来进行比较，如果一样就比较SequenceID，SequenceID越大说明这个文件越新，返回-1，在升序的情况下，这个Scanner就跑到前面去了。
这样就实现了heap里面拿出来的第一个就是最小的kv的最新版。

在继续将之前，我们看一下在KeyValue是怎么被调用的，这样我们好理清思路。

//从storeHeap里面取出一个来
KeyValue current = this.storeHeap.peek();
//后面是一顿比较,比较通过,把结果保存到results当中
KeyValue nextKv = populateResult(results, this.storeHeap, limit, currentRow, offset, length);

接着看populateResult方法。

private KeyValue populateResult(List<Cell> results, KeyValueHeap heap, int limit,
        byte[] currentRow, int offset, short length) throws IOException {
      KeyValue nextKv;
      do {
        //从heap当中取出剩下的结果保存在results当中
        heap.next(results, limit - results.size());
        //如果够数了，就返回了
        if (limit > 0 && results.size() == limit) {
          return KV_LIMIT;
        }
        nextKv = heap.peek();
      } while (nextKv != null && nextKv.matchingRow(currentRow, offset, length));
      return nextKv;
}

我们对KeyValueHeap的使用，就是先peek，然后再next，我们接下来就按这个顺序看吧。

先从peek取出来一个，peek就是从heap队列取出来的current的scanner取出来的当前的KeyValue。

if (this.current == null) {
      return null;
}
return this.current.peek();

然后我们看next方法。

public boolean next(List<Cell> result, int limit) throws IOException {
    if (this.current == null) {
      return false;
    }
    InternalScanner currentAsInternal = (InternalScanner)this.current;
    boolean mayContainMoreRows = currentAsInternal.next(result, limit);
    KeyValue pee = this.current.peek();
    if (pee == null || !mayContainMoreRows) {
      this.current.close();
    } else {
      this.heap.add(this.current);
    }
    this.current = pollRealKV();
    return (this.current != null);
}

1、通过currentAsInternal.next继续获取kv，它是只针对通过通过检查的当前行的剩下的KeyValue，这个过程在之前那篇文章讲过了。

2、如果后面没有值了，就关闭这个Scanner。

3、然后还有，就把这个Scanner放回heap上，等待下一次调用。

4、使用pollRealKV再去一个新的Scanner出来。

private KeyValueScanner pollRealKV() throws IOException {
    KeyValueScanner kvScanner = heap.poll();
    if (kvScanner == null) {
      return null;
    }

    while (kvScanner != null && !kvScanner.realSeekDone()) {
      if (kvScanner.peek() != null) {
        //查询之前没有查的
        kvScanner.enforceSeek();
        //把之前的查到位置的kv拿出来
        KeyValue curKV = kvScanner.peek();
        if (curKV != null) {
          //再选出来下一个的scanner
          KeyValueScanner nextEarliestScanner = heap.peek();
          if (nextEarliestScanner == null) {
            // 后面没了，只能是它了
            return kvScanner;
          }

          // 那下一个Scanner的kv也出来比较比较
          KeyValue nextKV = nextEarliestScanner.peek();
          if (nextKV == null || comparator.compare(curKV, nextKV) < 0) {
            // 它确实小，那么就把它放出去吧
            return kvScanner;
          }

          // 把它放回去，和别的kv进行竞争
          heap.add(kvScanner);
        } else {
          // 它没东西了，关闭完事
          kvScanner.close();
        }
      } else {
        // 它没东西了，关闭完事
        kvScanner.close();
      }
      kvScanner = heap.poll();
    }

    return kvScanner;
}

鉴于它每次都要比较的情况，如果一个列族下的HFile比较多的话，它的比较次数也会增大，会影响查询效率，查询时间和HFile的数量成线性关系。

另外补充点内容，是前面写Scan的时候拉下的：

由于写入同一个rowkey相关的KeyValue的时候时间戳在前的先写入，查询的时候又需要总是读该rowkey最新的KeyValue，所以在查询的时候会先seek到该rowkey的时间戳最大的位置，具体查的时候，不断的向前seekBefore，直到这个rowkey的KeyValue全部查完位置，然后再向前定位到一个rowkey的位置。

简而言之：

不同rowkey的向前查，从rowkey小的查到rowkey大的；查相同rowkey的向后查，从最新的时间戳到查到最久的时间戳。

总结：

这就把如何查询出来下一个KeyValue的过程讲完了，它的peek方法、next方法、比较的方法，希望对大家有帮助，这个系列的文章到此也就结束了，下个目标是跟随超哥学习Spark源码，感谢广大读者的支持，觉得我写得好的，可以关注一下我的博客，谢谢！

hbase源码系列（十五）终结篇&Scan续集-->如何查询出来下一个KeyValue的更多相关文章

Vue.js 源码分析(十五) 指令篇 v-bind指令详解
指令是Vue.js模板中最常用的一项功能,它带有前缀v-,比如上面说的v-if.v-html.v-pre等.指令的主要职责就是当其表达式的值改变时,相应的将某些行为应用到DOM上,先介绍v-bind指 ...
hbase源码系列（五）Trie单词查找树
在上一章中提到了编码压缩,讲了一个简单的DataBlockEncoding.PREFIX算法,它用的是前序编码压缩的算法,它搜索到时候,是全扫描的方式搜索的,如此一来,搜索效率实在是不敢恭维,所以在h ...
hbase源码系列（十二）Get、Scan在服务端是如何处理
hbase源码系列(十二)Get.Scan在服务端是如何处理? 继上一篇讲了Put和Delete之后,这一篇我们讲Get和Scan, 因为我发现这两个操作几乎是一样的过程,就像之前的Put和Del ...
10 hbase源码系列（十）HLog与日志恢复
hbase源码系列(十)HLog与日志恢复 HLog概述 hbase在写入数据之前会先写入MemStore,成功了再写入HLog,当MemStore的数据丢失的时候,还可以用HLog的数据来进行恢 ...
9 hbase源码系列（九）StoreFile存储格式
hbase源码系列(九)StoreFile存储格式从这一章开始要讲Region Server这块的了,但是在讲Region Server这块之前得讲一下StoreFile,否则后面的不好讲下去 ...
C# DateTime的11种构造函数 [Abp 源码分析]十五、自动审计记录 .Net 登陆的时候添加验证码使用Topshelf开发Windows服务、记录日志日常杂记——C#验证码 c#_生成图片式验证码 C# 利用SharpZipLib生成压缩包 Sql2012如何将远程服务器数据库及表、表结构、表数据导入本地数据库
C# DateTime的11种构造函数别的也不多说没直接贴代码 using System; using System.Collections.Generic; using System.Glob ...
11 hbase源码系列（十一）Put、Delete在服务端是如何处理
hbase源码系列(十一)Put.Delete在服务端是如何处理? 在讲完之后HFile和HLog之后,今天我想分享是Put在Region Server经历些了什么?相信前面看了<HTab ...
HBase源码系列之HFile
本文讨论0.98版本的hbase里v2版本.其实对于HFile能有一个大体的较深入理解是在我去查看"到底是不是一条记录不能垮block"的时候突然意识到的. 首先说一个对HFile ...
hbase源码系列（十二）Get、Scan在服务端是如何处理？
继上一篇讲了Put和Delete之后,这一篇我们讲Get和Scan, 因为我发现这两个操作几乎是一样的过程,就像之前的Put和Delete一样,上一篇我本来只打算写Put的,结果发现Delete也可以 ...

随机推荐

合并流 SequenceInputStream
SequenceInputStream主要用来将2个流合并在一起,比如将两个txt中的内容合并为另外一个txt.下面给出一个实例: import java.io.File; import java.i ...
Web大前端面试题-Day10
1. px和em的区别? px和em都是长度单位; 区别是: px的值是固定的,指定是多少就是多少, 计算比较容易. em得值不是固定的,并且em会继承父级元素的字体大小. 浏览器的默认字体高都是16 ...
Luogu2570 [ZJOI2010]贪吃的老鼠 ---- 网络流
Luogu2570 [ZJOI2010]贪吃的老鼠题面描述 https://www.luogu.org/problemnew/show/P2570 然后题意大概就是m只老鼠,然后吃n个奶酪,已知 ...
[CF521D]Shop
[CF521D]Shop 题目大意: 你有一个长度为\(k(k\le10^5)\)的数列\(A_{1\sim k}\),有\(n(n\le10^5)\)种操作,操作包含以下\(3\)种: 将\(A_x ...
Codeforces Round #404 (Div. 2) D. Anton and School - 2 数学
D. Anton and School - 2 题目连接: http://codeforces.com/contest/785/problem/D Description As you probabl ...
C# abstract virtual override new finally java final finalize
virtual:声明虚方法.可以被其派生类所重写的.重写方法需要使用override或者new关键字. override:覆盖原方法.可对重写virtual.override.abstract进行重写 ...
PID控制器（比例-积分-微分控制器）- IV
调节/测量放大电路电路图:PID控制电路图如图是PlD控制电路,即比例(P).积分(I).微分(D)控制电路. A1构成的比例电路与环路增益有关,调节RP1,可使反相器的增益在0·5一∞范围内变化; ...
android:ProgressDialog控件
ProgressDialog 和 AlertDialog 有点类似,都可以在界面上弹出一个对话框,都能够屏蔽掉其他控件的交互能力.不同的是,ProgressDialog 会在对话框中显示一个进度条, ...
lib32asound2 : Depends: libc6-i386 (>= 2.7) but it is not going to be installed
sudo apt-get install -f sudo dpkg --configure -a sudo apt-get clean sudo apt-get update sudo apt-get ...
cordova性能优化方法
做了几个cordova的项目,觉得webapp性能的确是比不上原生,在IOS上还好,安卓上特别的明显.技术群里面很多人都在说cordova是个渣,没用之类的.其实只是很多人没有深入去了解,做点小优化, ...

hbase源码系列（十五）终结篇&Scan续集-->如何查询出来下一个KeyValue

hbase源码系列（十五）终结篇&Scan续集-->如何查询出来下一个KeyValue的更多相关文章

随机推荐

热门专题