top(k,n)—db kernel队解题思路

0. 比赛

公司里的第三届XX中间件性能挑战赛

我和另外两个P5组队参加，队名为“db kernel”。最后获得了第八，应该是P5里的最高排名。

以下简单扼要地介绍一下题目，以及我们的解题思路，真的非常简单扼要。

1. 题目

题目主要解决的是NewSQL领域中使用最频繁的一个场景:分页排序，其对应的SQL执行为order by id limit k,n 主要的技术挑战为"分布式"的策略，赛题中使用多个文件模拟多个数据分片。

1.1 题目内容

给定一批数据，求解按顺序从小到大，顺序排名从第k下标序号之后连续的n个数据

例如： top(k,3)代表获取排名序号为k+1,k+2,k+3的内容,例:top(10,3)代表序号为11、12、13的内容,top(0,3)代表序号为1、2、3的内容需要考虑k值几种情况，k值比较小或者特别大的情况，比如k=1,000,000,000 对应k,n取值范围： 0 <= k < 2**63 和 0 < n < 100。

1.2 数据文件说明

文件个数：10
每个文件大小：1G
文件内容：由纯数字组成，每一行的数字代表一条数据记录
每一行数字的大小取值范围 0 <= k < 2**63 （数字在Long值范围内均匀分布）
数据文件的命名严格按照规则命名。命名规则："KNLIMIT_X.data" ，其中X的范围是[0,9]

1.3 测试环境

测试环境为相同的24核物理机，内存为98GB，磁盘使用不做限制(一般不建议选手产生超过10G的中间结果文件)。选手可以使用的JVM堆大小为2.5G。

PS:

选手的代码执行时，JAVA_OPTS=" -XX:InitialHeapSize=2621440000 -XX:MaxHeapSize=2621440000 -XX:MaxNewSize=873816064 -XX:MaxTenuringThreshold=6 -XX:NewSize=873816064 -XX:OldPLABSize=16 -XX:OldSize=1747623936 -XX:+PrintGC -XX:+PrintGCDetails -XX:+PrintGCTimeStamps -XX:+UseCompressedOops -XX:+UseConcMarkSweepGC -XX:+UseParNewGC "
不准使用堆外内存。

1.4 计算耗时

总共执行五轮的总耗时。

2. 解决思路

在这个题目的程序时间是以下两个部份的总和: 构建索引和查找TOP(K,N)。构建索引仅仅在第一次程序运行时进行，后面几轮的TOP(K,N)的查找都可以复用第一轮的索引。程序的基本流程是：

假如索引不存在，构建索引
利用索引查找TOP(K,N)

2.1 构建索引

由于程序的运行时间要尽可能地短，于是对数据做全局排序是不现实的。

这里我们的做法是将原文件切成若干个有序的Block，对每一个Block进行排序。通过对所有的Block进行多路归并，可以得出完全有序的数据。而该题目求TOP(K,N)并不需要得出有序的前K个值，只需要第K个值之后有序的结果。这时解题的关键就变成如何快速定位到K，从这个起点进行多路归并，快速地把结果得出。

索引的设计目标是快速定位到K。然而我们发现直接定位到K也很困难，但是定位到一个比K小的值K-相对容易，这时可以利用多路归并从K-逼近到K。此时再通过多路归并N轮求出最后的结果相对来说更简单。

现在问题就从找到第K个值转化成了找到第K-个值。此时K-离K值越近，效果越好。

解题思路也很简单。我们将0～pow(2,63)-1这个范围的数等距分成若干个Range，统计数据落在不同的Range内的个数。假如我们分成4个Range，即每个Range的范围是[0, pow(2,61)-1]，[pow(2,61), 2pow(2,61)-1]，[2pow(2,61), 3pow(2,61)-1]，[3pow(2,61), 4*pow(2,61)-1]。

每个Block内存储一个对应的Range count的数组，在每个Block内部统计不同的range的计数。而所有的Block内Range count数组的总和即为一个全局的Range count的数组。Range的个数越多，落在每个range中的数字越少，定位的K-离真实的K的距离就越近，当然效果也就更好。

当然Range的个数也不是越多越好。随着Range的个数增多，提升的性能收益是不断减少的。而每个Block存储的索引信息需要持久化，需要IO时间，所需的时间是线性增长的。Range的个数必然存在着某个最优的上限。

通过将K与与全局的Range Count数组比对，可以快速定位第K个值落在哪个Range里。此时对应的Range的开头是可以获得的，这时我们将它称为K-。这时利用多路归并从K-逼近到K，再通过多路归并N轮求出最后的结果。

2.1.1 关键数据结构

将Block大小定为16MB，1GB左右的文件可以被分成大约64个Block，对应十个文件可以被划分为大约640个Block。对应一个有序的Block，我们并不存储真实的数据，而是存储它在原文件中的偏移量。此时一个Block内的所有数据的偏移量offset对于这个块头都在16MB以内，最多需要用3个字节即可索引。

每个Block的元数据用如下数据结构去描述。

struct BlockInfo

{

  int file_index; //对应的"KNLIMIT_X.data" ，其中X的范围是[0,9]

  int offset; //该Block相对该文件的偏移量

  int count;  //该Block内一共有多少条数据

  int range_count[RANGE_NUM]; //RANGE_NUM是range的个数。

};

每个Block内数据的索引用如下数据结构去描述。

struct BlockDataOffset

{

  uint24_t offset[DATA_NUM];

};

此时Block内的第n条数据可以通过BlockInfo::offset + BlockDataOffset::offset[n]的方式去原文件中去获得。

另外一个很重要的数据结构是全局的Range Count的统计。

struct OverallRangeCount

{

  int range_count[RANGE_NUM]; //RANGE_NUM是range的个数。

};

2.2 TOP(K,N)

求TOP(K,N)的过程相对简单，如下：

通过将K与OverallRangeCount的统计对比，找到对应的K落在具体哪个Range上，以及Range的起点K-。
找出每一个BlockInfo中对应的Range的计数，这个计数找到对应在BlockDataOffset中的起点，这是每一个Block归并的起点。需要将BlockDataOffset中的值换算成真实偏移值对原文件中去获得真实数据。
将属于同一个文件KNLIMIT_X.data的Block绑定在一起，放在一个线程里进行多路归并，提供给上层一个有序的数据流的抽象。
对这十个抽象出来的数据流进行多路归并，先从K-归并至K，再归并至K+N，得出结果。