Lookup Store 主要用于 Paimon 中的 Lookup Compaction 以及 Lookup join 的场景. 会将远程的列存文件在本地转化为 KV 查找的格式.

Hash

https://github.com/linkedin/PalDB

Sort

https://github.com/dain/leveldb

https://github.com/apache/paimon/pull/3770



整体文件结构:

相比于 Hash file 的优势

  • 一次写入, 避免了文件merge
  • 顺序写入, 保持原先的 key 的顺序, 后续如果按照 key 的顺序查找, 可提升缓存效率

SortLookupStoreWriter

SortLookupStoreWriter#put

put

@Override
public void put(byte[] key, byte[] value) throws IOException {
dataBlockWriter.add(key, value);
if (bloomFilter != null) {
bloomFilter.addHash(MurmurHashUtils.hashBytes(key));
} lastKey = key; // 当BlockWriter写入达到一定阈值, 默认是 cache-page-size=64kb.
if (dataBlockWriter.memory() > blockSize) {
flush();
} recordCount++;
}

flush

private void flush() throws IOException {
if (dataBlockWriter.size() == 0) {
return;
}
// 将data block写入数据文件, 并记录对应的position和长度
BlockHandle blockHandle = writeBlock(dataBlockWriter);
MemorySlice handleEncoding = writeBlockHandle(blockHandle);
// 将BlockHandle 写入index writer, 这也通过是一个BlockWriter写的
indexBlockWriter.add(lastKey, handleEncoding.copyBytes());
}

writeBlock

private BlockHandle writeBlock(BlockWriter blockWriter) throws IOException {
// close the block
// 获取block的完整数组, 此时blockWriter中的数组并不会被释放, 而是会继续复用
MemorySlice block = blockWriter.finish(); totalUncompressedSize += block.length(); // attempt to compress the block
BlockCompressionType blockCompressionType = BlockCompressionType.NONE;
if (blockCompressor != null) {
int maxCompressedSize = blockCompressor.getMaxCompressedSize(block.length());
byte[] compressed = allocateReuseBytes(maxCompressedSize + 5);
int offset = encodeInt(compressed, 0, block.length());
int compressedSize =
offset
+ blockCompressor.compress(
block.getHeapMemory(),
block.offset(),
block.length(),
compressed,
offset); // Don't use the compressed data if compressed less than 12.5%,
if (compressedSize < block.length() - (block.length() / 8)) {
block = new MemorySlice(MemorySegment.wrap(compressed), 0, compressedSize);
blockCompressionType = this.compressionType;
}
} totalCompressedSize += block.length(); // create block trailer
// 每一块block会有一个trailer, 记录压缩类型和crc32校验码
BlockTrailer blockTrailer =
new BlockTrailer(blockCompressionType, crc32c(block, blockCompressionType));
MemorySlice trailer = BlockTrailer.writeBlockTrailer(blockTrailer); // create a handle to this block
// BlockHandle 记录了每个block的其实position和长度
BlockHandle blockHandle = new BlockHandle(position, block.length()); // write data
// 将数据追加写入磁盘文件
writeSlice(block); // write trailer: 5 bytes
// 写出trailer
writeSlice(trailer); // clean up state
blockWriter.reset(); return blockHandle;
}

close

public LookupStoreFactory.Context close() throws IOException {
// flush current data block
flush(); LOG.info("Number of record: {}", recordCount); // write bloom filter
@Nullable BloomFilterHandle bloomFilterHandle = null;
if (bloomFilter != null) {
MemorySegment buffer = bloomFilter.getBuffer();
bloomFilterHandle =
new BloomFilterHandle(position, buffer.size(), bloomFilter.expectedEntries());
writeSlice(MemorySlice.wrap(buffer));
LOG.info("Bloom filter size: {} bytes", bloomFilter.getBuffer().size());
} // write index block
// 将index数据写出至文件
BlockHandle indexBlockHandle = writeBlock(indexBlockWriter); // write footer
// Footer 记录bloomfiler + index
Footer footer = new Footer(bloomFilterHandle, indexBlockHandle);
MemorySlice footerEncoding = Footer.writeFooter(footer);
writeSlice(footerEncoding); // 最后关闭文件
// close file
fileOutputStream.close(); LOG.info("totalUncompressedSize: {}", MemorySize.ofBytes(totalUncompressedSize));
LOG.info("totalCompressedSize: {}", MemorySize.ofBytes(totalCompressedSize));
return new SortContext(position);
}

BlockWriter

add

public void add(byte[] key, byte[] value) {
int startPosition = block.size();
// 写入key长度
block.writeVarLenInt(key.length);
// 写入key
block.writeBytes(key);
// 写入value长度
block.writeVarLenInt(value.length);
// 写入value
block.writeBytes(value);
int endPosition = block.size(); // 使用一个int数组记录每个KV pair的起始位置作为索引
positions.add(startPosition);
// 是否对齐. 是否对齐取决于每个KV对的长度是否一样
if (aligned) {
int currentSize = endPosition - startPosition;
if (alignedSize == 0) {
alignedSize = currentSize;
} else {
aligned = alignedSize == currentSize;
}
}
}
  • 这里的 block 对应于一块可扩容的 MemorySegment, 也就是 byte[] , 当写入长度超过当前数组的长度时, 就会扩容

finish

public MemorySlice finish() throws IOException {
if (positions.isEmpty()) {
throw new IllegalStateException();
}
// 当通过BlockWriter写出的数据长度都是对齐的时, 就不需要记录各个Position的index了, 只需要记录一个对齐长度, 读取时自己可以计算.
if (aligned) {
block.writeInt(alignedSize);
} else {
for (int i = 0; i < positions.size(); i++) {
block.writeInt(positions.get(i));
}
block.writeInt(positions.size());
}
block.writeByte(aligned ? ALIGNED.toByte() : UNALIGNED.toByte());
return block.toSlice();
}

小结

整个文件的写出过程非常简单, 就是按 block 写出, 并且记录每个 block 的位置, 作为 index.

SortLookupStoreReader

读取的过程, 主要就是为了查找 key 是否存在, 以及对应的 value 或者对应的行号.

public byte[] lookup(byte[] key) throws IOException {
// 先通过bloomfilter提前进行判断
if (bloomFilter != null && !bloomFilter.testHash(MurmurHashUtils.hashBytes(key))) {
return null;
} MemorySlice keySlice = MemorySlice.wrap(key);
// seek the index to the block containing the key
indexBlockIterator.seekTo(keySlice); // if indexIterator does not have a next, it means the key does not exist in this iterator
if (indexBlockIterator.hasNext()) {
// seek the current iterator to the key
// 根据从index block中读取到的key value的位置(BlockHandle), 读取对应的value block
BlockIterator current = getNextBlock();
// 在value的iterator中再次二分查找寻找对应block中是否存在match的key, 如果存在则返回对应的数据
if (current.seekTo(keySlice)) {
return current.next().getValue().copyBytes();
}
}
return null;
}
  • 查找一次 key 会经历两次二分查找(index + value).

BlockReader

// 从block创建一个iterator
public BlockIterator iterator() {
BlockAlignedType alignedType =
BlockAlignedType.fromByte(block.readByte(block.length() - 1));
int intValue = block.readInt(block.length() - 5);
if (alignedType == ALIGNED) {
return new AlignedIterator(block.slice(0, block.length() - 5), intValue, comparator);
} else {
int indexLength = intValue * 4;
int indexOffset = block.length() - 5 - indexLength;
MemorySlice data = block.slice(0, indexOffset);
MemorySlice index = block.slice(indexOffset, indexLength);
return new UnalignedIterator(data, index, comparator);
}
}

SliceCompartor

这里面传入了 keyComparator, 用于进行 key 的比较. 用于在 index 中进行二分查找. 这里的比较并不是直接基于原始的数据, 而是基于 MemorySlice 进行排序.

比较的过程会将 key 的各个字段从 MemorySegment 中读取反序列化出来, cast 成 Comparable 进行比较.

public SliceComparator(RowType rowType) {
int bitSetInBytes = calculateBitSetInBytes(rowType.getFieldCount());
this.reader1 = new RowReader(bitSetInBytes);
this.reader2 = new RowReader(bitSetInBytes);
this.fieldReaders = new FieldReader[rowType.getFieldCount()];
for (int i = 0; i < rowType.getFieldCount(); i++) {
fieldReaders[i] = createFieldReader(rowType.getTypeAt(i));
}
} @Override
public int compare(MemorySlice slice1, MemorySlice slice2) {
reader1.pointTo(slice1.segment(), slice1.offset());
reader2.pointTo(slice2.segment(), slice2.offset());
for (int i = 0; i < fieldReaders.length; i++) {
boolean isNull1 = reader1.isNullAt(i);
boolean isNull2 = reader2.isNullAt(i);
if (!isNull1 || !isNull2) {
if (isNull1) {
return -1;
} else if (isNull2) {
return 1;
} else {
FieldReader fieldReader = fieldReaders[i];
Object o1 = fieldReader.readField(reader1, i);
Object o2 = fieldReader.readField(reader2, i);
@SuppressWarnings({"unchecked", "rawtypes"})
int comp = ((Comparable) o1).compareTo(o2);
if (comp != 0) {
return comp;
}
}
}
}
return 0;
}

查找的实现就是二分查找的过程, 因为写入的 key 是有序写入的.

public boolean seekTo(MemorySlice targetKey) {
int left = 0;
int right = recordCount - 1; while (left <= right) {
int mid = left + (right - left) / 2; // 对于aligned iterator, 就直接seek record * recordSize
// 对于unaligned iterator, 就根据writer写入的索引表来跳转
seekTo(mid);
// 读取一条key value pair
BlockEntry midEntry = readEntry();
int compare = comparator.compare(midEntry.getKey(), targetKey); if (compare == 0) {
polled = midEntry;
return true;
} else if (compare > 0) {
polled = midEntry;
right = mid - 1;
} else {
left = mid + 1;
}
} return false;
}

小结

查找过程

  • 先过一遍 bloom filter
  • index 索引查找对应 key 的 block handle
  • 根据第二步的 handle, 读取对应的 block, 在 block 中查找对应的 key value.

Paimon lookup store 实现的更多相关文章

  1. sencha touch carousel 扩展 CardList 可绑定data/store

    扩展代码: /* *扩展carousel *通过data,tpl,store配置数据 */ Ext.define('ux.CardList', { extend: 'Ext.carousel.Caro ...

  2. sencha touch百度地图扩展

    扩展代码如下: Ext.define('ux.BMap', { alternateClassName: 'bMap', extend: 'Ext.Container', xtype: 'bMap', ...

  3. ux.form.field.TreePicker 扩展,修复火狐不能展开bug

    /** * A Picker field that contains a tree panel on its popup, enabling selection of tree nodes. * 动态 ...

  4. ux.form.field.SearchField 列表、树形菜单查询扩展

    //支持bind绑定store //列表搜索扩展,支持本地查询 //支持树形菜单本地一级菜单查询 Ext.define('ux.form.field.SearchField', { extend: ' ...

  5. sencha touch 带本地搜索功能的selectfield(选择插件)

    带本地搜索功能的选择插件,效果图: 在使用selectfield的过程中,数据过大时,数据加载缓慢,没有模糊查询用户体验也不好, 在selectfield的基础上上稍作修改而成,使用方式同select ...

  6. sencha touch 百度地图扩展(2014-12-17)

    上个版本http://www.cnblogs.com/mlzs/p/3666466.html,新增了一些功能,修复了一些bug 扩展代码如下: Ext.define('ux.BMap', { alte ...

  7. sencha touch 百度地图扩展(2014-6-24)(废弃 仅参考)

    扩展代码如下: Ext.define('ux.BMap', { alternateClassName: 'bMap', extend: 'Ext.Container', xtype: 'bMap', ...

  8. sencha touch Button Select(点击按钮进行选择)扩展

    此扩展基于官方selectfield控件修改而来,变动并不大,使用方法类似. 代码如下: Ext.define('ux.SelectBtn', { extend: 'Ext.Button', xtyp ...

  9. 《Python 数据分析》笔记——数据的检索、加工与存储

    数据的检索.加工与存储 1.利用Numpy和pandas对CSV文件进行写操作 对CSV文件进行写操作,numpy的savetxt()函数是与loadtxt()相对应的一个函数,他能以诸如CSV之类的 ...

  10. 零售行业下MongoDB在产品目录系统、库存系统、个性推荐系统中的应用【转载】

    Retail Reference Architecture Part 1: Building a Flexible, Searchable, Low-Latency Product Catalog P ...

随机推荐

  1. 【安装部署】Apache SeaTunnel 和 Web快速安装详解

    版本说明 由于作者目前接触当前最新版本为2.3.4 但是官方提供的web版本未1.0.0,不兼容2.3.4,因此这里仍然使用2.3.3版本. 可以自定义兼容处理,官方提供了文档:https://mp. ...

  2. Kotlin 循环与函数详解:高效编程指南

    Kotlin 循环 当您处理数组时,经常需要遍历所有元素. 要遍历数组元素,请使用 for 循环和 in 操作符: 示例 输出 cars 数组中的所有元素: val cars = arrayOf(&q ...

  3. 高级工程师面试大全- spring篇

    1.spring是什么 Spring是一个轻量级的IoC和AOP容器框架.是为Java应用程序提供基础性服务的一套框架,目的是用于简化企业应用程序的开发,它使得开发者只需要关心业务需求.主要包括以下七 ...

  4. bazel 简介(一)—— 基础概念与原理

    0x01 背景 bazel目前已广泛用于云计算领域的开源软件的构建如k8s.kubevirt等,本文以一个新手的角度分享下bazel的基础知识,其存在的价值.对比下,它与其他已经存在的构建系统的差别, ...

  5. C++17新特性

    C++17新特性 语言特性 使用auto声明非类型模板参量 折叠表达式 提供模板参数包的折叠 template <typename... Args> bool logicalAnd(Arg ...

  6. AWS EC2 实例类型命名规则

    AWS EC2(Elastic Compute Cloud)实例类型的命名规则反映了实例的性能特征.用途和硬件配置.这些实例类型的名称由几个组件构成,每个组件都提供了关于该实例类型特定方面的信息.理解 ...

  7. Android升 Androidx 语系切换失效

    背景: 一个很旧的Android项目,android升androidx 切换语系失败,debug的时候,传的语系值是对的,但是确实没有国际化效果 原因: 经过一番学习,原因是使用 implementa ...

  8. Gson toJson 忽略 long 为 0的数据

    起因于数据id过大,所以将对应int , Integer都修改为long, 测试过程中发现 Gson toJson时,字段将int为0的数据忽略,但long 没有, 所以 1. 新增适配器 impor ...

  9. 又一个Rust练手项目-wssh(SSH over Websocket Client)

    原文地址https://blog.fanscore.cn/a/61/ 1. wssh 1.1 开发背景 公司内部的发布系统提供一个连接到k8s pod的web终端,可以在网页中连接到k8s pod内. ...

  10. Java基础12

    抽象类与抽象方法 abstract : 抽象的 abstract可以用来修饰:类.方法 abstract修饰类 > 此类称为抽象类 > 抽象类不能实例化 > 抽象类中是包含构造器的, ...