基本概念

基于磁盘的B+树

为什么使用B+数进行数据访问(Access Method):

  • 天然有序,支持范围查找
  • 支持遍历所有数据,利用顺序IO
  • 时间复杂度为\(O(logn)\),满足性能需求
  • 相比于B树,数据访问都在叶子结点:磁盘空间利用率高;并发冲突减少

一个基础的B+树:

  • 三类借点:根结点,中间结点,叶子结点
  • 数据分布:根结点和中间结点只存储索引,叶子结点存储数据
  • 指针关系:父子指针,兄弟指针

基于磁盘的B+树映象:

一个结点存储在一个堆文件(Heap File)页中;页ID(PageId)代替指针的作用。

  • 键值联合存储

  • 键值分别存储

B+树的叶子结点存储实际数据,这个数据如何理解,取决于不同的数据库实现:有些存储RecordID,有些基于索引组织(Index-Organized Storage)的数据库则直接存储元组(Tuple)数据。

如果不了解RecordID,数据组织方式,可以参看这篇博文

查询与索引

最左前缀匹配

有联合索引<a,b,c>,支持如下查询条件

  • (a=1 AND b=2 AND c=3)
  • (a=1 AND b=2)

如果所有不满足最左前缀匹配原则,需要全表扫描。

如何处理重复键

  • 加上RecordID使其变成唯一键

  • 叶子结点溢出(没有实际系统采用)

聚簇索引

  • 一个表只能有一个聚簇索引
  • 索引键和值存储在一起
  • 数据按照索引的键排序
  • 操作数据时要同步操作索引

聚簇索引是非必须的,取决于数据库具体实现,Mysql和SQLite中数据直接用聚簇索引组织。

用B+树实现聚簇索引可以很方便地实现范围查询和便利,充分利用顺序IO。

对于非聚簇索引,虽然索引的键有序,但是对应的数据在磁盘上不一定是顺序存储的,所以很有效的方式是先得到PageID,后根据PageID进行排序,最后获取数据,充分利用顺序IO。

设计选择

结点大小(Node Size)

存储设备读取数据越慢,越需要利用顺序IO,结点就越大;

存储设备读取数据越快,越需要减少冗余数据读取,结点就越小。

  • HDD:~1MB
  • SSD:~10KB
  • In-Memory:~512B

合并阈值(Merge Thredshold)

结点中的键数量低于半满的时候,不会立刻进行合并,而是允许小结点存在,然后再周期性地重建整棵树。

PostgreSQL中称其为不平衡的B+树("non-balanced" B+Tree, nbtree)。

变长键(Variable-length Keys)

  • 指针:键存储指向实际数据的指针【无法利用顺序IO,因为要跳转去读取指针内容】
  • 变长结点
  • 填充数据(Padding)

实际系统中的索引数据和堆文件数据一样,是能存结点就存结点中,是在存不下存指针。

结点内部搜索(Intra-Node Search)

  • 线性查找:由于SIMD指令集存在,实际顺序查询,其实可以是批处理

  • 二分查找

  • 插值法:键没有间隙的时候(自增),可以直接计算出偏移

优化手段

Pointer Swizzling

基本思想:当一个对象从磁盘加载到内存时,将其磁盘地址转换成内存地址(swizzling),以便程序在内存中直接通过指针访问。

例子:比如主键索引的B+树根结点读取到Buffer Pool后,会被pin住,不被置换出去,所以此时可以直接用内存指针访问根结点,省略用PageID问Buffer Pool要内存地址的步骤。

图示:


Bε-trees

一种B+树的写优化。

基本思想:更新时不直接修改数据 ,而是记录日志(类似于log-structured data storage)。

日志记录在结点上,当结点日志记录满以后,该结点的日志下推到孩子结点。

Bulk Insert

基本思想:由底至顶创建B+树,而不是由顶至底。

减少了插入时树的结构变化,前提是需要预先排序数据。

Keys: 3, 7, 9, 13, 6, 1
Sorted Keys: 1, 3, 6, 7, 9, 13

Prefix Compression

基本思想:字典序压缩前缀。

Deduplication

基本思想:非唯一索引中避免重复存储相同键。

Suffix Truncation

基本思想:中间结点只是起引路作用,所以存储能辨识的最小前缀即可。


cmu15545-数据访问方式:B+树(B+Tree)的更多相关文章

  1. ADO.NET编程之美----数据访问方式(面向连接与面向无连接)

    最近,在学习ADO.NET时,其中提到了数据访问方式:面向连接与面向无连接.于是,百度了一下,发现并没有很好的资料,然而,在学校图书馆中发现一本好书(<ASP.NET MVC5 网站开发之美&g ...

  2. 关系型数据库工作原理-查询优化器之数据访问方式(翻译自Coding-Geek文章)

    本文翻译自Coding-Geek文章:< How does a relational database work>.原文链接:http://coding-geek.com/how-data ...

  3. OPC Utgard的数据访问方式

    1.同步读取某个点位的值 Item项的read()方法 Server server = new Server(BaseConfiguration.getCLSIDConnectionInfomatio ...

  4. (转载)西门子PLC学习笔记十五-(数据块及数据访问方式)

    一.数据块 数据块是在S7 CPU的存储器中定义的,用户可以定义多了数据块,但是CPU对数据块数量及数据总量是有限制的. 数据块与临时数据不同,当逻辑块执行结束或数据块关闭,数据块中的数据是会保留住的 ...

  5. ClownFish:比手写代码还快的通用数据访问层

    http://www.cnblogs.com/fish-li/archive/2012/07/17/ClownFish.html 阅读目录 开始 ClownFish是什么? 比手写代码还快的执行速度 ...

  6. 在WCF数据访问中使用缓存提高Winform字段中文显示速度

    在我们开发基于WCF访问方式的Winform程序的时候,一般情况下需要对界面显示的字段进行中文显示的解析.如果是硬编码进行中文显示,那么除了不方便调整及代码臃肿外,性能上没有什么问题,但是不建议这样处 ...

  7. 三、Spring——数据访问

    1.Spring 对 DAO的支持 Spring支持目前大多数常用的数据持久化技术,Spring定义了一套面向DAO层的异常体系,并未各种支持的持久化技术提供了异常转换器.这样,我们在设计DAO接口时 ...

  8. Android中的5种数据存储方式

    本文转自  http://hi.baidu.com/maguowei/blog/item/7aca46c25574a33ae5dd3ba4.htmlAndroid数据存储Android提供了5种方式存 ...

  9. [翻译]比较ADO.NET中的不同数据访问技术(Performance Comparison:Data Access Techniques)

    Performance Comparison: Data Access Techniques Priya DhawanMicrosoft Developer Network January 2002 ...

  10. XAF-列表视图数据访问模式

    本主题介绍有关列表视图如何提供数据访问的几种方式.请注意,选择正确的方式对于实现XAF应用程序的最佳性能至关重要.    数据访问模式概述   在模型编辑器中,通过 视图-> <ListV ...

随机推荐

  1. CentOS 7.3离线安装 JDK

    1.下载对应的JDK版本 # 网盘链接:https://pan.baidu.com/s/1HMCJis-FEicIcDTgbksBnQ # 密码:q65m 2.查看原系统jdk版本 [bw@local ...

  2. 一种PyInstaller中优雅的控制包大小的方法

    PyInstaller会在打包时自动为我们收集一些依赖项,特别是我们在打包PyQt/PySide相关的应用时,PyInstaller会自动包含我们程序通常不需要的文件,如'tanslations'文件 ...

  3. 【Mac + Appium + Java1.8(三)】之IOS自动化环境安装配置以及简单测试用例编写(模拟器、真机)

    前提条件: =========================================== 1.Xcode版本为Xcode10及以上2.Appium版本必须为1.9及以上,因为Xcode为10 ...

  4. Android RecyclerView 获取当前滚动到的Item项

    背景:RecyclerView  左右滑动时,需要获取当前显示在页面上的选项卡 步骤: 1. RecyclerView  添加addOnScrollListener,回调中可以直接获取对应Item I ...

  5. 一次Java性能调优实践【代码+JVM 性能提升70%】

    这是我第一次对系统进行调优,涉及代码和JVM层面的调优.如果你能看到最后的话,或许会对你日常的开发有帮助,可以避免像我一样,犯一些低级别的错误.本次调优的代码是埋点系统中的报表分析功能,小公司,开发结 ...

  6. ComfyUI 基础教程(二) —— Stable Diffusion 文生图基础工作流及常用节点介绍

    上一篇文章讲解述首次启动 ComfyUI 会自动打开一个最基础的文生图工作流.实际上,后续我们可以通过菜单选项,或者快捷键 ctrl + D来打开这个默认工作流.默认工作流如下: 这是一个最基础的文生 ...

  7. RxJS 系列 – Join Operators

    前言 前几篇介绍过了 Creation Operators Filtering Operators Join Creation Operators Error Handling Operators T ...

  8. CSS – Monospaced font & ch unit 等宽字体与 ch 单位

    前言 在做 Statistics Counter 时, 发现总是会跳, 研究后才发现原来是等宽搞的鬼, 这篇就来说说等宽字体. 参考 等宽字体在web布局中应用以及CSS3 ch单位嘿嘿 不等宽字体 ...

  9. 第5天:基础入门-反弹SHELL&不回显带外&正反向连接&防火墙出入站&文件下载

    文件上传下载-解决无图形化&解决数据传输 命令生成:https://forum.ywhack.com/bountytips.php?download 反弹shell 以参照物为准,以Linux ...

  10. 【赵渝强老师】Docker Swarm集群的数据持久化

    如果Docker Swarm集群中运行了mysql.nginx等服务,这些服务的数据如果没有挂载到宿主机中,那么容器一旦停止运行,那就意味着数据丢失. 有什么方法可以解决swarm集群中运行的服务能够 ...