cmu15545-数据存储(Database Storage)
蓝图
数据库自己管理磁盘数据和缓冲区,而不是通过操作系统管理(Os is not your friend.)。
三层视图
数据库以页(page)为存储数据的基本单位,文件(file)是一系列页的集合,页中存储页数据(data),形成文件-页-数据三层架构。
文件有不同的组织形式,页包含页头和页数据,页数据可以采用不同方式组织:元组,日志,索引。
黄色部分为课程会提及的内容。
采用Heapfile进行文件存储时的执行图:
- 页目录:存储管理的页的元信息(空闲页,空页)
- 页头:存储页的元信息(页大小,校验和,数据库版本,事务可见性,压缩元数据)
面向元组的数据存储
通过<FileId, PageId, Slot>定位到一个指向tuple的指针(磁盘地址),然后找到tuple。
slot指针的灵活性:内部元组位置变化时,外部无感知;指针可以指向其他页,可以存储大数据(文件,大文本);支持变长记录。
数据库会为每个元组分配一个数据记录的唯一标识(record identifier),来表示元组的物理位置。SQLite和Oracle中为ROWID,Pg中是CTID,<PageId, Slot>。但是他们对于应用程序是无用的。
Header包含:可见性信息;NULL Bit Map。
Data包含:行数据。
Tuple只是一个字符串(char[]),本身不存储类型信息,类型信息存在数据库的System Catalogs中。(为了保证数据紧凑;非自解释的)
存数据时会遇到的问题:
- 数据对齐:填充,重排序
- 精确值问题:BIGDECIMAL(转为字符串存储)
空值:Bit Map;特殊值
大值和文件:Overflow Page和External File。
大值采用溢出页;大文件可以采用溢出页,也可以用外部文件系统存储,然后存储一个指向文件路径的指针,而不是直接存储文件内容(Oracle:BFILE, Microsoft: FILESTREAM)。
日志结构存储
基本概念:
- 利写不利读,非原地更新:只有PUT和DELETE操作,顺序IO。查询时由最新到最老时查询日志。
- 加速查询:索引。
- 加速查询:日志压缩,且压缩时会排序日志。
- 压缩方式:层级压缩,统一压缩
特点 | Level Compaction | Universal Compaction |
---|---|---|
层级结构 | 有多层级,L0、L1、L2 等 | 无层级结构,所有文件在同一级别 |
文件组织方式 | 每个层级内文件不重叠,跨层逐渐下推 | 基于文件大小和数量合并,文件可能有重叠 |
合并策略 | 层级压缩,按顺序下推合并 | 文件数量和大小超过阈值时触发合并 |
写放大 | 较高,因为需要不断下推文件至更低层级 | 较低,因为减少频繁合并 |
读放大 | 较低,因为相同键在每层只存在一次 | 较高,因为没有严格层级,需检查多个文件 |
适用场景 | 读多写少的场景 | 写多读少、实时数据的高写入场景 |
索引组织存储
直接用索引组织数据,数据挂在叶子结点上,Page内部的tuple有序。
SQLite和MySQL默认用这种方式组织数据,Oracle和SQL Server可选。
和基于元组的存储对比:
特性 | Index-Organized Storage | Tuple-Oriented Storage |
---|---|---|
数据与索引存储 | 数据存储在主键索引结构中 | 数据和索引独立存储 |
数据排序 | 数据按照主键顺序排序 | 数据无序存储 |
主键查询性能 | 高效,因数据已按主键排序 | 依赖主键索引,但数据本身无序 |
插入和更新性能 | 插入和更新时可能需要索引重排,较慢 | 插入和更新较快,无需主键排序 |
适用场景 | 主键查询频繁,数据顺序性强的场景 | 多种查询模式,插入和更新频繁的场景 |
cmu15545-数据存储(Database Storage)的更多相关文章
- web sql database数据存储位置
Q1: 数据存储在哪儿? Web Storage / Web SQL Database / Indexed Database 的数据都存储在浏览器对应的用户配置文件目录(user profile di ...
- 利用HTML5开发Android(7)---HTML5本地存储之Database Storage
在上一篇<HTML5本地存储之Web Storage篇>中,简单介绍了如何利用localStorage实现本地存储:实际上,除了sessionStorage和localStorage外,H ...
- 如何使用Iveely的数据存储引擎 Iveely Database
Iveely 数据存储引擎是为Iveely 搜索引擎提供数据存储的机制. 适用于:频繁数据插入.数据读取.数据更改或者删除数据不适合Iveely Database,存储结构是按照搜索引擎数据存储要求( ...
- External Storage 数据存储
一些数据存储的封装:http://hubingforever.blog.163.com/blog/static/17104057920129198236599/ External Storage数据存 ...
- 数据存储的两种方式:Cookie 和Web Storage
数据存储的两种方式:Cookie 和Web Storage 1.Cookie Cookie的作用就像你去超市购物时,第一次给你办张购物卡,这个购物卡里存放了一些你的个人信息,下次你再来这个连锁超市时, ...
- 数据存储的两种方式:Cookie 和Web Storage(转)
数据存储的两种方式:Cookie 和Web Storage 数据存储的两种方式:Cookie 和Web Storage 1.Cookie Cookie的作用就像你去超市购物时,第一次给你办张购物卡 ...
- Android开发7:简单的数据存储(使用SharedPreferences)和文件操作
前言 啦啦啦~大家好,又见面啦~ 本篇博文讲和大家一起完成一个需要注册.登录的备忘录的,一起学习 SharedPreferences 的基本使用,学习 Android 中常见的文件操作方法,复习 An ...
- Android数据存储(一)----SharedPreferences详解
一.Android数据的存储方式: Android系统一共提供了四种数据存储方式.分别是:SharePreference.SQLite.Content Provider和File:此外还有一种网络存储 ...
- 基于 HTML5 的数据存储
以前想做个静态网页APP.最初的思路是用本地文件存储数据,后来发现在手机上运行时,文件无法找到. 经过了长达几个月的搜索(实际也就几天),没有找到合适的方法. 就在绝望的时候,无意间搜到基于HTML5 ...
- android 数据存储的几种方式
总体的来讲,数据存储方式有三种:一个是文件,一个是数据库,另一个则是网络.其中文件和数据库可能用的稍多一些,文件用起来较为方便,程序可以自己定义格式:数据库用起稍烦锁一些,但它有它的优点,比如在海量数 ...
随机推荐
- 网卡DM9000裸机驱动详解
一.网卡 1. 概念 网卡是一块被设计用来允许计算机在计算机网络上进行通讯的计算机硬件.由于其拥有MAC地址,因此属于OSI模型的第2层.它使得用户可以通过电缆或无线相互连接. 每一个网卡都有一个被称 ...
- 使用SiliconCloud快速体验SimpleRAG(手把手教程)
SiliconCloud介绍 SiliconCloud 基于优秀的开源基础模型,提供高性价比的 GenAI 服务. 不同于多数大模型云服务平台只提供自家大模型 API,SiliconCloud上架了包 ...
- YAML 使用
YAML 语言教程 | 阮一峰的网络日志 YAML Reference YAML Tutorial | Tutorials Point YAML (/ˈjæməl/) YAML Ain't Marku ...
- c++实现几种常见排序算法
一.快速排序 int getPivot(vector<int>& arr, int left, int right){ int tmp = arr[left]; while(lef ...
- CoST: 时间序列预测中分离季节趋势特征的对比学习《CoST: CONTRASTIVE LEARNING OF DISENTANGLED SEASONAL-TREND REPRESENTATIONS FOR TIME SERIES FORECASTING》(时序预测、表征学习、对比学习、因果关系、分离趋势季节特征)
2022/6/18 11:32,简单记录一下随笔(因为不写点东西,根本注意力不集中,看5分钟可能要摸鱼10分钟,还是要写点,突然发现,草稿箱里最早的一篇没写完的博客是去年的7月2日,救命啊,我拖了一年 ...
- 终于有人把Modbus讲明白了
大家好!我是付工. 2012年开始接触Modbus协议,至今已经有10多年了,从开始的懵懂,到后来的顿悟,再到现在的开悟,它始终岿然不动,变化的是我对它的认知和理解. 今天跟大家聊聊关于Modbus协 ...
- Flutter 3.3 正式发布
Flutter 3 是我们正式为全平台提供支持的一个重量级里程碑,距离它的发布仅过去了三个月,今天让我们有请 Flutter 3.3 正式版!近三个月我们并没有放慢更新迭代的速度--自 Flutter ...
- MySQL 用户、权限管理,C/C++连接与使用
目录 用户 用户管理 查询所有用户 查看当前用户 查看当前连接数 创建用户 删除用户 修改密码规则 查看规则/策略 规则说明 临时设置 持久设置 修改密码 权限 数据库提供的 权限列表 查看权限 给用 ...
- [OI] 整体二分
整体二分可以理解成普通二分改版,其实并没有改多少,并且一般对 check() 函数的复杂度要求更宽松 先来看一道经典题目:求区间排名 给一个数列,若干组询问 \((l,r,k)\),求 \([l,r] ...
- 2022年最新数据库经典面试题及答案汇总(含PostgreSQL、Oracle、MySQL)
随着企业数字化需求的增加,数据库行业发展日益壮大,企业对DBA岗位的需求也处于逐步增加中.我们梳理了墨天轮平台上2022年最新的一批数据库经典面试题,主要包含PostgreSQL.MySQL和Orac ...