PostgreSQL源码分析之shared buffer与磁盘文件

我们知道，PostgreSQL数据库中的信息，最终是要写入持久设备的。那么PostgreSQL是怎么将信息组织存储在磁盘上的呢？ Bruce Momjian有一个slide 《Insider PostgreSQL shared memory》，里面的图片非常直观的描述了，shared buffer，page ，磁盘文件之间的关系，请看下图。接下来几篇博客，从不同层面讲述PostgreSQL存储相关的的内存：

上图中左下角是page的组织形式。PostgreSQL 8K为一个页面，从share buffer写入relation 对应的磁盘文件，或者从relation对应的磁盘文件读入8K到shared buffer。shared buffers是一组8K的页面，作为缓存。对于数据库的relation而言，一条记录（Item或者叫Tuple），大小不一，不会恰好占据8K的空间，可能只有几十个字节，所以，如何将多条记录存放进8K的shared buffer，这就是page的组织形式了，我会在另一篇博文介绍。
对于Linux 我们知道，读文件，会首先将磁盘上的内容读入内存，写文件会首先写入cache，将cache标记成dirty，在合适的时机写入磁盘。对于这个不太熟悉的，可以阅读我前面的一篇博文 file 和page cache的一些事，PostgreSQL中shared buffers 之于relation file in disk 就相当于Linux 中page cache之于file in disk。

查看/设置 shared buffers大小：
首当其冲的是，PostgreSQL中shared buffers有多大，多少个8KB的buffers，当然这是可以配置的，我们通过如下方法查看配置：

show shared_buffers

或者：

select name,unit,setting,current_setting(name) from pg_settings where name = 'shared_buffers' ;

上面讲述的是查看，如何修改呢？需要修改配置文件postgresql.conf :

root@manu:/usr/pgdata# cat postgresql.conf | grep ^shared_buffers
shared_buffers = 24MB # min 128kB

我们可以将shared_buffers改成一个其他的值，至于改成多大的值是合理的，则取决与你的硬件环境，比如你的硬件很强悍，16GB内存，那么这个值设置成24MB就太抠门了。至于shared buffers多大才合理，网上有很多的说法，有的说内存总量的10%～15%,有的说内存总量的25%,幸好PostgreSQL提供了一些performance measure的工具，让我们能够监测PostgreSQL运行的performance，我们实际情况可以根据PostgreSQL的性能统计信息，调大或者调小这个shared buffers的大小。
但是又有个问题，shared buffer是以共享内存的形式分配的，如果在配置文件中配置的值超过操作系统对share memory的最大限制，会导PostgreSQL初始化失败。如下图，我将postgresql.conf中shared_buffers = 64MB,就导致了启动失败如下图所示：

原因是kernel的SHMMAX最大只有32MB，下面我查看并且修改成512MB

改过之后，就可以启动PostgreSQL了，我们可以查看shared_buffers已经变成了64MB：

manu_db=# show shared_buffers ;
shared_buffers
----------------
64MB
(1 row)

简单的内容结束了，我们需要深入代码分析shared buffers的原理了，如何组织内存，如何分配，如何page replacement，都在源码之中查找答案。详细的内容，我打算在下一篇博文里面介绍，因为原理部分本身就会内容有很多，必然会导致我这篇文章比较长。我本文剩下的内容想介绍内存中的shared buffer 如何得知对应的磁盘的文件。因为shared buffer中的8K内容，最终会sync到磁盘文件。PostgreSQL是将内存中的shared buffer和磁盘上的某个文件对应起来的呢。

shared buffer与relation的磁盘文件的对应关系
本文的第一个图，上半部分讲述的是shared buffer的结构，分两部分
1 赤果果的buffer，N个8K块，每个块存放从relation对应磁盘文件读上来的某个8K的内容。
2 管理buffer的结构，也是N个，有几个buffer，就有几个管理结构。Of Course，管理结构占用的内存空间要远小于赤果果的buffer，否则内存利用率太低了。
这是初始化的时候，为这两个部分分配空间：

BufferDescriptors = (BufferDesc *)
ShmemInitStruct("Buffer Descriptors",
NBuffers * sizeof(BufferDesc), &foundDescs);
BufferBlocks = (char *)
ShmemInitStruct("Buffer Blocks",
NBuffers * (Size) BLCKSZ, &foundBufs);

这个管理buffer的结构体叫BufferDesc，我智商不高，也知道肯定也知道会记录对应的buffer有没有被使用，对应的是哪个磁盘文件的第几个8K block，为了应对并发，肯定会有锁。我们看下这个结构体的定义：

typedef struct sbufdesc
{
BufferTag tag; /* ID of page contained in buffer */
BufFlags flags; /* see bit definitions above */
uint16 usage_count; /* usage counter for clock sweep code */
unsigned refcount; /* # of backends holding pins on buffer */
int wait_backend_pid; /* backend PID of pin-count waiter */
slock_t buf_hdr_lock; /* protects the above fields */
int buf_id; /* buffer's index number (from 0) */
int freeNext; /* link in freelist chain */
LWLockId io_in_progress_lock; /* to wait for I/O to complete */
LWLockId content_lock; /* to lock access to buffer contents */
} BufferDesc;

OK，我们回到我们最初关系的问题，当前这个shared buffer和which db ，which table，which type（后面解释type），which file的which 8KB block对应。第一个 BUfferTag类型的tag字段就是确定这个对应关系的：

typedef enum ForkNumber
{
InvalidForkNumber = -1,
MAIN_FORKNUM = 0,
FSM_FORKNUM,
VISIBILITYMAP_FORKNUM,
INIT_FORKNUM
/*
* NOTE: if you add a new fork, change MAX_FORKNUM below and update the
* forkNames array in catalog.c
*/
} ForkNumber;
typedef struct RelFileNode
{
Oid spcNode; /* tablespace */
Oid dbNode; /* database */
Oid relNode; /* relation */
} RelFileNode;
/*
* Buffer tag identifies which disk block the buffer contains.
*
* Note: the BufferTag data must be sufficient to determine where to write the
* block, without reference to pg_class or pg_tablespace entries. It's
* possible that the backend flushing the buffer doesn't even believe the
* relation is visible yet (its xact may have started before the xact that
* created the rel). The storage manager must be able to cope anyway.
*
* Note: if there's any pad bytes in the struct, INIT_BUFFERTAG will have
* to be fixed to zero them, since this struct is used as a hash key.
*/
typedef struct buftag
{
RelFileNode rnode; /* physical relation identifier */
ForkNumber forkNum;
BlockNumber blockNum; /* blknum relative to begin of reln */
} BufferTag;

我们可以看到BufferTag中的rnode，表征的是which relation。这个rnode的类型是RelFileNode类型，包括数据库空间/database/relation，从上到下三级结构，唯一确定了PostgreSQL的一个relation。对于relation而言并不是只有一种类型的磁盘文件，

-rw------- 1 manu manu 270336 6月 3 21:31 11785
-rw------- 1 manu manu 24576 6月 3 21:31 11785_fsm
-rw------- 1 manu manu 8192 6月 3 21:31 11785_vm

如上图所示11785对应某relation，但磁盘空间中有三种，包括fsm和vm后缀的两个文件。我们看下ForkNumber的注释：

/*
* The physical storage of a relation consists of one or more forks. The
* main fork is always created, but in addition to that there can be
* additional forks for storing various metadata. ForkNumber is used when
* we need to refer to a specific fork in a relation.
*/

MAIN_FORKNUM type的总是存在，但是某些relation还存在FSM_FORKNUM和VISIBILITYMAP_FORKNUM两种文件，这两种我目前知之不详，我就不瞎说了。
我们慢慢来，先放下blockNum这个成员变量，步子太大容易扯蛋，我们先根据rnode+forkNum找到磁盘对应的文件？
这个寻找磁盘文件的事儿是relpath这个宏通过调用relpathbackend实现的：

char *
relpathbackend(RelFileNode rnode, BackendId backend, ForkNumber forknum)
{
if (rnode.spcNode == GLOBALTABLESPACE_OID)
{
...
}
else if (rnode.spcNode ==DEFAULTTABLESPACE_OID)
{
pathlen = 5 + OIDCHARS + 1 + OIDCHARS + 1 + FORKNAMECHARS + 1;
path = (char *) palloc(pathlen);
if (forknum != MAIN_FORKNUM)
snprintf(path, pathlen, "base/%u/%u_%s",
rnode.dbNode, rnode.relNode,
forkNames[forknum]);
else
snprintf(path, pathlen, "base/%u/%u",
rnode.dbNode, rnode.relNode);
}
else
{
...
}
}

因为我们是pg_default,所以我们走DEFAULTTABLESPACE_OID这个分支。决定了我们在base目录下，db的oid（即BufferTag->rnode->dbNode）是16384决定了base/16384/，BufferTag->rnode->relNode + BufferTag->forkNum 决定了是base/16384/16385还是 base/16384/16385_fsm or base/16384/16385_vm。

查找文件基本结束，不过，某些某些relation比较大，记录比较多，会导致磁盘文件超大，为了防止文件系统对磁盘文件大小的限制而导致的写入失败，PostgreSQL做了分段的机制。以我的friends为例，如果随着记录的不断插入，最后friends对应的磁盘文件16385越来越大，当超过1G的时候，PostgreSQL就会新建一个磁盘文件叫16385.1,超过2G的时候PostgreSQL再次分段，新建文件16385.2 。这个1G就是有Block size = 8KB和blockS per segment of large relation=128K（个）共同决定的。

源码中的定义上面有注释，解释了很多内容：

/* RELSEG_SIZE is the maximum number of blocks allowed in one disk file. Thus,
the maximum size of a single file is RELSEG_SIZE * BLCKSZ; relations bigger
than that are divided into multiple files. RELSEG_SIZE * BLCKSZ must be
less than your OS' limit on file size. This is often 2 GB or 4GB in a
32-bit operating system, unless you have large file support enabled. By
default, we make the limit 1 GB to avoid any possible integer-overflow
problems within the OS. A limit smaller than necessary only means we divide
a large relation into more chunks than necessary, so it seems best to err
in the direction of a small limit. A power-of-2 value is recommended to
save a few cycles in md.c, but is not absolutely required. Changing
RELSEG_SIZE requires an initdb. */
#define RELSEG_SIZE 131072

当然了这个128K的值是默认值，我们编译PostgreSQL的阶段 configure的时候，可以通过--with-segsize 指定其他的值，不过这个我没有try过。
考虑上segment，真正的磁盘文件名fullpath就呼之欲出了：
如果分段了，在relpath获取的名字后面加上段号segno，如果段号是0,那么fullpath就是前面讲的relpath。

static char *
_mdfd_segpath(SMgrRelation reln, ForkNumber forknum, BlockNumber segno)
{
char *path,
*fullpath;
path = relpath(reln->smgr_rnode, forknum);
if (segno > 0)
{
/* be sure we have enough space for the '.segno' */
fullpath = (char *) palloc(strlen(path) + 12);
sprintf(fullpath, "%s.%u", path, segno);
pfree(path);
}
else
fullpath = path;
return fullpath;
}

怎么判断segno是几？这个太easy了，(BufferTag->rnode->blockNum/RELSEG_SIZE)。
OK，讲过这个shared buffer中的8K块和relation 的磁盘文件的对应关系，我们就可以安心讲述 shared buffer的一些内容了。悲剧啊，文章写了好久。
参考文献：
1 PostgreSQL 性能调校
2 PostgreSQL 9.1.9 Source Code
3 Bruce Momjian的Insider PostgreSQL shared memory

PostgreSQL源码分析之shared buffer与磁盘文件的更多相关文章

Envoy 源码分析－－buffer
目录 Envoy 源码分析--buffer BufferFragment RawSlice Slice OwnedSlice SliceDeque UnownedSlice OwnedImpl Wat ...
Netty源码分析第7章(编码器和写数据)---->第3节: 写buffer队列
Netty源码分析七章: 编码器和写数据第三节: 写buffer队列之前的小节我们介绍过, writeAndFlush方法其实最终会调用write和flush方法 write方法最终会传递到hea ...
Netty源码分析第7章(编码器和写数据)---->第4节: 刷新buffer队列
Netty源码分析第七章: 编码器和写数据第四节: 刷新buffer队列上一小节学习了writeAndFlush的write方法, 这一小节我们剖析flush方法通过前面的学习我们知道, flu ...
netty(六) buffer 源码分析
问题 : netty的 ByteBuff 和传统的ByteBuff的区别是什么? HeapByteBuf 和 DirectByteBuf 的区别 ? HeapByteBuf : 使用堆内存,缺点 ,s ...
Buffer的创建及使用源码分析——ByteBuffer为例
目录 Buffer概述 Buffer的创建 Buffer的使用总结参考资料 Buffer概述注:全文以ByteBuffer类为例说明在Java中提供了7种类型的Buffer,每一种类型的Buf ...
MySQL源码分析以及目录结构 2
原文地址:MySQL源码分析以及目录结构作者:jacky民工主要模块及数据流经过多年的发展,mysql的主要模块已经稳定,基本不会有大的修改.本文将对MySQL的整体架构及重要目录进行讲述. 源码结 ...
MySQL源码分析以及目录结构
原文地址:MySQL源码分析以及目录结构作者:jacky民工主要模块及数据流经过多年的发展,mysql的主要模块已经稳定,基本不会有大的修改.本文将对MySQL的整体架构及重要目录进行讲述. 源码结 ...
Mysqldump源码分析
版权声明:本文由王珏原创文章,转载请注明出处: 文章原文链接:https://www.qcloud.com/community/article/261 来源:腾云阁 https://www.qclou ...
【集合框架】JDK1.8源码分析之ArrayList详解(一)
[集合框架]JDK1.8源码分析之ArrayList详解(一) 一. 从ArrayList字表面推测 ArrayList类的命名是由Array和List单词组合而成,Array的中文意思是数组,Lis ...

随机推荐

postman自动生成签名
查看详细图文教程↓ 一.全局变量方式 1. 在全局变量添加key:value分别是autoSign和var sign={toUnicode:function(s){return s.replace(/ ...
JAVA编程思想读书笔记（四）--对象的克隆
接上篇JAVA编程思想读书笔记(三)--RTTI No1: 类的克隆 public class MyObject implements Cloneable { int i; public MyObje ...
洛谷P3201 [HNOI2009]梦幻布丁 [链表，启发式合并]
题目传送门梦幻布丁题目描述 N个布丁摆成一行,进行M次操作.每次将某个颜色的布丁全部变成另一种颜色的,然后再询问当前一共有多少段颜色.例如颜色分别为1,2,2,1的四个布丁一共有3段颜色. 输入输 ...
Android 之JSON数据解析
(以下基本都是郭霖大神<第一行代码>中的知识) JSON数据与xml相比,优势在于体积更小,传输所需的流量少.但是缺点也很明显,就是语义性较差. 下面是一组JSON格式的数据. [{&qu ...
golang中接口interface和struct结构类的分析
再golang中,我们要充分理解interface和struct这两种数据类型.为此,我们需要优先理解type的作用. type是golang语言中定义数据类型的唯一关键字.对于type中的匿名成员和 ...
logging记录日志
日志是一个系统的重要组成部分,用以记录用户操作.系统运行状态和错误信息.日志记录的好坏直接关系到系统出现问题时定位的速度.logging模块Python2.3版本开始成为Python标准库的一部分. ...
java console 到文件
System.setOut(new PrintStream(new FileOutputStream("c:\\temp\\test1.txt"))); System.out.pr ...
【Python】闭包Closure
原来这就是闭包啊... 还是上次面试,被问只不知掉js里面的闭包闭包,没听过啊...什么是闭包回来查了下,原来这货叫闭包啊...... —————————————————————————————— ...
(VIJOS) VOJ 1067 Warcraft III 守望者的烦恼矩阵快速幂
https://vijos.org/p/1067 就..挺普通的一道题..自己学一下怎么推式子就可以...细节不多但是我还是日常爆细节..比如说循环写成从负数开始... 只求ac不求美观的丑陋 ...
【KM】BZOJ1937 [Shoi2004]Mst 最小生成树
这道题拖了好久因为懒,结果1A了,惊讶∑( 口 || [题目大意] 给定一张n个顶点m条边的有权无向图.现要修改各边边权,使得给出n-1条边是这张图的最小生成树,代价为变化量的绝对值.求最小代价之和. ...

PostgreSQL源码分析之shared buffer与磁盘文件

PostgreSQL源码分析之shared buffer与磁盘文件的更多相关文章

随机推荐

热门专题