页高速缓存是Linux内核实现磁盘缓存。磁盘告诉缓存重要源自：第一，访问磁盘的速度要远远低于访问内存。

第二，数据一旦被访问，就很有可能在短期内再次被访问到。这种短时期内集中访问同一片数据的原理称作临时局部原理。

一、缓存手段

1.1 写缓存

通常来讲缓存一般实现成三种策略：

①不缓存

②写操作将自动更新内存缓存

③Linux采用的回写。程序写进缓存

1.2 缓存回收

1.最近少用原则：简称LRU，LRU回收需要跟踪每个页面的访问踪迹，以便能回收最老时间戳的页面。

2.双链策略：Linux实现的是一个修改过的LRU，也称为双链策略。Linux维护两个链表：活跃链表和非活跃链表。处于活跃链表是不会被换出的，而在非活跃链表上则是可以被换出的。这种链表方式也称作LUR/2,更普遍的是n个链表，故称LRU/n

二、Linux页高速缓存

高速缓存缓存的是内存页面，缓冲中的也来自对正规文件、块设备文件和内存映射文件的读写。

2.1 address_space对象

为了维持页高速缓存的普遍性，Linux页高速缓存使用了一个新对象管理缓存项和页I/O操作。address_space有点不确切，应该叫他page_cache_entity或者physical_page_of_a_file比较好。该结构定义在文件<linux/fs.h>中。

struct address_space {

    struct inode        *host;        /* owner: inode, block_device 拥有节点*/

    struct radix_tree_root    page_tree;    /* radix tree of all pages 包含全部页面的radix树*/

    spinlock_t        tree_lock;    /* and lock protecting it 保护page_tree自旋锁*/

    atomic_t        i_mmap_writable;/* count VM_SHARED mappings VM_SHARED计数*/

    struct rb_root        i_mmap;        /* tree of private and shared mappings 私有映射链表*/

    struct rw_semaphore    i_mmap_rwsem;    /* protect tree, count, list */

    /* Protected by tree_lock together with the radix tree */

    unsigned long        nrpages;    /* number of total pages 页总数*/

    unsigned long        nrshadows;    /* number of shadow entries */

    pgoff_t            writeback_index;/* writeback starts here 回写的起始偏移*/

    const struct address_space_operations *a_ops;    /* methods 操作表*/

    unsigned long        flags;        /* error bits/gfp mask gfp_mask掩码与错误标识*/

    spinlock_t        private_lock;    /* for use by the address_space 私有address_space锁*/

    struct list_head    private_list;    /* ditto 私有address_space链表*/

    void            *private_data;    /* ditto */

} __attribute__((aligned(sizeof(long))))

struct address_space

2.2 address_space操作

address_space_operations定义在文件<linux/fs.h>中

struct address_space_operations {

    int (*writepage)(struct page *page, struct writeback_control *wbc);

    int (*readpage)(struct file *, struct page *);

    /* Write back some dirty pages from this mapping. */

    int (*writepages)(struct address_space *, struct writeback_control *);

    /* Set a page dirty.  Return true if this dirtied it */

    int (*set_page_dirty)(struct page *page);

    int (*readpages)(struct file *filp, struct address_space *mapping,

            struct list_head *pages, unsigned nr_pages);

    int (*write_begin)(struct file *, struct address_space *mapping,

                loff_t pos, unsigned len, unsigned flags,

                struct page **pagep, void **fsdata);

    int (*write_end)(struct file *, struct address_space *mapping,

                loff_t pos, unsigned len, unsigned copied,

                struct page *page, void *fsdata);

    /* Unfortunately this kludge is needed for FIBMAP. Don't use it */

    sector_t (*bmap)(struct address_space *, sector_t);

    void (*invalidatepage) (struct page *, unsigned int, unsigned int);

    int (*releasepage) (struct page *, gfp_t);

    void (*freepage)(struct page *);

    ssize_t (*direct_IO)(struct kiocb *, struct iov_iter *iter, loff_t offset);

    /*

     * migrate the contents of a page to the specified target. If

     * migrate_mode is MIGRATE_ASYNC, it must not block.

     */

    int (*migratepage) (struct address_space *,

            struct page *, struct page *, enum migrate_mode);

    int (*launder_page) (struct page *);

    int (*is_partially_uptodate) (struct page *, unsigned long,

                    unsigned long);

    void (*is_dirty_writeback) (struct page *, bool *, bool *);

    int (*error_remove_page)(struct address_space *, struct page *);

    /* swapfile support */

    int (*swap_activate)(struct swap_info_struct *sis, struct file *file,

                sector_t *span);

    void (*swap_deactivate)(struct file *file);

};

struct address_space_operations

里面readpage()和writepage()两个方法最为重要，其中读操作会包括如下动作：

Linux内核试图在页高速缓存中找到需要的数据，find_get_page()方法负责完成这个动作检查。一个address_space对象和一个偏移量会传给find_get_page()方法，用于在页高速缓存中搜索需要的数据。

page = find_get_page(mapping, index);

mapping：指定的地址空间，index：文件中的指定位置，以页面为单位。

如果搜索页没在高速缓存中返回NULL，内核将分配一个新页面。

struct page *page;

int error;

/* 分配页... */

page = page_cache_alloc_cold(mapping);

if(!page)

    /* 内存分配出错 */

/* ...然后将其加入到页面调整缓存 */

error = add_to_page_cache_lru(page, mapping, index, GFP_KERNEL);

if(error)

    /* 页面被加入到页面高速缓存时，出错 */

/* 需要的数据从磁盘被读入，再被加入页高速缓存，然后返回给用户 */

error = mapping->a_ops->readpage(file, page);

SetPageDirty(page);        /* 写操作和读操作有少许不同 */

分配页，加入到页缓存

内核会在晚些时候嗲用writepage()写出，在文件mm/filemap.c中，比较复杂。主要步骤有：

page = __grab_cache_page(mapping, index, &cached_page, &lru_pvec);

status = a_ops->prepare_write(file, page, offset, offset+bytes);

page_fault = filemap_copy_from_user(page, offset, buf, bytes);

status = a_ops->commit_write(file, page, offset, offset+bytes);

写出

2.3 基数

每个address_space都有唯一的基树(radix tree)，保存在page_tree。基树是二叉树，指定了文件偏移量，就可以在基树中迅速检索到希望的页。

find_get_page()要调用函数radix_tree_lookup()。基树核心代码的通用形式可以在文件lib/radix-tree.c中找到，想要使用基树，需要头文件<linux/radix_tree.h>

2.4 以前的页散列表

全局散列表主要的存在四个问题：

由于使用单个的全局锁保护散列表，所以即使在中等规模的机器中，锁的征用情况也会相当严重，造成性能受损。
由于散列表需要包含所有也高速缓存中的页，搜索需要的只是当前文件相关的那些页，所以散列表包含的页面相比搜索需要的页面要大的多。
如果散列搜索失败，执行速度比希望的要慢的多，这是因为检索必须遍历指定散列键值对应的整个链表
散列表比其他方法会消耗更多的内存

2.6版本内核引入基于基树的页高速缓存来解决这些问题。

三、缓冲区高速缓存

独立的磁盘块通过块I/O缓冲也要被存入页高速缓存。因为它缓存磁盘块和减少块I/O操作，这个缓存童话参观称为缓冲区高速缓存，虽然没有独立缓存，而是作为页高速缓存的一部分。

块I/O操作一次操作一个单独的磁盘块

四、flusher线程

当页高速缓存中的数据比后台存储的数据更新时，该数据就称作脏数据。在内存中积累的脏页最终必须被写回磁盘。3中情况脏页写回磁盘：

当空闲内存低于一个特定的阈值时，内核必须将脏页写回磁盘以便释放内存。（只有干净的内存才可以被回收）
当脏页在内存中驻留时间超过一个特定的阈值时，内核必须将超时的脏页写回磁盘。
当用户进程调用sync()和fsync()系统调用时，内核会按要求执行回写动作。

flusher线程实现代码在文件mm/page-writeback.c和mm/backing-dev.c中，回写机制的实现代码在文件fs/fs-writeback.c中。

4.1 膝上型计算机模式

4.2 历史上bdflush、kupdated和pdflush

4.3 避免堵塞的方法：使用多线程

内核通过使用多个flusher线程来解决上述问题。每个线程可以互相独立地将脏页刷新回磁盘，而且不同的flusher线程处理不同的设备队列。

Linux内核设计与实现总结笔记（第十六章）页高速缓存和页回写的更多相关文章

Linux内核设计与实现总结笔记（第六章）内核数据结构
内核数据结构 Linux内核实现了这些通用数据结构,而且提倡大家在开发时重用. 内核开发者应该尽可能地使用这些数据结构,而不要自作主张的山寨方法. 通用的数据结构有以下几种:链表.队列.映射和二叉树 ...
Linux内核设计与实现总结笔记（第十三章）虚拟文件系统
一.通用文件系统接口 Linux通过虚拟文件系统,使得用户可以直接使用open().read().write()访问文件系统,这种协作性和泛型存取成为可能. 不管文件系统是什么,也不管文件系统位于何种 ...
Linux内核设计与实现总结笔记（第三章）进程
进程管理进程:处于执行期的程序. 线程:在进程中活动的对象虚拟机制虚拟处理器:多个进程分享一个处理器虚拟内存:多个线程共享虚拟内存一.进程描述符和任务结构进程存放在双向循环链表中(队列), ...
Linux内核设计与实现总结笔记（第十一章）定时器和时间管理
时间管理在内核中占用非常重要的地位,内核中有大量的函数都需要基于时间驱动的,内核对相对时间和绝对时间都非常需要. 一.内核中的时间概念内核必须在硬件的帮助下才能计算和管理时间,系统定时器以某种频率自 ...
Linux内核设计与实现总结笔记（第五章）系统调用
系统调用内核提供了用户进程和内核交互的接口,使得应用程序可以受限制的访问硬件设备. 提供这些接口主要是为了保证系统稳定可靠,避免应用程序恣意妄行. 一.内核通信系统调用在用户空间进程和硬件设备之间 ...
Linux内核设计与实现总结笔记（第七章）中断和中断处理
中断和中断处理处理器的速度跟外围硬件设备的速度往往不再一个数量级上,因此,如果内核采取让处理器向硬件发出一个请求. 然后专门等待回应的办法,如果专门等待回应,明显太慢.所以等待期间可以处理其他事务, ...
Linux内核设计与实现总结笔记（第四章）进程调度
进程调度调度程序负责决定将哪个进程投入运行,何时运行以及运行多长时间. 调度程序没有太复杂的原理,最大限度地利用处理器时间的原则是,只要有可以执行的进程,那么就总会有进程正在执行. 一.多任务多任 ...
《Linux内核设计与实现》课本第十八章自学笔记——20135203齐岳
<Linux内核设计与实现>课本第十八章自学笔记 By20135203齐岳通过打印来调试 printk()是内核提供的格式化打印函数,除了和C库提供的printf()函数功能相同外还有一 ...
Linux内核设计与实现读书笔记转
Linux内核设计与实现读书笔记: http://www.cnblogs.com/wang_yb/tag/linux-kernel/ <深入理解LINUX内存管理> http://bl ...
《HTTP 权威指南》笔记:第十六章&第十七章国际化、内容协商与转码
<HTTP 权威指南>笔记:第十六章国际化客户端通过在请求报文中的 Accept-Language 首部和 Accept-Charset 首部来告知服务器:“我理解这些语言.”服务器通 ...

随机推荐

python3 基本数据类型_1
不得已,要学习python3了,之前了解到py2与py3有很大不同,不过学起来才能感觉到,比如print. 不过,同样的代码,可以使用py3,py2执行,结果也相似,大家可以看看. 大概因为初学,还未 ...
office问题解决办法汇总
1.Office2007或2010提示:您正试图运行的函数包含有宏或需要宏语言支持的内容解决办法:word选项--加载项--管理com加载项--转到--把所有加载项删除 2.excel2010打开三 ...
基于 @Scheduled 注解的 ----定时任务
最常用的方法@Scheduled 注解表示起开定时任务依赖 <dependencies> <dependency> <groupId>org.springfram ...
关于MySQL的安装使用心得
MySQL浅浅地学习了几天,当然还是转到正轨Java上来了,昨天打了一串代码,测试注解来着,结果MySQL挂了~~~ 如何干净卸载MySQL帖子有很多,不再赘述,注册表是个好东西~~ 卸载了Mysql ...
P1074 靶形数独 dfs+预处理
https://www.luogu.org/problemnew/show/P1074 显然是dfs 而且没有什么剪枝记忆化之类的但是预处理比较麻烦我用三个二维数组存状态:visx[x][i]代表 ...
vue vuex应用
vue结构图: vuex为vue的一个插件,用来管理共享数据的,局部数据声明在自己组件内部. 没有使用vuex时,所有共享数据和操作数据的方法都声明在父组件内,数据的通信用props及pubsub等. ...
P1622释放囚犯
这是一道绿题,是一道让人想用贪心但却是区间DP的题目,难倒了我这个蒟蒻. 这个题其实仔细观察是类似于石子合并的!合并石子的代价便是肉的数量,求最小代价.所以我们设dp[i][j]为释放第i个到第j个所 ...
P1754球迷购票问题
这是一道动态规划题,其实也是个数论题. 有n人拿50,有n人拿100买票,必须让50元的人买,不然无法找零钱,问最多有几种方案可以每一次都买票成功.这个题首先令人想到搜索,但是随即发现dp是正解,于是 ...
面向对象super 练习
看代码写结果[如果有错误,则标注错误即可,并且假设程序报错可以继续执行] class Foo(object): a1 = 1 def __init__(self,num): self.num = nu ...
Windows 环境下安装redis 及其PHP Redis扩展
1.安装Redis (1)这里选择在github官网上下载Redis,地址:Redis下载地址下载压缩包(如下图),并解压到本地目录,我放在D:\redis (2)验证Redis安装是否成功打开命令 ...

Linux内核设计与实现 总结笔记（第十六章）页高速缓存和页回写