Linux内核设计与实现 总结笔记(第十六章)页高速缓存和页回写
页高速缓存是Linux内核实现磁盘缓存。磁盘告诉缓存重要源自:第一,访问磁盘的速度要远远低于访问内存。
第二,数据一旦被访问,就很有可能在短期内再次被访问到。这种短时期内集中访问同一片数据的原理称作临时局部原理。
一、缓存手段
1.1 写缓存
通常来讲缓存一般实现成三种策略:
①不缓存
②写操作将自动更新内存缓存
③Linux采用的回写。程序写进缓存
1.2 缓存回收
1.最近少用原则:简称LRU,LRU回收需要跟踪每个页面的访问踪迹,以便能回收最老时间戳的页面。
2.双链策略:Linux实现的是一个修改过的LRU,也称为双链策略。Linux维护两个链表:活跃链表和非活跃链表。处于活跃链表是不会被换出的,而在非活跃链表上则是可以被换出的。这种链表方式也称作LUR/2,更普遍的是n个链表,故称LRU/n
二、Linux页高速缓存
高速缓存缓存的是内存页面,缓冲中的也来自对正规文件、块设备文件和内存映射文件的读写。
2.1 address_space对象
为了维持页高速缓存的普遍性,Linux页高速缓存使用了一个新对象管理缓存项和页I/O操作。address_space有点不确切,应该叫他page_cache_entity或者physical_page_of_a_file比较好。该结构定义在文件<linux/fs.h>中。
struct address_space {
struct inode *host; /* owner: inode, block_device 拥有节点*/
struct radix_tree_root page_tree; /* radix tree of all pages 包含全部页面的radix树*/
spinlock_t tree_lock; /* and lock protecting it 保护page_tree自旋锁*/
atomic_t i_mmap_writable;/* count VM_SHARED mappings VM_SHARED计数*/
struct rb_root i_mmap; /* tree of private and shared mappings 私有映射链表*/
struct rw_semaphore i_mmap_rwsem; /* protect tree, count, list */
/* Protected by tree_lock together with the radix tree */
unsigned long nrpages; /* number of total pages 页总数*/
unsigned long nrshadows; /* number of shadow entries */
pgoff_t writeback_index;/* writeback starts here 回写的起始偏移*/
const struct address_space_operations *a_ops; /* methods 操作表*/
unsigned long flags; /* error bits/gfp mask gfp_mask掩码与错误标识*/
spinlock_t private_lock; /* for use by the address_space 私有address_space锁*/
struct list_head private_list; /* ditto 私有address_space链表*/
void *private_data; /* ditto */
} __attribute__((aligned(sizeof(long))))
struct address_space
2.2 address_space操作
address_space_operations定义在文件<linux/fs.h>中
struct address_space_operations {
int (*writepage)(struct page *page, struct writeback_control *wbc);
int (*readpage)(struct file *, struct page *);
/* Write back some dirty pages from this mapping. */
int (*writepages)(struct address_space *, struct writeback_control *);
/* Set a page dirty. Return true if this dirtied it */
int (*set_page_dirty)(struct page *page);
int (*readpages)(struct file *filp, struct address_space *mapping,
struct list_head *pages, unsigned nr_pages);
int (*write_begin)(struct file *, struct address_space *mapping,
loff_t pos, unsigned len, unsigned flags,
struct page **pagep, void **fsdata);
int (*write_end)(struct file *, struct address_space *mapping,
loff_t pos, unsigned len, unsigned copied,
struct page *page, void *fsdata);
/* Unfortunately this kludge is needed for FIBMAP. Don't use it */
sector_t (*bmap)(struct address_space *, sector_t);
void (*invalidatepage) (struct page *, unsigned int, unsigned int);
int (*releasepage) (struct page *, gfp_t);
void (*freepage)(struct page *);
ssize_t (*direct_IO)(struct kiocb *, struct iov_iter *iter, loff_t offset);
/*
* migrate the contents of a page to the specified target. If
* migrate_mode is MIGRATE_ASYNC, it must not block.
*/
int (*migratepage) (struct address_space *,
struct page *, struct page *, enum migrate_mode);
int (*launder_page) (struct page *);
int (*is_partially_uptodate) (struct page *, unsigned long,
unsigned long);
void (*is_dirty_writeback) (struct page *, bool *, bool *);
int (*error_remove_page)(struct address_space *, struct page *);
/* swapfile support */
int (*swap_activate)(struct swap_info_struct *sis, struct file *file,
sector_t *span);
void (*swap_deactivate)(struct file *file);
};
struct address_space_operations
里面readpage()和writepage()两个方法最为重要,其中读操作会包括如下动作:
Linux内核试图在页高速缓存中找到需要的数据,find_get_page()方法负责完成这个动作检查。一个address_space对象和一个偏移量会传给find_get_page()方法,用于在页高速缓存中搜索需要的数据。
page = find_get_page(mapping, index);
mapping:指定的地址空间,index:文件中的指定位置,以页面为单位。
如果搜索页没在高速缓存中返回NULL,内核将分配一个新页面。
struct page *page;
int error; /* 分配页... */
page = page_cache_alloc_cold(mapping);
if(!page)
/* 内存分配出错 */ /* ...然后将其加入到页面调整缓存 */
error = add_to_page_cache_lru(page, mapping, index, GFP_KERNEL);
if(error)
/* 页面被加入到页面高速缓存时,出错 */ /* 需要的数据从磁盘被读入,再被加入页高速缓存,然后返回给用户 */
error = mapping->a_ops->readpage(file, page);
SetPageDirty(page); /* 写操作和读操作有少许不同 */
分配页,加入到页缓存
内核会在晚些时候嗲用writepage()写出,在文件mm/filemap.c中,比较复杂。主要步骤有:
page = __grab_cache_page(mapping, index, &cached_page, &lru_pvec);
status = a_ops->prepare_write(file, page, offset, offset+bytes);
page_fault = filemap_copy_from_user(page, offset, buf, bytes);
status = a_ops->commit_write(file, page, offset, offset+bytes);
写出
2.3 基数
每个address_space都有唯一的基树(radix tree),保存在page_tree。基树是二叉树,指定了文件偏移量,就可以在基树中迅速检索到希望的页。
find_get_page()要调用函数radix_tree_lookup()。基树核心代码的通用形式可以在文件lib/radix-tree.c中找到,想要使用基树,需要头文件<linux/radix_tree.h>
2.4 以前的页散列表
全局散列表主要的存在四个问题:
- 由于使用单个的全局锁保护散列表,所以即使在中等规模的机器中,锁的征用情况也会相当严重,造成性能受损。
- 由于散列表需要包含所有也高速缓存中的页,搜索需要的只是当前文件相关的那些页,所以散列表包含的页面相比搜索需要的页面要大的多。
- 如果散列搜索失败,执行速度比希望的要慢的多,这是因为检索必须遍历指定散列键值对应的整个链表
- 散列表比其他方法会消耗更多的内存
2.6版本内核引入基于基树的页高速缓存来解决这些问题。
三、缓冲区高速缓存
独立的磁盘块通过块I/O缓冲也要被存入页高速缓存。 因为它缓存磁盘块和减少块I/O操作,这个缓存童话参观称为缓冲区高速缓存,虽然没有独立缓存,而是作为页高速缓存的一部分。
块I/O操作一次操作一个单独的磁盘块
四、flusher线程
当页高速缓存中的数据比后台存储的数据更新时,该数据就称作脏数据。在内存中积累的脏页最终必须被写回磁盘。3中情况脏页写回磁盘:
- 当空闲内存低于一个特定的阈值时,内核必须将脏页写回磁盘以便释放内存。(只有干净的内存才可以被回收)
- 当脏页在内存中驻留时间超过一个特定的阈值时,内核必须将超时的脏页写回磁盘。
- 当用户进程调用sync()和fsync()系统调用时,内核会按要求执行回写动作。
flusher线程实现代码在文件mm/page-writeback.c和mm/backing-dev.c中,回写机制的实现代码在文件fs/fs-writeback.c中。
4.1 膝上型计算机模式
4.2 历史上bdflush、kupdated和pdflush
4.3 避免堵塞的方法:使用多线程
内核通过使用多个flusher线程来解决上述问题。每个线程可以互相独立地将脏页刷新回磁盘,而且不同的flusher线程处理不同的设备队列。
Linux内核设计与实现 总结笔记(第十六章)页高速缓存和页回写的更多相关文章
- Linux内核设计与实现 总结笔记(第六章)内核数据结构
内核数据结构 Linux内核实现了这些通用数据结构,而且提倡大家在开发时重用. 内核开发者应该尽可能地使用这些数据结构,而不要自作主张的山寨方法. 通用的数据结构有以下几种:链表.队列.映射和二叉树 ...
- Linux内核设计与实现 总结笔记(第十三章)虚拟文件系统
一.通用文件系统接口 Linux通过虚拟文件系统,使得用户可以直接使用open().read().write()访问文件系统,这种协作性和泛型存取成为可能. 不管文件系统是什么,也不管文件系统位于何种 ...
- Linux内核设计与实现 总结笔记(第三章)进程
进程管理 进程:处于执行期的程序. 线程:在进程中活动的对象 虚拟机制 虚拟处理器:多个进程分享一个处理器 虚拟内存:多个线程共享虚拟内存 一.进程描述符和任务结构 进程存放在双向循环链表中(队列), ...
- Linux内核设计与实现 总结笔记(第十一章)定时器和时间管理
时间管理在内核中占用非常重要的地位,内核中有大量的函数都需要基于时间驱动的,内核对相对时间和绝对时间都非常需要. 一.内核中的时间概念 内核必须在硬件的帮助下才能计算和管理时间,系统定时器以某种频率自 ...
- Linux内核设计与实现 总结笔记(第五章)系统调用
系统调用 内核提供了用户进程和内核交互的接口,使得应用程序可以受限制的访问硬件设备. 提供这些接口主要是为了保证系统稳定可靠,避免应用程序恣意妄行. 一.内核通信 系统调用在用户空间进程和硬件设备之间 ...
- Linux内核设计与实现 总结笔记(第七章)中断和中断处理
中断和中断处理 处理器的速度跟外围硬件设备的速度往往不再一个数量级上,因此,如果内核采取让处理器向硬件发出一个请求. 然后专门等待回应的办法,如果专门等待回应,明显太慢.所以等待期间可以处理其他事务, ...
- Linux内核设计与实现 总结笔记(第四章)进程调度
进程调度 调度程序负责决定将哪个进程投入运行,何时运行以及运行多长时间. 调度程序没有太复杂的原理,最大限度地利用处理器时间的原则是,只要有可以执行的进程,那么就总会有进程正在执行. 一.多任务 多任 ...
- 《Linux内核设计与实现》课本第十八章自学笔记——20135203齐岳
<Linux内核设计与实现>课本第十八章自学笔记 By20135203齐岳 通过打印来调试 printk()是内核提供的格式化打印函数,除了和C库提供的printf()函数功能相同外还有一 ...
- Linux内核设计与实现 读书笔记 转
Linux内核设计与实现 读书笔记: http://www.cnblogs.com/wang_yb/tag/linux-kernel/ <深入理解LINUX内存管理> http://bl ...
- 《HTTP 权威指南》笔记:第十六章&第十七章 国际化、内容协商与转码
<HTTP 权威指南>笔记:第十六章 国际化 客户端通过在请求报文中的 Accept-Language 首部和 Accept-Charset 首部来告知服务器:“我理解这些语言.”服务器通 ...
随机推荐
- linux下搭建mysql数据库
linux下搭建mysql数据库 1.下载mysql: http://dev.mysql.com/downloads/mysql/5.6.html#downloads wget http://dev. ...
- 20191114 Spring Boot官方文档学习(4.7)
4.7.开发Web应用程序 Spring Boot非常适合于Web应用程序开发.您可以使用嵌入式Tomcat,Jetty,Undertow或Netty创建独立的HTTP服务器.大多数Web应用程序都使 ...
- P1076寻宝
---恢复内容开始--- 这是2012noip普及组的一个模拟题,第一次得了50,看了题解后剪枝拿到100. N层楼,m个房间,逆时针排序.每个房间有一个指示牌,也可能有楼梯,找到第(上楼的第一个房间 ...
- PHP MVC结构系统架构设计
今天研究了下PHP MVC结构,所以决定自己写个简单的MVC,以待以后有空再丰富.至于什么MVC结构,其实就是三个Model,Contraller,View单词的简称,,Model,主要任务就是把数据 ...
- MVCC/分布式事务简介
之前我们学习了RocksDB,但这还只是一个最基础的存储引擎.如果想把它在生产环境中用起来,还需要解决很多问题: 如何从单机扩展到分布式? 如何实现事务,并对事务进行并发控制? 用户接口能不能高级一点 ...
- Pose &&Get的区别
从一个页面转向另一个页面的请求方式有两种,Post和Get. 如果从原理上来探究他们的区别,涉及到Http传输协议的细节,本文不加探究,只讨论一下表象. 1.Post传输数据时,不需要在URL中显示出 ...
- 表格变色示例中发现的问题——attr()与prop()
在练习jQuery表格变色例子过程中,发现了一下几个问题: 在IEEdge浏览器中切换选中行会出现上一个表格行背景色被吃掉的情况: 在chrome中从上向下单击行中任意单元可以选中该行,而从下往上单击 ...
- 浅析DES、AES、RSA、MD5加密算法及其应用场景
对称加密算法DES 算法:一种典型的块加密方法,将固定长度的明文通过一系列复杂的操作变成同样长度的密文,块的长度为64位.同时,DES 使用的密钥来自定义变换过程,因此算法认为只有持有加密所用的密钥的 ...
- ElasticSearch - 解决ES的深分页问题 (游标 scroll)
https://www.jianshu.com/p/f4d322415d29 1.简介 ES为了避免深分页,不允许使用分页(from&size)查询10000条以后的数据,因此如果要查询第10 ...
- <mvc:argument-resolvers> 自定义注解处理参数
直接看引自: http://blog.csdn.net/u013160932/article/details/50609092