kernel笔记—

Linux下，I/O处理的层次可分为4层：

　　1. 系统调用层，应用程序使用系统调用指定读写哪个文件，文件偏移是多少

　　 2. 文件系统层，写文件时将用户态中的buffer拷贝到内核态下，并由cache缓存该部分数据

3. 块层，管理块设备I/O队列，对I/O请求进行合并、排序

4. 设备层，通过DMA与内存直接交互，将数据写到磁盘

下图清晰地说明了Linux I/O层次结构：

写文件过程

写文件的过程包含了读的过程，文件先从磁盘载入内存，存到cache中，磁盘内容与物理内存页间建立起映射关系。用于写文件的write函数的声明如下：

ssize_t write(int fd, const void *buf, size_t count);

其中fd对应进程的file结构， buf指向写入的数据。内核从cache中找出与被写文件相应的物理页，write决定写内存的第几个页面，例如"echo 1 > a.out"(底层调用write)写入的是a.out文件的第0个位置，write将写相应内存的第一页。

write函数修改内存内容之后，相应的内存页、inode被标记为dirty，此时write函数返回。注意至此尚未往磁盘写数据，只是cache中的内容被修改。

那什么时候内存中的内容会刷到磁盘中呢？

把脏数据刷到磁盘的工作由内核线程flush完成，flush搜寻内存中的脏数据，按设定将脏数据写到磁盘，我们可以通过sysctl命令查看、设定flush刷脏数据的策略：

linux # sysctl -a | grep centi

vm.dirty_writeback_centisecs =

vm.dirty_expire_centisecs =

linux # sysctl -a | grep background_ratio

vm.dirty_background_ratio =

以上数值单位为1/100秒，“dirty_writeback_centisecs ＝ 500”指示flush每隔5秒执行一次，“dirty_expire_centisecs ＝ 3000” 指示内存中驻留30秒以上的脏数据将由flush在下一次执行时写入磁盘，“dirty_background_ratio = 10”指示若脏页占总物理内存10％以上，则触发flush把脏数据写回磁盘。

flush找出了需要写回磁盘的脏数据，那存储脏数据的物理页又与磁盘的哪些扇区对应呢？

物理页与扇区的对应关系由文件系统定义，文件系统定义了一个内存页(4KB)与多少个块对应，对应关系在格式化磁盘时设定，运行时由buffer_head保存对应关系：

linux # cat /proc/slabinfo | grep buffer_head

buffer_head      : tunables    : slabdata

文件系统层告知块I/O层写哪个设备，具体哪个块，执行以下命令后，我们可以在/var/log/messages中看到文件系统层下发到块层的读写请求：

linux # echo  > /proc/sys/vm/block_dump

linux # tail -n  /var/log/messages

Aug  :: linux-q62c kernel: [ 7523.602144] bash(): READ block  on sda1

Aug  :: linux-q62c kernel: [ 7523.622857] bash(): dirtied inode  (tail) on sda1

Aug  :: linux-q62c kernel: [ 7523.623213] tail(): READ block  on sda1

块I/O层使用struct bio记录文件系统层下发的I/O请求，bio中主要保存了需要往磁盘刷数据的物理页信息，以及对应磁盘上的扇区信息。

块I/O层为每一个磁盘设备维护了一条I/O请求队列，请求队列在内核中由struct request_queue表示。每一个读或写请求都需经过submit_bio函数处理，submit_bio将读写请求放入相应I/O请求队列中。该层起到最主要的作用就是对I/O请求进行合并和排序，这样减少了实际的磁盘读写次数和寻道时间，达到优化磁盘读写性能的目的。

使用crash解析vmcore文件，执行"dev -d"命令，可以看到块设备请求队列的相关信息：

crash > dev -d

MAJOR            GENDISK NAME            REQUEST QUEUE TOTAL ASYNC SYNC DRV

     0xffff880119e85800  sda 0xffff88011a6a6948

     0xffff880119474800  sdb 0xffff8801195632d0

执行"struct request_queue 0xffff88011a6a6948"，可对以上sda设备相应的request_queue请求队列结构进行解析。

执行以下命令，可以查看sda设备的请求队列大小：

linux # cat /sys/block/sda/queue/nr_requests

如何对I/O请求进行合并、排序，那就是I/O调度算法完成的工作，Linux支持多种I/O调度算法，通过以下命令可以查看：

linux # cat /sys/block/sda/queue/scheduler

noop anticipatory deadline [cfq]

块I/O层的另一个作用就是对I/O读写情况进行统计，执行iostat命令，看到的就是该层提供的统计信息：

linux # iostat -x -k -d

Device: rrqm/s wrqm/s    r/s   w/s rkB/s    wkB/s avgrq-sz avgqu-sz   await svctm %util

     sda     0.00 9915.00 1.00 90.00  4.00 34360.00   755.25      11.79 120.57   6.33 57.60

其中rrqm/s、wrqm/s分别指示了每秒写请求、读请求的合并次数。

task_io_account_read函数用于统计各个进程发起的读请求量，由该函数得到的是进程读请求量的准确值。而对于写请求，由于数据写入cache后write调用就返回，因而在内核的层面无法统计到一个进程发起的准确写请求量，读时进程会等buff可用，而写则写入cache后返回，读是同步的，写却不一定同步，这是读写实现上的最大区别。

再往下就是设备层，设备从队列中取出I/O请求，scsi的scsi_request_fn函数就是完成取请求并处理的任务。scsi层最终将处理请求转化为指令，指令下发后进行DMA(direct memory access)映射，将内存的部分cache映射到DMA，这样设备绕过cpu直接操作主存。

设备层完成内存数据到磁盘拷贝后，该消息将一层层上报，最后内核去除原脏页的dirty位标志。

以上为写磁盘的大致实现过程，对于读磁盘，内核首先在缓存中查找对应内容，若命中则不会进行磁盘操作。若进程读取一个字节的数据，内核不会仅仅返回一个字节，其以页面为单位(4KB)，最少返回一个页面的数据。另外，内核会预读磁盘数据，执行以下命令可以看到能够预读的最大数据量(以KB为单位)：

linux # cat /sys/block/sda/queue/read_ahead_kb

下面我们通过一段systemtap代码，了解内核的预读机制：

//test.stp

probe kernel.function("submit_bio") {

　　if(execname() == "dd" && __bio_ino($bio) == )

　　{

　　　　printf("inode %d %s on %s %d bytes start %d\n",

　　　　__bio_ino($bio),

　　　　bio_rw_str($bio),

　　　　__bio_devname($bio),

　　　　$bio->bi_size,

　　　　$bio->bi_sector)

　　}

}

以上代码指示当dd命令读写inode号为5234的文件、经过内核函数submit_bio时，输出inode号、操作方式(读或写)、文件所在设备名、读写大小、扇区号信息。执行以下代码安装探测模块：

stap test.stp &

之后我们使用dd命令读取inode号为5234的文件(可通过stat命令取得文件inode号)：

dd if=airport.txt of=/dev/null bs= count=

以上命令故意将bs设为1，即每次读取一个字节，以此观察内核预读机制。执行该命令的过程中，我们在终端中可以看到以下输出：

inode  R on sda2  bytes start

inode  R on sda2  bytes start

inode  R on sda2  bytes start

inode  R on sda2  bytes start

inode  R on sda2  bytes start

inode  R on sda2  bytes start

由以上输出可知，预读从16384字节(16KB)逐渐增大，最后变为524288字节(512KB)，可见内核会根据读的情况动态地调整预读的数据量。

由于读、写磁盘均要经过submit_bio函数处理，submit_bio之后读、写的底层实现大致相同。

直接I/O

当我们以O_DIRECT标志调用open函数打开文件时，后续针对该文件的read、write操作都将以直接I/O(direct I/O)的方式完成；对于裸设备，I/O方式也为直接I/O。

直接I/O跳过了文件系统这一层，但块层仍发挥作用，其将内存页与磁盘扇区对应上，这时不再是建立cache到DMA映射，而是进程的buffer映射到DMA。进行直接I/O时要求读写一个扇区(512bytes)的整数倍，否则对于非整数倍的部分，将以带cache的方式进行读写。

使用直接I/O，写磁盘少了用户态到内核态的拷贝过程，这提升了写磁盘的效率，也是直接I/O的作用所在。而对于读操作，第一次直接I/O将比带cache的方式快，但因带cache方式后续再读时将从cache中读，因而后续的读将比直接I/O快。有些数据库使用直接I/O，同时实现了自己的cache方式。

异步I/O

Linux下有两种异步I/O(asynchronous I/O)方式，一种是aio_read/aio_write库函数调用，其实现方式为纯用户态的实现，依靠多线程，主线程将I/O下发到专门处理I/O的线程，以此达到主线程异步的目的。

另一种是io_submit，该函数是内核提供的系统调用，使用io_submit也需要指定文件的打开方式为O_DIRECT，并且读写需按扇区对齐。

Reference: Chapter 14 - The Block I/O Layer, Linux kernel development.3rd.Edition

kernel笔记——块I/O的更多相关文章

LINUX kernel笔记系列 :IO块参数图
Linux下,I/O处理的层次可分为4层: 系统调用层,应用程序使用系统调用指定读写哪个文件,文件偏移是多少文件系统层,写文件时将用户态中的buffer拷贝到内核态下,并由cache缓存该部分数 ...
kernel笔记——VFS
vfs(the virtual filesystem, virtual file switch)为应用程序访问文件提供了统一的接口,如read.write.open等. 下面我们看加载文件系统模块.格 ...
web兼容学习分析笔记--块级、内联、内联块级元素
一.块级.内联.内联块级元素 (1)块级元素:block **独占一行 **可设置width,height,margin,padding **内部可包含块级或内联元素 (3)内联(行内)元素:inli ...
HTML 学习笔记(块和类)
HTML <div> 和 <span> 可以通过<div>和<span>将HTML元素组合起来. HTML块元素大多数HTML元素被定义为块级元素或者 ...
HTML学习笔记——块级标签、行级标签、图片标签
1>块级标签.行级标签 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "htt ...
kernel笔记——内核编译与进程管理
内核与操作系统由于一些商业操作系统设计上的缺陷以及日益庞杂,“操作系统”的概念对很多人而言变得含糊不清.在进一步讨论Linux内核的话题前,我们先区分“内核”与“操作系统”这两个概念. 操作系统:指 ...
kernel笔记——库文件与系统调用
库文件先从我们熟悉的c库入手,理解系统调用(system call).c代码中调用printf函数,经历了以下调用过程: 最终输出的功能由内核中write调用完成,c库封装了系统调用. 对于以下 ...
kernel笔记——进程调度
调度器完成以下任务: 时钟中断(或类似的定时器)时间内刷新进程的时间片,设置进程调度标志系统调用返回或中断完成时检查调度标志 schedule函数内核代码中完成进程调度的函数为schedule() ...
kernel笔记——中断
cpu与磁盘.网卡.键盘等外围设备(相对于cpu和内存而言)交互时,cpu下发I/O请求到这些设备后,相对cpu的处理能力而言,磁盘.网卡等设备需要较长时间完成请求处理. 那么在请求发出到处理完成这段 ...

随机推荐

Python爬虫入门教程 10-100 图虫网多线程爬取
图虫网-写在前面经历了一顿噼里啪啦的操作之后,终于我把博客写到了第10篇,后面,慢慢的会涉及到更多的爬虫模块,有人问scrapy 啥时候开始用,这个我预计要在30篇以后了吧,后面的套路依旧慢节奏的, ...
深入探究Lua的GC算法（上）-《Lua设计与实现》
对于内存的管理,是程序在应用的时候的必需知识点,<Lua设计与实现>中对Lua语言的GC原理做了一个详细的讲解,云风的blog也对其进行了详尽的讲解Lua GC 的源码剖析系列给出作者 ...
MySQL执行原理，逻辑分层、更改数据库处理引擎
MySQL执行原理,逻辑分层.更改数据库处理引擎作者:Stanley 罗昊 [转载请注明出处和署名,谢谢!] 用了那么长时间的MySQL,sql语句相信早已烂熟于心,于是,我就试着去了解它的执行原理 ...
Java架构师趣谈Hbase之宏观架构
相关文章五分钟轻松了解Hbase列式存储 Hbase给初学者的“下马威” Hbase王国游记之:Hbase客户端API初体验
Spring拓展接口之FactoryBean，我们来看看其源码实现
前言开心一刻那年去相亲,地点在饭店里,威特先上了两杯水,男方绅士的喝了一口,咧嘴咋舌轻放桌面,手抚额头闭眼一脸陶醉,白水硬是喝出了82年拉菲的感觉.如此有生活情调的幽默男人,果断拿下,相处后却发现 ...
痞子衡嵌入式：语音处理工具Jays-PySPEECH诞生记（3）- 音频显示实现(Matplotlib, NumPy1.15.0)
大家好,我是痞子衡,是正经搞技术的痞子.今天痞子衡给大家介绍的是语音处理工具Jays-PySPEECH诞生之音频显示实现. 音频显示是Jays-PySPEECH的主要功能,Jays-PySPEECH借 ...
Perl系列文章
0.Perl书籍推荐 Perl书籍下载密码:kkqx 下面是一些我学习Perl过程中读过完整的或部分章节的觉得好的书. 入门级别1:<Perl语言入门>即小骆驼入门级别2:<In ...
关于火狐和IE下href="javascript:void(0)"兼容性的问题
今天在开发中发现,使用如下方式的链接.在Chrome中点击后行为符合预期,但在IE下会新开标签卡(根据参考资料,Firefox中有相同问题). 经过排查,发现是href="javascrip ...
APIO 2018游记
并不是很想写游记在考场上做了四个小时的T1T2,T3没开出考场听zrz讲T3的时候差点气死难度顺序为1 > 2 > 3什么鬼不过最后还是出乎意料的混到了一块铜牌两天的培训好评(虽 ...
arcgis api 3.x for js 入门开发系列十一地图统计图（附源码下载）
前言关于本篇功能实现用到的 api 涉及类看不懂的,请参照 esri 官网的 arcgis api 3.x for js:esri 官网 api,里面详细的介绍 arcgis api 3.x 各个类 ...

kernel笔记——块I/O

kernel笔记——块I/O的更多相关文章

随机推荐

热门专题