本文为原创，转载请注明：http://www.cnblogs.com/gistao/

Background

IO可能是我们接触最频繁的系统调用，比如printf到终端，send content到对端，而今天要讨论的仅是Linux平台下访问本机存储设备相关的IO。如果你对IO相关api的优缺点门清，可以忽略这个随笔啦。

read

read的过程大致如下：

用户malloc出一块内存，然后陷入内核。
内核从磁盘读取内容拷贝到cache。
内核将内容拷贝到用户内存。

缺点比较明显，需要两次拷贝，拷贝是非常耗cpu的。

O_DIRECT

open函数的参数里有这样一个flag，意思是说不需要内核做cache了，内核直接把数据memcpy给用户就好了，这样的优点是可以减少memcpy。但缺点也很明显，没有cache了。

pread

多线程代码并发的访问同一文件是常见的，示例代码如下：

pthread_mutex_lock (mutex);

lseek (SEEK_SET＋1024);

read (buf);

pthread_mutex_unlock (mutex);

这里锁的意义是防治文件指针被其他线程seek走，导致本次read错乱，如何避免掉这个锁呢，就是pread，此函数和read的功能一样，但增加了一个要读取的offset参数，这样就不需要我们显示的加锁了，也许你会联想到strtok和strtok_r。代码改动如下：

pread (fd, buf, offset);

readahead

有时又会遇到下边代码的场景

while (n < max) {

  read (buf[i]);

  on_handle (buf[i]);

}

read函数是阻塞的，所以执行时间就等于max＊time，即串行执行。可不可以非阻塞，就是readahead，此函数意思是在read之前，非阻塞的通知内核一下我要读的内容，内核会并发的预读这些内容进cache，当后续进行read时会大大的减少时间，代码修改成这样：

while (n < max) {

  readahead (offset);

}

while (n < max) {

  read (buf[i]);

  on_handle (buf[i]);

}

mmap

mmap的详细原理不在这里讨论，见图

简单来说，是将内核空间映射到了用户空间，这样相比read函数来说减少了一次memcpy。

而mmap比O_DIRECT也有个好处是它确实利用了cache，可是对于普通的read来说，它利用的又不够充分，因为并不是每次访问都需要内核参与。不过有个补足办法就是用readahead，它可以传递你的意图(利用cache)给内核，从而避免了缺点。示例代码如下：

readahead (fd , offset);

ptr = mmap (fd);

a = ptr[offset];

aio

从以上可以看出来，IO模式是从阻塞提升到了非阻塞，性能优化围绕着cache和memcpy，那有没有一种非阻塞的，有cache的，最少memcpy的，这些都符合的技术，那应该就是aio了吧，但Linux的aio到现在也没有一个很好的实现，也许过于复杂吧，反过来看下Window平台，这都真不是事。下图是aio模型：

Final

有了mmap＋ahead，aio真的还那么重要吗？真的很重要，没有真正的异步，就没有真正的并行编程，不能实现真正的async和await语法糖，比如一个异步方法要求10ms必须返回，而系统调用就得50ms完成，怎么可能是真正的async。但是如果不吹毛求疵，或追求极致的话，目前确实够用了，通过以上总结，希望能在IO编程时给你些选择素材。

Linux IO漫谈的更多相关文章

【知乎网】Linux IO 多路复用是什么意思？
提问一: Linux IO多路复用有 epoll, poll, select,知道epoll性能比其他几者要好.也在网上查了一下这几者的区别,表示没有弄明白. IO多路复用是什么意思,在实际的应用中是 ...
Linux IO模型和网络编程模型
术语概念描述: IO有内存IO.网络IO和磁盘IO三种,通常我们说的IO指的是后两者. 阻塞和非阻塞,是函数/方法的实现方式,即在数据就绪之前是立刻返回还是等待. 以文件IO为例,一个IO读过程是文件 ...
block_dump观察Linux IO写入的具体文件(mysqld）
一.使用方法: 二.基本原理: 三.总结很多情况下开发者调测程序需要在Linux下获取具体的IO的状况,目前常用的IO观察工具用vmstat和iostat,具体功能上说当然是iostat更胜一筹 ...
linux io优化
场景:xml文件解析入库:并备份问题:磁盘io异常,经常100%busy: linux io优化方法: 1.修改磁盘挂着参数,修改为writeback模式:对于文件读取频繁的可以设置noatime: ...
Linux IO 调度器
Linux IO Scheduler(Linux IO 调度器) 每个块设备或者块设备的分区,都对应有自身的请求队列(request_queue),而每个请求队列都可以选择一个I/O调度器来协调所递交 ...
Linux IO工具 iotop备择方案iopp
iotop毫无疑问linux IO检测上是一个很好的工具,但苦于要求和内核版本Python版本号.我的很多朋友放弃了.我也是.无意中发现iopp,使用c书面,与此iotop它是一个作用.nice! 一 ...
【转】linux IO子系统和文件系统读写流程
原文地址:linux IO子系统和文件系统读写流程我们含有分析的,是基于2.6.32及其后的内核. 我们在linux上总是要保存数据,数据要么保存在文件系统里(如ext3),要么就保存在裸设备里.我 ...
Linux IO时事检测工具iostat
Linux IO时事检测工具iostat iostat命令用于检测linux系统io设备的负载情况,运行iostat将显示自上次运行该命令以后的统计信息.用户可以通过指定统计的次数和时间来获得所需的统 ...
Linux IO Scheduler（Linux IO 调度器）【转】
每个块设备或者块设备的分区,都对应有自身的请求队列(request_queue),而每个请求队列都可以选择一个I/O调度器来协调所递交的request.I/O调度器的基本目的是将请求按照它们对应在块设 ...

随机推荐

sql基础语句（技巧）
1.压缩数据库 dbcc shrinkdatabase(dbname) 2.转移数据库给新用户已存在用户权限 exec sp_change_users_login'update_one','newga ...
ssh 整合
1. 加入 Spring 1). 加入 jar 包 2). 配置 web.xml 文件 3). 加入 Spring 的配置文件. 2. 加入 Hibernate 1). 同时建立持久化类, 和其对应的 ...
ssh 注解写法
弄了半天 (好久哦) 首先 applicationContext-db.xml <?xml version="1.0" encoding="UTF-8" ...
Linux——makefile
1.vim Makefile 或 vim makefile 2. targetName:a.o b.o #targetFileName:A.c B.c ,split with a space gc ...
6、Concurrent-Mark-Sweep
1.cms 主要用于年老代垃圾回收 2.这玩意牺牲通吐量换取最短垃圾回收时间 3.有的地方说是四个阶段,有的地方说五个阶段,还有六个阶段的,真相是----我也不知道四个阶段: Initial mar ...
io端口与io内存详解
(一)地址的概念 1)物理地址:CPU地址总线传来的地址,由硬件电路控制其具体含义.物理地址中很大一部分是留给内存条中的内存的,但也常被映射到其他存储器上(如显存.BIOS等).在程序指令中的虚拟地址 ...
关于lwip移植到ucsos-ii平台的遇到的问题（一）
移植的步骤参照<Day_Day_Up笔记之uCOS-II_LwIP_在_STM32F107_上移植>,<uCOS平台下的LwIP移植笔记>,<嵌入式网络那些事>. ...
Devexpress DateEdit控件的值不反馈到数据源的处理方式。
如果在GridControl中要把编辑的值反馈到数据源,可以用Gridview1.PostEdit()方法. 可是在datalayout中使用就会遇到一些问题:比如说DateEdit控件,在保存数据的 ...
Linux网络编程的一般步骤(1)
一.套接字的地址结构. IPV4套接字地址结构通常也称为"网际套接字地址结构",它以sockaddr_in 命名;POSIX定义如下: #include <stdio.h&g ...
清除缓存，计算Sql Server查询效率
--优化之前 DBCC FREEPROCCACHE DBCC DROPCLEANBUFFERS SET STATISTICS IO ON select Dtime,Value from dbo.his ...

Linux IO漫谈