深究标准IO的缓存

前言

　　在最近看了APUE的标准IO部分之后感觉对标准IO的缓存太模糊，没有搞明白，APUE中关于缓存的部分一笔带过，没有深究缓存的实现原理，这样一本被吹上天的书为什么不讲透彻呢？今天早上爬起来赶紧找了几篇文章看看，直到发现了这篇博客:http://blog.sina.com.cn/s/blog_6592a07a0101gar7.html。讲的很不错。

一、IO缓存

　　系统调用：只操作系统提供给用户程序调用的一组接口-------获得内核提供的服务。

　　在实际中程序员使用的通常不是系统调用，而是用户编程接口API，也称为系统调用编程接口。它是遵循Posix标准（Portable operation system interface），API函数可能要一个或者几个系统调用才能完成函数功能，此函数通过c库（libc）实现，如read，open。

　　fsync：是把内核缓冲刷到磁盘上。

　　fflush:是把C库中的缓冲调用write函数写到磁盘[其实是写到内核的缓冲区]。

　　linux对IO文件的操作分为：

不带缓存：open read。posix标准，在用户空间没有缓冲，在内核空间还是进行了缓存的。数据-----内核缓存区----磁盘。假设内核缓存区长度为100字节，你调用ssize_t write (int fd,const void * buf,size_t count);写操作时，设每次写入count=10字节，那么你要调用10次这个函数才能把这个缓存区写满，没写满时数据还是在内核缓冲区中，并没有写入到磁盘中，内核缓存区满了之后或者执行了fsync（强制写入硬盘）之后，才进行实际的IO操作，吧数据写入磁盘上。
带缓存区：fopen fwrite fget 等，是c标准库中定义的。数据-----流缓存区-----内核缓存区----磁盘。假设流缓存区长度为50字节，内核缓存区100字节，我们用标准c库函数fwrite()将数据写入到这个流缓存中，每次写10字节，需要写5次流缓存区满后调用write()(或调用fflush())，将数据写到内核缓存区，直到内核缓存区满了之后或者执行了fsync（强制写入硬盘）之后，才进行实际的IO操作，吧数据写入磁盘上。标准IO操作fwrite()最后还是要掉用无缓存IO操作write。

　　以fgetc / fputc 为例,当用户程序第一次调用fgetc 读一个字节时,fgetc 函数可能通过系统调用进入内核读1K字节到I/O缓冲区中,然后返回I/O缓冲区中的第一个字节给用户,把读写位置指向I/O缓冲区中的第二个字符,以后用户再调fgetc ,就直接从I/O缓冲区中读取,而不需要进内核了,当用户把这1K字节都读完之后,再次调用fgetc 时,fgetc 函数会再次进入内核读1K字节到I/O缓冲区中。在这个场景中用户程序、C标准库和内核之间的关系就像在“Memory Hierarchy”中 CPU、Cache和内存之间的关系一样,C标准库之所以会从内核预读一些数据放在I/O缓冲区中,是希望用户程序随后要用到这些数据,C标准库的I/O缓冲区也在用户空间,直接从用户空间读取数据比进内核读数据要快得多。另一方面,用户程序调用fputc 通常只是写到I/O缓冲区中,这样fputc 函数可以很快地返回,如果I/O缓冲区写满了,fputc 就通过系统调用把I/O缓冲区中的数据传给内核,内核最终把数据写回磁盘或设备。有时候用户程序希望把I/O缓冲区中的数据立刻传给内核,让内核写回设备或磁盘,这称为Flush操作,对应的库函数是fflush,fclose函数在关闭文件之前也会做Flush操作。

　　虽然write 系统调用位于C标准库I/O缓冲区的底层,被称为Unbuffered I/O函数,但在write 的底层也可以分配一个内核I/O缓冲区,所以write 也不一定是直接写到文件的,也可能写到内核I/O缓冲区中,可以使用fsync函数同步至磁盘文件，至于究竟写到了文件中还是内核缓冲区中对于进程来说是没有差别的,如果进程A和进程B打开同一文件,进程A写到内核I/O缓冲区中的数据从进程B也能读到,因为内核空间是进程共享的, 而c标准库的I/O缓冲区则不具有这一特性,因为进程的用户空间是完全独立的.

　　下面是一个利用buffered I/O读取数据的例子:

#include <stdlib.h>

#include <stdio.h>

#include <sys/types.h>

#include <sys/stat.h>

#include <fcntl.h>

int main(void)

{

  char buf[];

  FILE *myfile = stdin;

  fgets(buf, , myfile);

  fputs(buf, myfile);

  return ;

}

　　buffered I/O中的"buffer"到底是指什么呢?这个buffer在什么地方呢?FILE是什么呢?它的空间是怎么分配的呢　　要弄清楚这些问题,就要看看FILE是如何定义和运作的了.(特别说明,在平时写程序时,不用也不要关心FILE是如何定义和运作的,最好不要直接操作它,这里使用它,只是为了说明buffered IO)下面的这个是glibc给出的FILE的定义,它是实现相关的,别的平台定义方式不同.

struct _IO_FILE {

int _flags;

#define _IO_file_flags _flags

char* _IO_read_ptr;

char* _IO_read_end;

char* _IO_read_base;

char* _IO_write_base;

char* _IO_write_ptr;

char* _IO_write_end;

char* _IO_buf_base;

char* _IO_buf_end;

char *_IO_save_base;

char *_IO_backup_base;

char *_IO_save_end;

struct _IO_marker *_markers;

struct _IO_FILE *_chain;

int _fileno;

};

　　上面的定义中有三组重要的字段:

.

char* _IO_read_ptr;

char* _IO_read_end;

char* _IO_read_base;

.

char* _IO_write_base;

char* _IO_write_ptr;

char* _IO_write_end;

.

char* _IO_buf_base;

char* _IO_buf_end;

　　其中,
　　_IO_read_base 指向"读缓冲区"
　　_IO_read_end 指向"读缓冲区"的末尾
　　_IO_read_end - _IO_read_base "读缓冲区"的长度

　　_IO_write_base 指向"写缓冲区"
　　_IO_write_end 指向"写缓冲区"的末尾
　　_IO_write_end - _IO_write_base "写缓冲区"的长度

　　_IO_buf_base 指向"缓冲区"
　　_IO_buf_end 指向"缓冲区"的末尾
　　_IO_buf_end - _IO_buf_base "缓冲区"的长度

　　上面的定义貌似给出了3个缓冲区,实际上上面的_IO_read_base,_IO_write_base, _IO_buf_base都指向了同一个缓冲区.这个缓冲区跟上面程序中的char buf[5];没有任何关系.他们在第一次buffered I/O操作时由库函数自动申请空间,最后由相应库函数负责释放.(再次声明,这里只是glibc的实现,别的实现可能会不同,后面就不再强调了)

　　请看下面的程序(这里给的是stdin,行缓冲的例子):

#include <stdlib.h>

#include <stdio.h>

#include <sys/types.h>

#include <sys/stat.h>

#include <fcntl.h>

int main(void)

{

  char buf[];

  FILE *myfile =stdin;

  printf("before reading/n");

  printf("read buffer base %p/n", myfile->_IO_read_base);

  printf("read buffer length %d/n", myfile->_IO_read_end - myfile->_IO_read_base);

  printf("write buffer base %p/n", myfile->_IO_write_base);

  printf("write buffer length %d/n", myfile->_IO_write_end - myfile->_IO_write_base);

  printf("buf buffer base %p/n", myfile->_IO_buf_base);

  printf("buf buffer length %d/n", myfile->_IO_buf_end - myfile->_IO_buf_base);

  printf("/n");

  fgets(buf, , myfile);

  fputs(buf, myfile);

  printf("/n");

  printf("after reading/n");

  printf("read buffer base %p/n", myfile->_IO_read_base);

  printf("read buffer length %d/n", myfile->_IO_read_end - myfile->_IO_read_base);

  printf("write buffer base %p/n", myfile->_IO_write_base);

  printf("write buffer length %d/n", myfile->_IO_write_end - myfile->_IO_write_base);

  printf("buf buffer base %p/n", myfile->_IO_buf_base);

  printf("buf buffer length %d/n", myfile->_IO_buf_end - myfile->_IO_buf_base);

  return ;

}

　　可以看到,在读操作之前,myfile的缓冲区是没有被分配的,在一次读之后,myfile的缓冲区才被分配.这个缓冲区既不是内核中的缓冲区,也不是用户分配的缓冲区,而是有用户进程空间中的由buffered I/O系统负责维护的缓冲区.(当然,用户可以可以维护该缓冲区,这里不做讨论了)

　　上面的例子只是说明了buffered I/O缓冲区的存在,下面从全缓冲,行缓冲和无缓冲3个方面看一下buffered I/O是如何工作的.

二、全缓冲

　　下面是APUE上的原话:全缓冲"在填满标准I/O缓冲区后才进行实际的I/O操作.对于驻留在磁盘上的文件通常是由标准I/O库实施全缓冲的"书中这里"实际的I/O操作"实际上容易引起误导,这里并不是读写磁盘,而应该是进行read或write的系统调用,下面两个例子会说明这个问题:

#include <stdlib.h>

#include <stdio.h>

#include <sys/types.h>

#include <sys/stat.h>

#include <fcntl.h>

int main(void)

{

  char buf[];

  char *cur;

  FILE *myfile;

  myfile = fopen("bbb.txt", "r");

  printf("before reading, myfile->_IO_read_ptr: %d/n", myfile->_IO_read_ptr - myfile->_IO_read_base);

  fgets(buf, , myfile); //仅仅读4个字符

  cur = myfile->_IO_read_base;

  while (cur <</span> myfile->_IO_read_end) //实际上读满了这个缓冲区

  {

    printf("%c",*cur);

    cur++;

  }

  printf("/nafter reading, myfile->_IO_read_ptr: %d/n", myfile->_IO_read_ptr - myfile->_IO_read_base);

  return ;

}

　　上面提到的bbb.txt文件的内容是由很多行的"123456789"组成上例中,fgets(buf, 5, myfile); 仅仅读4个字符,但是,缓冲区已被写满,但是_IO_read_ptr却向前移动了5位,下次再次调用读操作时,只要要读的位数不超过myfile->_IO_read_end - myfile->_IO_read_ptr那么就不需要再次调用系统调用read,只要将数据从myfile的缓冲区拷贝到buf即可(从myfile->_IO_read_ptr开始拷贝)

　　全缓冲读的时候,_IO_read_base始终指向缓冲区的开始，_IO_read_end始终指向已从内核读入缓冲区的字符的下一个(对全缓冲来说,buffered I/O读每次都试图都将缓冲区读满)，IO_read_ptr始终指向缓冲区中已被用户读走的字符的下一个(_IO_read_end < (_IO_buf_base-_IO_buf_end)) && (_IO_read_ptr == _IO_read_end)时则已经到达文件末尾其中_IO_buf_base-_IO_buf_end是缓冲区的长度
　　一般大体的工作情景为:第一次fgets(或其他的)时,标准I/O会调用read将缓冲区充满,下一次fgets不调用read而是直接从该缓冲区中拷贝数据,直到缓冲区的中剩余的数据不够时,再次调用read.在这个过程中,_IO_read_ptr就是用来记录缓冲区中哪些数据是已读的,
哪些数据是未读的.

#include <stdlib.h>

#include <stdio.h>

#include <sys/types.h>

#include <sys/stat.h>

#include <fcntl.h>

int main(void)

{

  char buf[]={};

  int i;

  FILE *myfile;

  myfile = fopen("aaa.txt", "r+");

  i= ;

  while (i<</span>)

  {

    fwrite(buf+i, , , myfile);

    i +=;

    //注释掉这句则可以写入aaa.txt

    myfile->_IO_write_ptr = myfile->_IO_write_base;

    printf("%p write buffer base/n", myfile->_IO_write_base);

    printf("%p buf buffer base /n", myfile->_IO_buf_base);

    printf("%p read buffer base /n", myfile->_IO_read_base);

    printf("%p write buffer ptr /n", myfile->_IO_write_ptr);

    printf("/n");

  }

  return ;

}

　　上面这个是关于全缓冲写的例子.全缓冲时,只有当标准I/O自动flush(比如当缓冲区已满时)或者手工调用fflush时,标准I/O才会调用一次write系统调用.例子中,fwrite(buf+i, 1, 512, myfile);这一句只是将buf+i接下来的512个字节写入缓冲区,由于缓冲区未满,标准I/O并未调用write.此时,myfile->_IO_write_ptr = myfile->_IO_write_base;会导致标准I/O认为没有数据写入缓冲区,所以永远不会调用write,这样aaa.txt文件得不到写入.注释掉myfile->_IO_write_ptr = myfile->_IO_write_base;前后,看看效果

　　全缓冲写的时候:_IO_write_base始终指向缓冲区的开始，_IO_write_end全缓冲的时候,始终指向缓冲区的最后一个字符的下一个(对全缓冲来说,buffered I/O写总是试图在缓冲区写满之后,再系统调用write)，_IO_write_ptr始终指向缓冲区中已被用户写入的字符的下一个，flush的时候,将_IO_write_base和_IO_write_ptr之间的字符通过系统调用write写入内核

三、行缓冲

　　下面是APUE上的原话:行缓冲"当输入输出中遇到换行符时,标准I/O库执行I/O操作. "书中这里"执行O操作"也容易引起误导,这里不是读写磁盘,而应该是进行read或write的系统调用
　　下面两个例子会说明这个问题
　　第一个例子可以用来说明下面这篇帖子的问题
　　http://bbs.chinaunix.net/viewthread.php?tid=954547
　　

#include <stdlib.h>
#include <stdio.h> int main(void)
{
char buf[];
char buf2[]; fgets(buf, , stdin); //第一次输入时,超过5个字符 puts(stdin->_IO_read_ptr);//本句说明整行会被一次全部读入缓冲区, //而非仅仅上面需要的个字符
stdin->_IO_read_ptr = stdin->_IO_read_end; //标准I/O会认为缓冲区已空,再次调用read
//注释掉,再看看效果
printf("/n");
puts(buf); fgets(buf2, , stdin);
puts(buf2); return ;
}

　　上例中, fgets(buf, 5, stdin); 仅仅需要4个字符,但是,输入行中的其他数据也被写入缓冲区,但是_IO_read_ptr向前移动了5位,下次再次调用fgets操作时,就不需要再次调用系统调用read,只要将数据从stdin的缓冲区拷贝到buf2即可(从stdin->_IO_read_ptr开始拷贝)stdin->_IO_read_ptr = stdin->_IO_read_end;会导致标准I/O会认为缓冲区已空,再次fgets则需要再次调用read.比较一下将该句注释掉前后的效果

　　行缓冲读的时候,
　　_IO_read_base始终指向缓冲区的开始
　　_IO_read_end始终指向已从内核读入缓冲区的字符的下一个
　　_IO_read_ptr始终指向缓冲区中已被用户读走的字符的下一个
　　(_IO_read_end < (_IO_buf_base-_IO_buf_end)) && (_IO_read_ptr == _IO_read_end)时则已经到达文件末尾
　　其中_IO_buf_base-_IO_buf_end是缓冲区的长度

#include <stdlib.h>

#include <stdio.h>

#include <sys/types.h>

#include <sys/stat.h>

#include <fcntl.h>

char buf[]={'','', '', '', ''}; //最后一个不要是/n,是/n的话,标准I/O会自动flush的

                                                    //这是行缓冲跟全缓冲的重要区别

void writeLog(FILE *ftmp)

{

  fprintf(ftmp, "%p write buffer base/n", stdout->_IO_write_base);

  fprintf(ftmp, "%p buf buffer base /n", stdout->_IO_buf_base);

  fprintf(ftmp, "%p read buffer base /n", stdout->_IO_read_base);

  fprintf(ftmp, "%p write buffer ptr /n", stdout->_IO_write_ptr);

  fprintf(ftmp, "/n");

}

int main(void)

{

  int i;

  FILE *ftmp;

  ftmp = fopen("ccc.txt", "w");

  i= ;

  while (i<</span>)

  {

    fwrite(buf, , , stdout);

    i++;

    *stdout->_IO_write_ptr++ = '/n';//可以单独把这句打开,看看效果

    //getchar();//getchar()会标准I/O将缓冲区输出

    //打开下面的注释,你就会发现屏幕上什么输出也没有

    //stdout->_IO_write_ptr = stdout->_IO_write_base;

    writeLog(ftmp); //这个只是为了查看缓冲区指针的变化

  }

  return ;

}

　　这个例子将将FILE结构中指针的变化写入的文件ccc.txt，

　　运行后可以有兴趣的话,可以看看.

　　上面这个是关于行缓冲写的例子.stdout->_IO_write_ptr = stdout->_IO_write_base;会使得标准I/O认为缓冲区是空的,从而没有任何输出.可以将上面程序中的注释分别去掉,看看运行结果

　　行缓冲时,下面3个条件之一会导致缓冲区立即被flush
　　1. 缓冲区已满
　　2. 遇到一个换行符;比如将上面例子中buf[4]改为'/n'时
　　3. 再次要求从内核中得到数据时;比如上面的程序加上getchar()会导致马上输出

　　行缓冲写的时候:
　　_IO_write_base始终指向缓冲区的开始
　　_IO_write_end始终指向缓冲区的开始
　　_IO_write_ptr始终指向缓冲区中已被用户写入的字符的下一个

　　flush的时候,将_IO_write_base和_IO_write_ptr之间的字符通过系统调用write写入内核

四、无缓冲

　　无缓冲时,标准I/O不对字符进行缓冲存储.典型代表是stderr。这里的无缓冲,并不是指缓冲区大小为0,其实,还是有缓冲的,大小为1

#include <</span>stdlib.h>

#include <</span>stdio.h>

#include <</span>sys/types.h>

#include <</span>sys/stat.h>

#include <</span>fcntl.h>

int main(void)

{

  fputs("stderr", stderr);

  printf("%d/n", stderr->_IO_buf_end - stderr->_IO_buf_base);

  return ;

}

　　对无缓冲的流的每次读写操作都会引起系统调用

五、 feof的问题

　　这里从缓冲区的角度去考察一下.对于一个空文件,为什么要先读一下,才能用feof判断出该文件到了结尾了呢?

#include <stdlib.h>

#include <stdio.h>

#include <sys/types.h>

#include <sys/stat.h>

#include <fcntl.h>

int main(void)

{

  char buf[];

  char buf2[];

  fgets(buf, sizeof(buf), stdin);//输入要于4个,少于13个字符才能看出效果

  puts(buf);

  //交替注释下面两行

  //stdin->_IO_read_end = stdin->_IO_read_ptr+1;

  stdin->_IO_read_end = stdin->_IO_read_ptr + sizeof(buf2)-;

  fgets(buf2, sizeof(buf2), stdin);

  puts(buf2);

  if (feof(stdin))

    printf("input end/n");

  return ;

}

　　运行上面的程序,输入多于4个,少于13个字符,并且以连按两次ctrl+d为结束(不要按回车)，从上面的例子,可以看出,每当满足(_IO_read_end < (_IO_buf_base-_IO_buf_end)) && (_IO_read_ptr == _IO_read_end)时,标准I/O则认为已经到达文件末尾,feof(stdin)才会被设置其中_IO_buf_base-_IO_buf_end是缓冲区的长度。

　　也就是说,标准I/O是通过它的缓冲区来判断流是否要结束了的.这就解释了为什么即使是一个空文件,标准I/O也需要读一次,才能使用feof判断释放为空。

深究标准IO的缓存的更多相关文章

带标准IO带缓存区和非标准IO 遇到fork是的情况分析
废话不多说直接代码 #include<stdio.h> #include<sys/types.h> #include<unistd.h> #include< ...
[APUE]标准IO库(上)
一.流和FILE对象系统IO都是针对文件描述符,当打开一个文件时,即返回一个文件描述符,然后用该文件描述符来进行下面的操作,而对于标准IO库,它们的操作则是围绕流(stream)进行的. 当打开一个 ...
为什么需要标准IO缓冲？
(转)标准I/O缓冲:全缓冲.行缓冲.无缓冲标准I/O库提供缓冲的目的是尽可能地减少使用read和write调用的次数.它也对每个I/O流自动地进行缓冲管理,从而避免了应用程序需要考虑这一点所带来的 ...
[APUE]标准IO库(下)
一.标准IO的效率对比以下四个程序的用户CPU.系统CPU与时钟时间对比程序1:系统IO 程序2:标准IO getc版本程序3:标准IO fgets版本结果: [注:该表截取自APUE,上表中 ...
标准io与文件io
A: 代码重复: 语句块1: while(判断) { 语句块2: 语句块1: } 上面可以改写为: while(1) { 语句块1: if(判断) break: 语句块2: } B: 标准IO和文件I ...
linux标准IO缓冲（apue）
为什么需要标准IO缓冲? LINUX用缓冲的地方遍地可见,不管是硬件.内核还是应用程序,内核里有页高速缓冲,内存高速缓冲,硬件更不用说的L1,L2 cache,应用程序更是多的数不清,基本写的好的软件 ...
【linux草鞋应用编程系列】_1_ 开篇_系统调用IO接口与标准IO接口
最近学习linux系统下的应用编程,参考书籍是那本称为神书的<Unix环境高级编程>,个人感觉神书不是写给草鞋看的,而是写给大神看的,如果没有一定的基础那么看这本书可能会感到有些头重脚轻 ...
文件IO函数和标准IO库的区别
摘自 http://blog.chinaunix.net/uid-26565142-id-3051729.html 1,文件IO函数,在Unix中,有如下5个:open,read,write,lsee ...
linux标准io的copy
---恢复内容开始--- 1.linux标准io的copy #include<stdio.h> int main(int argc,char **argv) { if(argc<3) ...

随机推荐

无法向会话状态服务器发出会话状态请求。请确保 ASP.NET State Service (ASP.NET 状态服务)已启动，并且客户端端口与服务器端口相同。如果服务器位于远程计算机上，请检查。。。
异常处理汇总-服务器 http://www.cnblogs.com/dunitian/p/4522983.html 无法向会话状态服务器发出会话状态请求.请确保 ASP.NET State Ser ...
ASP.NET MVC5+EF6+EasyUI 后台管理系统（74）-微信公众平台开发-自定义菜单
系列目录引言 1.如果不借用Senparc.Weixin SDK自定义菜单,编码起来,工作量是非常之大 2.但是借助SDK似乎一切都是简单得不要不要的 3.自定义菜单无需要建立数据库表 4.自定义菜 ...
PHP之用户验证和标签推荐的简单使用
本篇主要是讲解一些最简单的验证知识效果图 bookmark_fns.php <?php require_once('output_fns.php'); require_once('db_fns ...
Solr高级查询Facet
一.什么是facet solr种以导航为目的的查询结果成为facet,在用户查询的结果上根据分类增加了count信息,然后用户根据count信息做进一步搜索. facet主要用于导航实现渐进式精确搜索 ...
css text-fill-color与text-stroke讲解
顾名思义"text-fill-color"就是文字填充颜色而"text-stroke"就是文字描边.还别说,两个属性可以制作出各种炫酷的文字效果,不过IE系列都 ...
搭建QQ聊天通信的程序：（1）基于 networkcomms.net 创建一个WPF聊天客户端服务器应用程序（1）
搭建QQ聊天通信的程序:(1)基于 networkcomms.net 创建一个WPF聊天客户端服务器应用程序原文地址(英文):http://www.networkcomms.net/creating ...
Mysql - 触发器/视图
触发器在之前的项目中, 应用的着实不多, 没有办法的时候, 才会去用这个. 因为这个东西在后期并不怎么好维护, 也容易造成紊乱. 我最近的项目中, 由于数据库设计(别人设计的)原因, 导致一些最简单功 ...
vim环境变量配置、背景色配置
我们使用vi或者vim的时候,如果想要显示行号,可能会这样做:切换到命令模式,然后输入set nu,再按回车键就显示了:还有就是咱们在编写程序的时候,有的时候会希望按下回车键后,光标不是每次都在行首, ...
linux yum命令详解
yum(全称为 Yellow dog Updater, Modified)是一个在Fedora和RedHat以及SUSE中的Shell前端软件包管理器.基於RPM包管理,能够从指定的服务器自动下载RP ...
Orcale 三层嵌套分页代码
select * from( select emp.*,rownum a from ( select * from emp ) emp where rownum<7) where a>3

深究标准IO的缓存

深究标准IO的缓存的更多相关文章

随机推荐

热门专题