[Repost] 探寻C++最快的读取文件的方案

作者：BYVoid（https://www.byvoid.com/zhs/blog/fast-readfile）

版权协议：CC BY-NC-SA 3.0 Unported

在竞赛中，遇到大数据时，往往读文件成了程序运行速度的瓶颈，需要更快的读取方式。相信几乎所有的C++学习者都在cin机器缓慢的速度上栽过跟头，于是从此以后发誓不用cin读数据。还有人说Pascal的read语句的速度是C/C++中scanf比不上的，C++选手只能干着急。难道C++真的低Pascal一等吗？答案是不言而喻的。一个进阶的方法是把数据一下子读进来，然后再转化字符串，这种方法传说中很不错，但具体如何从没试过，因此今天就索性把能想到的所有的读数据的方式都测试了一边，结果是惊人的。

竞赛中读数据的情况最多的莫过于读一大堆整数了，于是我写了一个程序，生成一千万个随机数到data.txt中，一共55MB。然后我写了个程序主干计算运行时间，代码如下：

#include <ctime>

int main()

{

    int start = clock();

    //DO SOMETHING

    printf("%.3lf\n",double(clock()-start)/CLOCKS_PER_SEC);

}

最简单的方法就算写一个循环scanf了，代码如下：

const int MAXN = 10000000;

int numbers[MAXN];

void scanf_read()

{

    freopen("data.txt","r",stdin);

    for (int i=0;i<MAXN;i++)

        scanf("%d",&numbers[i]);

}

可是效率如何呢？在我的电脑Linux平台上测试结果为2.01秒。接下来是cin，代码如下

const int MAXN = 10000000;

int numbers[MAXN];

void cin_read()

{

    freopen("data.txt","r",stdin);

    for (int i=0;i<MAXN;i++)

        std::cin >> numbers[i];

}

出乎我的意料，cin仅仅用了6.38秒，比我想象的要快。cin慢是有原因的，其实默认的时候，cin与stdin总是保持同步的，也就是说这两种方法可以混用，而不必担心文件指针混乱，同时cout和stdout也一样，两者混用不会输出顺序错乱。正因为这个兼容性的特性，导致cin有许多额外的开销，如何禁用这个特性呢？只需一个语句std::ios::sync_with_stdio(false);，这样就可以取消cin于stdin的同步了。程序如下：

const int MAXN = 10000000;

int numbers[MAXN];

void cin_read_nosync()

{

    freopen("data.txt","r",stdin);

    std::ios::sync_with_stdio(false);

    for (int i=0;i<MAXN;i++)

        std::cin >> numbers[i];

}

取消同步后效率究竟如何？经测试运行时间锐减到了2.05秒，与scanf效率相差无几了！有了这个以后可以放心使用cin和cout了。

接下来让我们测试一下读入整个文件再处理的方法，首先要写一个字符串转化为数组的函数，代码如下

const int MAXS = 60*1024*1024;

char buf[MAXS];

void analyse(char *buf,int len = MAXS)

{

    int i;

    numbers[i=0]=0;

    for (char *p=buf;*p && p-buf<len;p++)

        if (*p == ' ')

            numbers[++i]=0;

        else

            numbers[i] = numbers[i] * 10 + *p - '0';

}

把整个文件读入一个字符串最常用的方法是用fread，代码如下：

const int MAXN = 10000000;

const int MAXS = 60*1024*1024;

int numbers[MAXN];

char buf[MAXS];

void fread_analyse()

{

    freopen("data.txt","rb",stdin);

    int len = fread(buf,1,MAXS,stdin);

    buf[len] = '\0';

    analyse(buf,len);

}

上述代码有着惊人的效率，经测试读取这10000000个数只用了0.29秒，效率提高了几乎10倍！掌握着种方法简直无敌了，不过，我记得fread是封装过的read，如果直接使用read，是不是更快呢？代码如下：

const int MAXN = 10000000;

const int MAXS = 60*1024*1024;

int numbers[MAXN];

char buf[MAXS];

void read_analyse()

{

    int fd = open("data.txt",O_RDONLY);

    int len = read(fd,buf,MAXS);

    buf[len] = '\0';

    analyse(buf,len);

}

测试发现运行时间仍然是0.29秒，可见read不具备特殊的优势。到此已经结束了吗？不，我可以调用Linux的底层函数mmap，这个函数的功能是将文件映射到内存，是所有读文件方法都要封装的基础方法，直接使用mmap会怎样呢？代码如下：

const int MAXN = 10000000;

const int MAXS = 60*1024*1024;

int numbers[MAXN];

char buf[MAXS];

void mmap_analyse()

{

    int fd = open("data.txt",O_RDONLY);

    int len = lseek(fd,0,SEEK_END);

    char *mbuf = (char *) mmap(NULL,len,PROT_READ,MAP_PRIVATE,fd,0);

    analyse(mbuf,len);

}

经测试，运行时间缩短到了0.25秒，效率继续提高了14%。到此为止我已经没有更好的方法继续提高读文件的速度了。回头测一下Pascal的速度如何？结果令人大跌眼镜，居然运行了2.16秒之多。程序如下：

const

    MAXN = 10000000;

var

    numbers :array[0..MAXN] of longint;

    i :longint;

begin

    assign(input,'data.txt');

    reset(input);

    for i:=0 to MAXN do

        read(numbers[i]);

end.

为确保准确性，我又换到Windows平台上测试了一下。结果如下表：

方法/平台/时间(秒)	Linux gcc	Windows mingw	Windows VC2008
scanf	2.010	3.704	3.425
cin	6.380	64.003	19.208
cin取消同步	2.050	6.004	19.616
fread	0.290	0.241	0.304
read	0.290	0.398	不支持
mmap	0.250	不支持	不支持
Pascal read	2.160	4.668

从上面可以看出几个问题

Linux平台上运行程序普遍比Windows上快。
Windows下VC编译的程序一般运行比MINGW（MINimal Gcc for Windows）快。
VC对cin取消同步与否不敏感，前后效率相同。反过来MINGW则非常敏感，前后效率相差8倍。
read本是linux系统函数，MINGW可能采用了某种模拟方式，read比fread更慢。
Pascal程序运行速度实在令人不敢恭维。

希望此文能对大家有所启发，欢迎与我继续讨论。

BYVoid原创转载请注明

[Repost] 探寻C++最快的读取文件的方案的更多相关文章

探寻C++最快的读取文件的方案 ——C++ IO优化
在竞赛中,遇到大数据时,往往读文件成了程序运行速度的瓶颈,需要更快的读取方式.相信几乎所有的C++学习者都在cin机器缓慢的速度上栽过跟头,于是从此以后发誓不用cin读数据.还有人说Pascal的re ...
【转载】探寻C++最快的读取文件的方案
原文地址:https://www.byvoid.com/blog/fast-readfile/ 在竞赛中,遇到大数据时,往往读文件成了程序运行速度的瓶颈,需要更快的读取方式.相信几乎所有的C++学习者 ...
探寻C++最快的读取文件的方案
https://www.byvoid.com/blog/fast-readfile/ 在竞赛中,遇到大数据时,往往读文件成了程序运行速度的瓶颈,需要更快的读取方式.相信几乎所有的C++学习者都在cin ...
C++最快的读取文件的方案(scanf,cin(及取消sync),fread)的详细对比
竞赛中,遇到大数据时,往往读文件成了程序运行速度的瓶颈,需要更快的读取方式.相信几乎所有的C++学习者都在cin机器缓慢的速度上栽过跟头,于是从此以后发誓不用cin读数据.还有人说Pascal的rea ...
快学Scala 第十五课（二进制读取文件，写文件，访问目录，序列化）
二进制读取文件: val file = new File("F:\\scalaWorkspace\\ScalaLearning\\files\\test.txt") val in ...
java 读取文件——按照行取出（使用BufferedReader和一次将数据保存到内存两种实现方式）
1.实现目标读取文件,将文件中的数据一行行的取出. 2.代码实现 1).方式1: 通过BufferedReader的readLine()方法. /** * 功能:Java读取txt文件的内容步骤: ...
HTML5 文件域+FileReader 分段读取文件(五)
一.默认FileReader会分段读取File对象,这是分段大小不一定,并且一般会很大 HTML: <div class="container"> <!--文本文 ...
动态读取文件持续显示在UI上
private void DisplayLogInfo(FileInfo _LastFile) { if (_LastFile != null) { StreamReader sr = null; t ...
Java利用内存映射文件实现按行读取文件
我们知道内存映射文件读取是各种读取方式中速度最快的,但是内存映射文件读取的API里没有提供按行读取的方法,需要自己实现.下面就是我利用内存映射文件实现按行读取文件的方法,如有错误之处请指出,或者有更好 ...

随机推荐

react教程 — redux
一.概念: http://caibaojian.com/react/redux-basic.html 或 https://www.cnblogs.com/maopixin ...
Navicat for Mysql 连接报错1251[已解决]
因为mysql是8.0.11的版本,比较新的mysql采用新的保密方式所以旧的修改密码的方式似乎不能用, 新版本改密码方式: use mysql; ALTER USER 'root'@'localho ...
【丛林】HTML Table 表格浅谈（边框、隔行变色
此例子已经包含本文大部分内容,请对照参考.查看代码 > 定义和用法 table标签定义 HTML 表格. 创建表格的四要素:table.tr.th.td <table> 整个表格以& ...
vs2005安装和 Fatal Error C1902
win10系统不能激活 win7可以激活,运行会出现兼容错误,解决办法装2个sp1补丁拷贝mspdb80.dll到系统目录后会出现 Fatal Error C1902, 解决方法如下: VC++20 ...
12. I2C-EEPROM
12.1. I2C 协议简介 I 2 C ( Inter-Integrated Circuit )协议是由 Phiilps 公司开发的,由于它具引脚少,硬件实现简单,可扩展性强,不需要如 USART. ...
Python多进程编程-进程间协作（Queue、Lock、Semaphore、Event、Pipe）
进程与进程之间是相互独立的,互不干扰.如果多进程之间需要对同一资源操作,就需要进程间共享变量,上一篇文章介绍了进程间共享数据的三大类Value.Array.Manager,这三种类的主要区别在于管理的 ...
C++内存修改器开源代码
我们玩单机游戏时,游戏难度可能过大, 或者游戏已经比较熟练,想要增加游戏的玩法,这时候可以使用修改器. 内存式游戏修改器主要对游戏内存修改修改时有两种方式,一是定时对内存数值进行修改.实现类似锁定的 ...
spring boot 尚桂谷学习笔记09 数据访问
springboot 与数据库访问 jdbc, mybatis, spring data jpa, 1.jdbc原生访问新建项目使用 springboot 快速构建工具选中 web 组件 sq ...
科普：std::sort干了什么
std::sort算是STL中对OIer比较友好的函数了,但你有想过sort是如何保证它的高速且稳定吗? 正文我们首先来到第一层:sort函数 template<typename _Rando ...
css深入理解overflow
1.基本属性 visible(默认值) 超出部分仍然正常显示 hidden 超出后隐藏 scroll 滚动条一致显示 auto 自适应显示或隐藏滚动条 inherit overflow = ov ...

[Repost] 探寻C++最快的读取文件的方案

[Repost] 探寻C++最快的读取文件的方案的更多相关文章

随机推荐

热门专题