python 大文件以行为单位读取方式比对

http://www.cnblogs.com/aicro/p/3371986.html

先前需要做一个使用python读取大文件（大于1G），并逐条存入内存进行处理的工作。做了很多的尝试，最终看到了如下的文章。

http://stackoverflow.com/questions/8009882/how-to-read-large-file-line-by-line-in-python

该文章实际上提供了集中读取大文件的方式，先经过测试总结如下

1. for line in fileHandle:

该方式是最快速的。而且python虚拟机在内部帮助我们对buffer进行管理，内存占用量小，且不差错。

2. fileinput方式

该方式实际效果较慢，但是也有buffer管理功能

3. （自己摸索和尝试的）使用file.read（sizeHint)的方式进行区块读取

该方法是三者中最慢的，而且需要自己去控制内存和选择需要的区域，所以在读到的buffer之后，还需要进行拆分工作，比较麻烦，而且容易出错。最无奈的是，使用下来（我的环境是2.6和2.7），sizeHint作用较小，原来觉得如果sizeHint是1024，则每次在内存中只会驻留1024B的内容，但是实际上不是这样的，在度过一次1024B之后，再次读取1024B的时候，尽管已经对之前的buf进行了del操作，但是该1024B仍然存留于内存中，所以内存越吃越大，最终MemoryError。

4. file.readline和file.readlines

和read类似，只适用于小文件。

结论：

在使用python进行大文件读取时，应该返璞归真，使用最简单的方式，交给解释器，就管好自己的工作就行了。

附，实测数据(这里的数据是我的程序的实际运行情况，在程序中其实读了两个差不多大小的文件，并做了一定逻辑处理，所以绝对值是没有意义的，但是相对比较值很能够说明情况）

1. 大文件（>1.4G)

所使用的方式	size_hint	所使用时间
for i in open(...)	/	103.382492s
fileinput	/	131.525755s
file.read和buffer控制	2亿B	报错：memoryError

2. 小文件（西游记的txt，大约1.4M)

所使用的方式	size_hint	所使用时间
for i in open(...)	/	2.11s
fileinput	/	4.22s
file.read和buffer控制	2亿B	4.07s

------------------------------------------------------------------------

python 大文件以行为单位读取方式比对的更多相关文章

python大文件读取
python大文件读取 https://stackoverflow.com/questions/8009882/how-to-read-a-large-file-line-by-line-in-pyt ...
python 读取大文件，按照字节读取
def read_bigFile(): f = open("123.dat",'r') cont = f.read() : print(cont) cont = f.read() ...
Python 大文件处理
非内存资源可以使用with 在python中逐行读取大文件在我们日常工作中,难免会有处理日志文件的时候,当文件小的时候,基本不用当心什么,直接用file.read()或readlines()就可以了 ...
iOS将大文件映射到内存(读取大文件)
http://blog.csdn.net/xyt243135803/article/details/40995759 在<中国区GPS偏移纠正(适用于Google地图)>一文中曾读取一个7 ...
python大文件迭代器的流式读取，之前一直使用readlines()对于大文件可以迅速充满内存，之前用法太野蛮暴力，要使用xreadlines或是直接是f,
#!/usr/bin/env python #encoding=utf-8 import codecs count =0L #for line in file("./search_click ...
python读取大文件【一行一行读取】
with open('e:/content.txt') as f: for line in f: if '==3346628==' in line: …………
python txt文件的写入和读取
1.文件的打开使用open () 函数打开文件.他有两个参数,文件路径或文件名和文件的打开方式. "r" 只读模式,不能编辑和删除文件内容. "w" 写入模 ...
用python打开文件夹的三种方式
一.利用explorer.exe import os # 利用explorer.exe执行 start_directory = r'C:\代码\软件包' os.system("explore ...
java 分次读取大文件的三种方法
1. java 读取大文件的困难 java 读取文件的一般操作是将文件数据全部读取到内存中,然后再对数据进行操作.例如 Path path = Paths.get("file path&qu ...

随机推荐

JDBC-简单的学生管理系统-增删改查
结构:三层架构--mvc 三层是为了解决整个应用程序中各个业务操作过程中不同阶段的代码封装的问题,为了使程序员更加专注的处理某阶段的业务逻辑. 比如将数据库操作代码封装到一层中,提供一些方法根据参数直 ...
popupWindow使用详解
popupWindow说起来简单,但是使用略麻烦,今天带大家来看看怎么使用,先来看看效果图: 先来看看布局文件吧: <RelativeLayout xmlns:android="htt ...
对RecycleView的多种item布局的封装
本文是借鉴bingoogolapple写得BGAAdapter-Android而产生的,对此表示感谢. 效果 1.Adapter的使用 1.继承BaseAdapter 这里是我的adapter pub ...
在Nginx中搭建Nagios监控平台
本文只做Nginx下Nagiox安装的说明,其它关于Nagios监控的详细配置请参考我的另一篇文章[Ubuntu 10.04下构建Nagios监控平台] Nagios依赖PHP环境和perl环境.由于 ...
samba环境搭建
1.安装samba软件 sudo apt-get install samba cifs-utils samba-common 2.创建与windows共享目录 mkdir share chmod 77 ...
SQL Server 游标
结果集,结果集就是select查询之后返回的所有行数据的集合. 在关系数据库中,我们对于查询的思考是面向集合的.而游标打破了这一规则,游标使得我们思考方式变为逐行进行. 正常面向集合的思维方式是: 而 ...
[上传下载] C#修改DownLoadHelper上传下载帮助类（转载）
点击下载 DownLoadHelper.rar 主要功能如下 /// <summary> /// 输出硬盘文件,提供下载支持大文件.续传.速度限制.资源占用小 /// </summ ...
c语言学习之基础知识点介绍（一）：输出语句和变量简单介绍
本系列是为了学习ios做准备的,也能作为c语言入门的教程看看. c语言的程序结构: 1.顺序结构:自上而下依次执行. 2.分支结构:程序有选择的执行某段代码或者不执行某段代码. 3.循环结构:程序循环 ...
hibernate - 何时关闭数据库
ref: http://www.coderanch.com/t/637103/ORM/databases/close-database-connection-hibernate 我上这个问题, 原因是 ...
why slow thinking wins
今天Hacker News上的一篇文章<为什么想得慢的人能赢>引起了广泛的讨论. 网友Scott Burson在文章后评论说:"之前,我雇佣了一位TopCoder冠军,原本预计他 ...

python 大文件以行为单位读取方式比对

python 大文件以行为单位读取方式比对的更多相关文章

随机推荐

热门专题