Read a large file with python
python读取大文件
- 较pythonic的方法,使用with结构
- 文件可以自动关闭
- 异常可以在with块内处理
 with open(filename, 'rb') as f:
 for line in f:
 <do someting with the line>
 
最大的优点:对可迭代对象 f,进行迭代遍历:for line in f,会自动地使用缓冲IO(buffered IO)以及内存管理,而不必担心任何大文件的问题。
There should be one – and preferably only one – obvious way to do it.
- 使用生成器generator
如果想对每次迭代读取的内容进行更细粒度的处理,可以使用yield生成器来读取大文件
    def readInChunks(file_obj, chunkSize=2048):
        """
        Lazy function to read a file piece by piece.
        Default chunk size: 2kB.
        """
        while True:
            data = file_obj.read(chunkSize)
            if not data:
                break
            yield data
    f = open('bigFile')
    for chunk in readInChunks(f):
        do_something(chunk)
    f.close()
- linux下使用split命令(将一个文件根据大小或行数平均分成若干个小文件)
    wc -l BLM.txt  # 读出BLM.txt文件一共有多少行
    # 利用split进行分割
    split -l 2482 ../BLM/BLM.txt -d -a 4 BLM_
    # 将 文件 BLM.txt 分成若干个小文件,每个文件2482行(-l 2482),文件前缀为BLM_ ,系数不是字母而是数字(-d),后缀系数为四位数(-a 4)  
    # 按行数分割
    split -l 300 large_file.txt new_file_prefix
    # 文件大小分割
    split -b 10m server.log waynelog
    # 对文件进行合并:使用重定向,'>' 写入文件  , '>>' 追加到文件中
    cat file_prefix* > large_file
在工作中的日常: 用户信息,log日志缓存,等都是大文件
补充:linecache模块
当读取一个文件的时候,python会尝试从缓存中读取文件内容,优化读取速度,提高效率,减少了I/O操作
linecache.getline(filename, lineno) 从文件中读取第几行,注意:包含换行符
linecache.clearcache() 清除现有的文件缓存
linecache.checkcache(filename=None) 检查缓存内容的有效性,可能硬盘内容发生改变,更新了,如果没有参数,将检查缓存中的所有记录(entries)
    import linecache
    linecache.getline(linecache.__file__, 8)
题目:
现给一个文件400M(该文件是由/etc/passwd生成的),统计其中root字符串出现的次数
    import time
    sum = 0
    start = time.time()
    with open('file', 'r') as f:
        for i in f:
            new = i.count('root')
            sum+=new
    end = time.time()
    print(sum, end-start)
注:有时候这个程序比c,shell快10倍,原因就是,python会读取cache中的数据,使用缓存在内部进行优化,减少i/o,提高效率
References : How to read a large file
Read a large file with python的更多相关文章
- Read Large Files in Python
		I have a large file ( ~4G) to process in Python. I wonder whether it is OK to "read" such ... 
- Github Upload Large File 上传超大文件
		Github中单个文件的大小限制是100MB,为了能突破这个限制,我们需要使用Git Large File Storage这个工具,参见这个官方帖子,但是按照其给的步骤,博主未能成功上传超大文件,那么 ... 
- read content in a text file in python
		** read text file in pythoncapability: reading =text= from a text file 1. open the IDLE text editor ... 
- Combining an audio file with video file in python
		Combining an audio file with video file in python - Stack Overflow https://stackoverflow.com/questio ... 
- Java – Reading a Large File Efficiently--转
		原文地址:http://www.baeldung.com/java-read-lines-large-file 1. Overview This tutorial will show how to r ... 
- [PySpark] RDD programming on a large file
		重难点 一.parallelize 方法 一般来说,Spark会尝试根据集群的状况,来自动设定slices的数目.然而,你也可以通过传递给parallelize的第二个参数来进行手动设置. data_ ... 
- download file by python in google colab
		https://stackoverflow.com/questions/15352668/download-and-decompress-gzipped-file-in-memory You need ... 
- How do I get the path of the current executed file in Python?
		First, you need to import from inspect and os from inspect import getsourcefile from os.path import ... 
- Base64 encode/decode large file
		转载:http://www.cnblogs.com/jzywh/archive/2008/04/20/base64_encode_large_file.html The class System.Co ... 
随机推荐
- C++ Knowledge series 1
			Programming language evolves always along with Compiler's evolvement. 1. The C++ Object Model: Strou ... 
- VC++中如何将字符串转换成整型数字
			原文:http://blog.csdn.net/yongf2014/article/details/47071663 注意: atoi函数是c的函数,它的输入参数是char *类型. 你声明了stri ... 
- Android 性能优化的方面方面都在这儿
			又到周六了,鸿洋的不定期的周六放送又来了~~这次来谈谈性能优化吧.大家在工作中或多或少都会拿自家的应用和竞品app做比对,不可避免的需要做一些app性能优化的活.很多时候可能是策略上的调整,不过还是有 ... 
- 无法获得锁 /var/lib/dpkg/lock - open (11: 资源暂时不可用)
			问题描述: 有时候使用 apt-get 终端提示这样的错误信息: 无法获得锁 /var/lib/dpkg/lock - open (11: 资源暂时不可用) E: 无法锁定管理目录(/var/lib/ ... 
- JAVA - JDK 1.8 API 帮助文档-中文版
			JAVA - JDK 1.8 API 帮助文档-中文版 百度云链接: https://pan.baidu.com/s/1_7FFadw1a6J0qTfx2FzqPQ 密码: 41n4 
- C# 装箱和拆箱[整理](转)
			//1. // 装箱和拆箱是一个抽象的概念 //2. // 装箱是将值类型转换为引用类型 :拆箱是将引用类型转换为值类型 // 利用装箱和拆箱功能,可通过允许值类型的任何值与Object 类型的值相互 ... 
- .net core系列之《在.net core中使用MemoryCache实现本地缓存》
			说到内存缓存MemoryCache不由的让我想起.Net Framework中的MemoryCache,它位于 System.Runtime.Caching 程序集中. 接下来我们来看看.net co ... 
- C/C++内存管理详解 ZZ
			内存管理是C++最令人切齿痛恨的问题,也是C++最有争议的问题,C++高手从中获得了更好的性能,更大的自由,C++菜鸟的收获则是一遍一遍的 检查代码和对C++的痛恨,但内存管理在C++中无处不在,内存 ... 
- 存储过程存储过程需要用两个'',先where再Group,再Order by
			存储过程需要用两个'',先where再Group,再Order by 未完,待续 
- 二、python小功能记录——监听鼠标事件
			1.原文链接 #-*- coding:utf-8 -*- from pynput.mouse import Button, Controller ## ======================== ... 
