通常我们在读取文件的时候,会用到read(), readline(), readlines()。 通常可能会有这样的用法:

  1. def test1():
  2. with open("/tmp/test.log", "r") as f:
  3. print f.read()

或者

  1. def test2():
  2. f = open("/tmp/test.log", "r")
  3. for line in f.readlines():
  4. print line
  5. f.close()

read ()的方法是一次性把文件的内容以字符串的方式读到内存, 放到一个字符串变量中

readlines()的方法是一次性读取所有内容, 并按行生成一个list

因为read()和readlines()是一次性把文件加载到内存, 如果文件较大, 甚至比内存的大小还大, 内存就会爆掉。 所以,这两种方法只适合读取小的文件。

实际工作中,会碰到读取10几G的大文件的需求, 比如说日志文件。 这时候就要用的新的读取文件的方法。 这里提供两种方法, 有简单,有复杂,但基本原理都是一样的。 就是利用到生成器generator。

方法一:

将文件切分成小段,每次处理完小段内容后,释放内存

这里会使用yield生成自定义可迭代对象, 即generator, 每一个带有yield的函数就是一个generator。

  1. def read_in_block(file_path):
  2. BLOCK_SIZE = 1024
  3. with open(file_path, "r") as f:
  4. while True:
  5. block = f.read(BLOCK_SIZE)  # 每次读取固定长度到内存缓冲区
  6. if block:
  7. yield block
  8. else:
  9. return  # 如果读取到文件末尾,则退出
  10. def test3():
  11. file_path = "/tmp/test.log"
  12. for block in read_in_block(file_path):
  13. print block

方法二:

利用open(“”, “”)系统自带方法生成的迭代对象

  1. def test4():
  2. with open("/tmp/test.log") as f:
  3. for line in f:
  4. print line

for line in f 这种用法是把文件对象f当作迭代对象, 系统将自动处理IO缓冲和内存管理, 这种方法是更加pythonic的方法。 比较简洁。

以上代码均在python2.7环境调试通过。

本文大略讲解了几种处理文件的方法, 并介绍了大文件的正确打开‘姿势’。 这里提到了几个概念: 分别是生成器,迭代器, 文件对象。 你可能会对这些概念比较陌生, 没关系, 我会在下篇再深入解释这些。

转载请注明来自: http://blog.csdn.NET/hackstoic/article/details/49804655 , 作者hackstoic

----------------------上篇完-------------------------------

【参考文献】

1.  http://chenqx.github.io/2014/10/29/Python-fastest-way-to-read-a-large-file/

2.  http://www.zhidaow.com/post/python-read-big-file

3.  http://pyzh.readthedocs.org/en/latest/the-python-yield-keyword-explained.html

4.  https://www.ibm.com/developerworks/cn/opensource/os-cn-python-yield/#ibm-pcon

用Python读取大文件的更多相关文章

  1. Python读取大文件(GB)

    Python读取大文件(GB) - CSDN博客 https://blog.csdn.net/shudaqi2010/article/details/54017766

  2. 强悍的Python读取大文件的解决方案

    这是一道著名的 Python 面试题,考察的问题是,Python 读取大文件和一般规模的文件时的区别,也即哪些接口不适合读取大文件. 1. read() 接口的问题 f =open(filename, ...

  3. PHP 与Python 读取大文件的区别

    php读取大文件的方法   <?php function readFile($file) { # 打开文件 $handle = fopen($file, 'rb'); while (feof($ ...

  4. 如何使用Python读取大文件

    背景 最近处理文本文档时(文件约2GB大小),出现memoryError错误和文件读取太慢的问题,后来找到了两种比较快Large File Reading 的方法,本文将介绍这两种读取方法. 准备工作 ...

  5. Python读取大文件的"坑“与内存占用检测

    python读写文件的api都很简单,一不留神就容易踩"坑".笔者记录一次踩坑历程,并且给了一些总结,希望到大家在使用python的过程之中,能够避免一些可能产生隐患的代码. 1. ...

  6. python读取大文件

    最近在学习python的过程中接触到了python对文件的读取.python读取文件一般情况是利用open()函数以及read()函数来完成: f = open(filename,'r') f.rea ...

  7. 使用python读取大文件

    python中读取数据的时候有几种方法,无非是read,readline,readlings和xreadlines几种方法,在几种方法中,read和xreadlines可以作为迭代器使用,从而在读取大 ...

  8. python读取大文件的方法及mmap内存映射模块

    python计算文件的行数和读取某一行内容的实现方法 :最简单的办法是把文件读入一个大的列表中,然后统计列表的长度.如果文件的路径是以参数的形式filepath传递的,那么只用一行代码就可以完成我们的 ...

  9. Python——读取大文件(GB)

    最近处理文本文档时(文件约2GB大小),出现memoryError错误和文件读取太慢的问题,后来找到了两种比较快Large File Reading 的方法,本文将介绍这两种读取方法. Prelimi ...

随机推荐

  1. Comparable<T> 和 Comparator<T>

    相同点: Comparable<T> 和 Comparator<T>都是接口 不同点: 两者声明的方法不同.前者是compareTo()方法,后者是compare()方法. C ...

  2. 精简高效CSS系列之二——浮动float

    一.浮动基础知识 假如一个页面上有3个div块,如下排列: 图1:不使用浮动 图2:向右浮动 图2说明了框1脱离了文档流向右移动,直到它的右边缘碰到包含框的右边缘为止. 图3:向左浮动 图3说明了框1 ...

  3. Android R资源文件无法更新或丢失

    开发Android应用的时候,经常容易发生R文件丢失的事. 根据我的经验是当你更新了drawable里面的文件时,正好xml文件有错误, 这样会导致R文件出错. 此时如果你clean整个project ...

  4. 使用Chrome快速实现数据的抓取(五)—— puppeteer

    如果要以自动化的方式驱动Chrome进行数据抓取,必须实现Chrome Dev Protocol协议的客户端.这个协议本身并不复杂,我在之前的文章中也简单的介绍过一下. Google本身有一个Node ...

  5. How to read out WhatsApp messages with Tasker and react on their content in real time

    http://technologyworkroom.blogspot.sg/2013/05/tasker-how-to-read-out-whatsapp.html Tasker can read o ...

  6. spring mvc接收数组

    (一)前言 对于springmvc接收数组的问题啊,我试验过几次,但是了有时候成功了,有时候失败了,也不知道为啥的,然后现在又要用到了,所以打算具体看看到底怎么回事,但是了我实验成功了顺便找了好多资料 ...

  7. UI----------------Toggle

    Is On:是否已经勾选上了 Toggle Transition:渐变效果 Graphic:勾选标志的图,就是那个勾 Group:多选组 On Value Changed:当选项改变时,触发事件 多选 ...

  8. JQuery实现可直接编辑的表格

    本文实例讲述了JQuery实现可直接编辑的表格.分享给大家供大家参考.具体分析如下: 功能: 创建一个表格,用户单击某个单元格后,可以直接修改单元格文本.在编辑状态下,用户可按回车键确认修改,按ESC ...

  9. [Android Pro] AtomicInteger的用法

    J2SE 5.0提供了一组atomic class来帮助我们简化同步处理.基本工作原理是使用了同步synchronized的方法实现了对一个long, integer, 对象的增.减.赋值(更新)操作 ...

  10. 3D屏保:魔方2.0版本

    一个三维魔方的屏保软件,可支持2级到72级的魔方.启动后魔方会自动旋转,并最终回到初始状态.有很多人问我这是怎么做到的,用的什么解魔方的算法,其实我自己根本就不会玩魔方,别人用技巧解魔方,我这程序中用 ...