在python中逐行读取大文件

在我们日常工作中，难免会有处理日志文件的时候，当文件小的时候，基本不用当心什么，直接用file.read()或readlines()就可以了，但是如果是将一个10G大小的日志文件读取，即文件大于内存的大小，这么处理就有问题了，会将整个文件加载到内存中从而造成MemoryError … 也就是发生内存溢出。

下面分享几个解决办法：

对file对象进行迭代处理：

with open('file_name', 'r') as file:

    for line in file:

        print line

　优点:

with语句，文件对象在执行完代码块退出后自动关闭文件流,文件读取数据发生异常，进行异常捕获处理
对文件对象进行迭代时，在内部，它会缓冲IO(针对昂贵的IO操作进行优化)和内存管理，所以不必担心大文件。
这才是 Pythonci 最完美的方式，既高效又快速

缺点：每一行的数据内容不能大于内存大小，否则就会造成MemoryError

使用yield

正常情况使用上面这种方式就可以了，But,如果遇到整个文件只有一行，而且按照特定的字符进行分割,上面这种方式则不行了，这时候yield就非常有用了。

举个栗子,log的形式是这样子的。

2018-06-18 16:12:08,289 - main - DEBUG - Do something{|}…..
以{|}做为分割符。

def read_line(filename, split, size):

    with open(filename, 'r+') as file:

        buff = ''

        while True:

            while split in buff:

                position = buff.index(split)

                yield buff[:position]

                buff = buff[(position +len(split)):]

            chunk = file.read(size)

            if not chunk:

                yield buff

                break

            buff = buff +chunk

优点:不在限制每行数据的大小,即使整个大文件只有一行。
缺点：速度比上面这种方式要慢。
解析一下：

首先：定义一个缓冲区buff
循环判断，如果split分割符在缓冲区buff，则进行查找分割符出现的位置，并yield回去。
将buff更新，继续第二步
如果split分割符不在缓冲区buff，则read(size)个字符
如果chunk为空，则跳出循环，否则更新buff，继续第二步

所以我们需要使用那种方式呢，一般来说使用用第一种就可以了。碰到只有一行的数据，而且数据特别大的，就要考虑一下你是不是得罪那个程序员了，故意给你这样一个文件。

在python中逐行读取大文件的更多相关文章

python中逐行读取文件的最佳方式_Drupal_新浪博客
python中逐行读取文件的最佳方式_Drupal_新浪博客 python中逐行读取文件的最佳方式 (2010-08-18 15:59:28) 转载▼ 标签: python ...
python chunk 方式读取大文件——本质上还是file read自身支持
参考:https://stackoverflow.com/questions/519633/lazy-method-for-reading-big-file-in-python 最优雅方式: file ...
【Python】实现对大文件的增量读取
背景前段时间在做一个算法测试,需要对源于日志的数据进行分析才能获取到结果:日志文件较大,所以想要获取数据的变化曲线,增量读取是最好的方式. 网上有很多人的技术博客都是写的用for循环readline ...
PHP 与Python 读取大文件的区别
php读取大文件的方法 <?php function readFile($file) { # 打开文件 $handle = fopen($file, 'rb'); while (feof($ ...
Python逐块读取大文件行数的代码 - 为程序员服务
Python逐块读取大文件行数的代码 - 为程序员服务 python数文件行数最简单的方法是使用enumerate方法,但是如果文件很大的话,这个方法就有点慢了,我们可以逐块的读取文件的内容,然后按块 ...
Python读取大文件的"坑“与内存占用检测
python读写文件的api都很简单,一不留神就容易踩"坑".笔者记录一次踩坑历程,并且给了一些总结,希望到大家在使用python的过程之中,能够避免一些可能产生隐患的代码. 1. ...
Python读取大文件(GB)
Python读取大文件(GB) - CSDN博客 https://blog.csdn.net/shudaqi2010/article/details/54017766
强悍的Python读取大文件的解决方案
这是一道著名的 Python 面试题,考察的问题是,Python 读取大文件和一般规模的文件时的区别,也即哪些接口不适合读取大文件. 1. read() 接口的问题 f =open(filename, ...
php中读取大文件实现方法详解
php中读取大文件实现方法详解来源: 时间:2013-09-05 19:27:01 阅读数:6186 分享到:0 [导读] 本文章来给各位同学介绍php中读取大文件实现方法详解吧,有需要了解 ...

随机推荐

第七章、Linux 文件与目录管理
第七章.Linux 文件与目录管理 1. 目录与路径 1.1 相对路径与绝对路径 1.2 目录的相关操作: cd, pwd, mkdir, rmdir 1.3 关於运行档路径的变量: $PATH ...
Oracle执行计划的查看
前言一个系统在刚开始的时候,由于数据库中数据量不大,开发人员的主要精力都在业务与功能实现上.系统完成部署上线后随着时间的累积,每个表中的数据都在不断增长,我们往往会发现系统越来越慢,这可能是程序设计 ...
十一：image 图片
属性名类型默认值说明 src String 图片资源地址 mode String 'scaleToFill' 图片裁剪.缩放的模式 binderror HandleEvent 当错误发生 ...
jquery里正则的使用方法及常用的正则验证
本文是一篇关于jquery使用正则来验证输入,及一些常用验证规则的基础文章,适合新手. 假设我们的网页里有这样的一个表单: <input id="aijquery" type ...
js post跳转
function clickFunc(id) { var params = new Array(); params.push({ name: "id", value: id}); ...
DataGridView 单元格自动填充
在DataGridView单元格中,当输入指定字符时,自动完成填充. 通过 TextBox实现 AutoCompleteMode AutoCompleteMode.Suggest: AutoCompl ...
Hadoop源码学习笔记(5) ——回顾DataNode和NameNode的类结构
Hadoop源码学习笔记(5) ——回顾DataNode和NameNode的类结构之前我们简要的看过了DataNode的main函数以及整个类的大至,现在结合前面我们研究的线程和RPC,则可以进一步 ...
iOS开发之工具篇-20个可以帮你简化移动app开发流程的工具
如果想进入移动app开发这个领域,你总能从别的开发者或者网上或者书上找到各种各样的方法和工具,对于新手来说,还没有摸清门路就已经陷入迷茫了.这里推荐20个可以帮你简化app开发流程的工具.很多开发者都 ...
centos开启防火墙端口
1. 查看已打开的端口 # netstat -anp 2. 查看想开的端口是否已开 # firewall-cmd --query-port=80/tcp 若此提示 FirewallD is not r ...
3.java设计模式-建造者模式
Java设计模式-建造者模式在<JAVA与模式>一书中开头是这样描述建造(Builder)模式的: 建造模式是对象的创建模式.建造模式可以将一个产品的内部表象(internal repr ...

在python中逐行读取大文件

对file对象进行迭代处理：

使用yield

在python中逐行读取大文件的更多相关文章

随机推荐

热门专题