Python 大文件处理

非内存资源可以使用with

在python中逐行读取大文件

在我们日常工作中，难免会有处理日志文件的时候，当文件小的时候，基本不用当心什么，直接用file.read()或readlines()就可以了，但是如果是将一个10G大小的日志文件读取，即文件大于内存的大小，这么处理就有问题了，会将整个文件加载到内存中从而造成MemoryError … 也就是发生内存溢出。

对file对象进行迭代处理：

with open('file_name', 'r') as file:

    for line in file:

        print line

优点:

with语句，文件对象在执行完代码块退出后自动关闭文件流,文件读取数据发生异常，进行异常捕获处理
对文件对象进行迭代时，在内部，它会缓冲IO(针对昂贵的IO操作进行优化)和内存管理，所以不必担心大文件。
这才是 Pythonci 最完美的方式，既高效又快速

缺点：

每一行的数据内容不能大于内存大小，否则就会造成MemoryError

使用yield

正常情况使用上面这种方式就可以了，But,如果遇到整个文件只有一行，而且按照特定的字符进行分割,上面这种方式则不行了，这时候yield就非常有用了。

举个栗子,log的形式是这样子的。

2018-06-18 16:12:08,289 - main - DEBUG - Do something{|}…..
以{|}做为分割符。

def read_line(filename, split, size):

    with open(filename, 'r+') as file:

        buff = ''

        while True:

            while split in buff:

                position = buff.index(split)

                yield buff[:position]

                buff = buff[(position +len(split)):]

            chunk = file.read(size)

            if not chunk:

                yield buff

                break

            buff = buff +chunk

优点:

不在限制每行数据的大小,即使整个大文件只有一行。

缺点：

速度比上面这种方式要慢。
解析一下：
- 首先：定义一个缓冲区buff
- 循环判断，如果split分割符在缓冲区buff，则进行查找分割符出现的位置，并yield回去。
- 将buff更新，继续第二步
- 如果split分割符不在缓冲区buff，则read(size)个字符
- 如果chunk为空，则跳出循环，否则更新buff，继续第二步
- 所以我们需要使用那种方式呢，一般来说使用用第一种就可以了。碰到只有一行的数据，而且数据特别大的，就要考虑一下你是不是得罪那个程序员了，故意给你这样一个文件。

读取大几G的大文件，可以利用生成器 generator

方法一：将文件切分成小段，每次处理完小段，释放内存

def read_in_block(file_path):

　　BLOCK_SIZE=1024

　　with open(file_path,"r") as f:

　　　　while True:

　　　　　　block =f.read(BLOCK_SIZE) #每次读取固定长度到内存缓冲区

　　　　　　if block:

　　　　　　　　yield block

　　　　　　else:

　　　　　　　　return #如果读取到文件末尾，则退出

for block in read_in_block(file_path):

　　print block

// 这个方法，速度很快（只有3s)，但有个问题，若满足了1024时，会将正好在1024位置的数据切开，虽然每个block都是str, 但无法直接得到每行的id，只能再切分。

def readInChunks(fileObj, chunkSize=4096):

    """

    Lazy function to read a file piece by piece.

    Default chunk size: 4kB.

    """

    while 1:

        data = fileObj.read(chunkSize)

        if not data:

            break

        yield data

f = open('bigFile')

for chuck in readInChunks(f):

    #do_something(chunk)

f.close()

python 实现大文件md5值计算

python 中使用hashlib模块实现常见摘要算法，如md5、sha1等。

hashlib.md5(文件内容)实现了对文件的md5计算，注意参数为文件内容而不是文件路径。

import hashlib

with open('2.jpeg','rb') as f:

  data = f.read()

d5 = hashlib.md5(data)

print(d5.hexdigest())

md5()返回的是md5对象，不是md5值，通过hexdigest()方法获取md5值。

md5计算时文件数据是放在内存中的,当我们计算一个大文件时，可以用update方法进行分步计算，每次添加部分文件数据进行计算，减少内存占用。

import hashlib

d5 = hashlib.md5()

with open('3.jpeg','rb') as f:

  while True:

      data = f.read(2024)

      if not data:

          break

      d5.update(data) #update添加时会进行计算

 print(d5.hexdigest()) #打印结果

Python 大文件处理的更多相关文章

python大文件读取
python大文件读取 https://stackoverflow.com/questions/8009882/how-to-read-a-large-file-line-by-line-in-pyt ...
python 大文件以行为单位读取方式比对
http://www.cnblogs.com/aicro/p/3371986.html 先前需要做一个使用python读取大文件(大于1G),并逐条存入内存进行处理的工作.做了很多的尝试,最终看到了如 ...
python大文件迭代器的流式读取，之前一直使用readlines()对于大文件可以迅速充满内存，之前用法太野蛮暴力，要使用xreadlines或是直接是f,
#!/usr/bin/env python #encoding=utf-8 import codecs count =0L #for line in file("./search_click ...
python 小程序大文件的拆分合并
1. 将大文件拆分为小文件 I 通过二进制的方式将大文件读取出来,将其拆分存,以不同的文件方式存放在一个目录下面 II 提供两种操作方式交互式和命令行模式 #! usr/bin/python # -* ...
Python逐块读取大文件行数的代码 - 为程序员服务
Python逐块读取大文件行数的代码 - 为程序员服务 python数文件行数最简单的方法是使用enumerate方法,但是如果文件很大的话,这个方法就有点慢了,我们可以逐块的读取文件的内容,然后按块 ...
如何使用Python读取大文件
背景最近处理文本文档时(文件约2GB大小),出现memoryError错误和文件读取太慢的问题,后来找到了两种比较快Large File Reading 的方法,本文将介绍这两种读取方法. 准备工作 ...
python下载大文件
1. wget def download_big_file_with_wget(url, target_file_name): """ 使用wget下载大文件 Note: ...
[源码]Python简易http服务器(内网渗透大文件传输含下载命令)
Python简易http服务器源码 import SimpleHTTPServerimport SocketServerimport sysPORT = 80if len(sys.argv) != 2 ...
Python读取大文件的"坑“与内存占用检测
python读写文件的api都很简单,一不留神就容易踩"坑".笔者记录一次踩坑历程,并且给了一些总结,希望到大家在使用python的过程之中,能够避免一些可能产生隐患的代码. 1. ...

随机推荐

tensorflow学习笔记(三)：实现自编码器
黄文坚的tensorflow实战一书中的第四章,讲述了tensorflow实现多层感知机.Hiton早年提出过自编码器的非监督学习算法,书中的代码给出了一个隐藏层的神经网络,本人扩展到了多层,改进了代 ...
orcle not like不建议使用（not like所踩过的坑！）
1.情景展示现在有一张表,需要将表中某字段的值不是以指定字符开头的列进行删除,如何实现? 2.问题分析错误方案一:同事想到的是:这种方式咱们来看一下,这个表总共有多少条数据本来表数据总共才 ...
Linux 就该这么学 CH07 使用RAID和LVM磁盘阵列技术
1 RAID (独立冗余磁盘阵列) RAID 技术通过把多个硬盘设备组合成一个容量更大.安全性更好的磁盘阵列,并把数据切割成多个区段之后分别存在各个不同的物理硬盘设备上,然后利用分散读写计数来提升磁盘 ...
hive 批量添加，删除分区
一.批量添加分区: use bigdata; alter table siebel_member add if not exists partition(dt='20180401') locati ...
PyCharm+SVN配置使用教程
一.说明去年写“PyCharm+Miniconda3安装配置教程”的时候就想把配置SVN的内容加上,但刚开始使用不是很清楚操作就先算了,然后到后边知道怎么操作之后觉得比较简单不写也可以. 一是昨天使 ...
DDR3（2）：初始化
调取 DDR3 IP核后,是不能直接进行读写测试的,必须先进行初始化操作,对 IP 核进行校验.本篇采用 Modelsim 软件配合 DDR3 IP核生成的仿真模型,搭建出 IP核的初始化过程. 一. ...
Codeforces Round #588 (Div. 1)
Contest Page 因为一些特殊的原因所以更得不是很及时-- A sol 不难发现当某个人diss其他所有人的时候就一定要被删掉. 维护一下每个人会diss多少个人,当diss的人数等于剩余人数 ...
『正睿OI 2019SC Day5』
网络流网络流的定义一个流网络\(G=(V,E)\)为一张满足以下条件的有向图: 每一条边有一个非负容量,即对于任意\(E\)中的\((u,v)\) , 有\(c(u,v)\geq0\). 如果\( ...
Jenkins部署git+python项目实现持续集成
目录 1. 创建 item 2. 配置 3. 构建 1. 创建 item 接下来填写创建任务的名字,并选择创建一个 Freestyle project ,点击确认. 2. 配置接下来进入到项目相关配 ...
论文笔记:LightGBM: A Highly Efficient Gradient Boosting Decision Tree
引言 GBDT已经有了比较成熟的应用,例如XGBoost和pGBRT,但是在特征维度很高数据量很大的时候依然不够快.一个主要的原因是,对于每个特征,他们都需要遍历每一条数据,对每一个可能的分割点去计算 ...