背景

前段时间在做一个算法测试,需要对源于日志的数据进行分析才能获取到结果;日志文件较大,所以想要获取数据的变化曲线,增量读取是最好的方式。

网上有很多人的技术博客都是写的用for循环readline以及一个计数器去增量读取,假如文件很大,遍历一次太久。而且对于很多大文件的增量读取,如果遍历每一行比对历史记录的输出或者全都加载到内存通过历史记录的索引查找,是非常浪费资源的,

获取文件句柄的基本理论中就包含指针操作。linux的文件描述符的struct里有一个f_pos的这么个属性,里面存着文件当前读取位置,通过这个东东经过vfs的一系列映射就会得到硬盘存储的位置了,所以很直接,很快。

在Python中的读取文件的方法也有类似的属性。

具体实现

Python中相关方法的核心函数如下:

函数 作用
tell() 返回文件当前位置
seek() 从指定位置开始读取信息

其中seek()有三种模式:

  • f.seek(p,0) 移动当文件第p个字节处,绝对位置
  • f.seek(p,1) 移动到相对于当前位置之后的p个字节
  • f.seek(p,2) 移动到相对文章尾之后的p个字节

参考代码:

#!/usr/bin/python
fd=open("test.txt",'r') #获得一个句柄
for i in xrange(1,3): #读取三行数据
fd.readline()
label=fd.tell() #记录读取到的位置
fd.close() #关闭文件
#再次阅读文件
fd=open("test.txt",'r') #获得一个句柄
fd.seek(label,0)# 把文件读取指针移动到之前记录的位置
fd.readline() #接着上次的位置继续向下读取

拓展

如何得知这个大文件行数,以及变化

我的想法:

方式1: 遍历'\n'字符。

方式2: 开始时就在for循环中对fd.readline()计数,变化的部分(用上文说的seek、tell函数做)再用for循环fd.readline()进行统计。

如何避免文件读取时,内存溢出

  • 可以通过 read 函数的chunk关键字来指定每次读区数据的大小
  • 使用生成器确保只有在数据被调用时才会生成

    具体方法封装如下:
def read_in_chunks(file_path,  chunk=100 * 100):  # 通过chunk指定每次读取文件的大小防止内存占用过大
file_object = open(file_path, "r")
while True:
data = file_object.read(chunk)
if not data:
file_object.close()
break
# 使用generator(生成器)使数据只有在被使用时才会迭代时占用内存
yield data

应用

20191129添加

根据博客园一个朋友的实际问题写的一段应用代码,解决程序运行异常、断点再读问题:

#! /usr/bin/python
# coding:utf-8
"""
@author:Bingo.he
@file: 20191129-file.py
@time: 2019/11/29
"""
import os
import glob class opened(object):
def __init__(self, filename):
self.filename = filename
self.handle = open(filename)
if filename in get_read_info().keys():
self.handle.seek(get_read_info()[filename], 0) def __enter__(self):
return self.handle def __exit__(self, exc_type, exc_value, exc_trackback):
seek_num = self.handle.tell()
set_read_info(self.filename, seek_num)
self.handle.close()
if exc_trackback is None:
print(f"文件【{self.filename}】读取正常退出。")
else:
print(f"文件【{self.filename}】读取退出异常!") def get_read_info():
"""
读取已读取的文件的句柄位置
:return:
"""
file_info = {} # 如果文件不存在则创建一个空文件
if not os.path.exists("temp"):
with open("temp", 'w', encoding="utf-8") as f:
pass
return file_info with open("temp", 'r', encoding="utf-8") as f:
datas = f.readlines()
for data in datas:
name, line = data.split("===")
file_info[name] = int(line)
return file_info def set_read_info(filename, seek_num):
"""
设置为已经读取的文件的句柄位置
:param filename: 文件名称
:param seek_num: 句柄位置
:return:
"""
flag = True
with open("temp", 'r', encoding="utf-8") as f:
datas = f.readlines()
for num, data in enumerate(datas):
if filename in data:
flag = False
datas[num] = f"{filename}==={seek_num}\n"
if flag:
datas.append(f"{filename}==={seek_num}\n")
# print(datas)
with open("temp", 'w', encoding="utf-8") as f:
f.writelines(datas) # 测试代码
# 注:文件读完之后,存储在temp文件中的,第二次读取时不会再读,可以以删除temp文件或者修改其中信息
pys = glob.glob("*.py") # 获取当前目录以Py结尾的文件 for py in pys:
with opened(py) as fp: # 默认为读模式
for line_data in fp:
print(line_data)

【Python】实现对大文件的增量读取的更多相关文章

  1. C# 读取大文件 (可以读取3GB大小的txt文件)

    原文:C# 读取大文件 (可以读取3GB大小的txt文件) 在处理大数据时,有可能 会碰到 超过3GB大小的文件,如果通过 记事本 或 NotePad++去打开它,会报错,读不到任何文件. 如果你只是 ...

  2. python 小程序大文件的拆分合并

    1. 将大文件拆分为小文件 I 通过二进制的方式将大文件读取出来,将其拆分存,以不同的文件方式存放在一个目录下面 II 提供两种操作方式交互式和命令行模式 #! usr/bin/python # -* ...

  3. python处理分隔大文件

    4个.sql格式的文件,2G大小,直接插入mysql数据中,文件太大了,导入不进去. 太大的文件用python处理也很麻烦,处理不了,只能先分隔成小文件处理. 文件中数据格式:其中values里面的数 ...

  4. python里如何计算大文件的md5

    在python3中,有了一个hashlib,可以用来计算md5,这里先给出一个简单的例子: import hashlib sstr="i love hanyu" print(has ...

  5. python实现将大文件夹分割成多个子文件夹

    楼主用的linux,一旦数据达到几万,文件夹打开就会变卡,同时也方便同时分工协作,便于git管理,写了个将大文件夹分割成多个小文件夹的脚本 如操作文件夹:img,脚本不破坏img的数据,创建img_1 ...

  6. python读写txt大文件

    直接上代码: import easygui import os path = easygui.fileopenbox()#path是打开的文件的全路径 if path:#如果选择打开文件,没有选择取消 ...

  7. rsync增量传输大文件优化技巧

    问题 rsync用来同步数据非常的好用,特别是增量同步.但是有一种情况如果不增加特定的参数就不是很好用了.比如你要同步多个几十个G的文件,然后网络突然断开了一下,这时候你重新启动增量同步.但是发现等了 ...

  8. python学习笔记之文件操作(三)

    这篇博客小波主要介绍一下python对文件的操作 对文件的操作主要分为三步: 1.打开文件获取文件的句柄,句柄也是文件描述符 2.通过文件句柄操作文件 3.关闭文件. 现有以下文件,是小波随写的周杰伦 ...

  9. ASP.NET Core下载大文件的实现

    当我们的ASP.NET Core网站需要支持下载大文件时,如果不做控制可能会导致用户在访问下载页面时发生无响应,使得浏览器崩溃.可以参考如下代码来避免这个问题. 关于此代码的几点说明: 将数据分成较小 ...

随机推荐

  1. 混合欧拉回路的判断(Dinic)

    POJ1637 Sightseeing tour Time Limit: 1000MS   Memory Limit: 10000K Total Submissions: 7483   Accepte ...

  2. JAVA学习基础知识总结(原创)

    (未经博主允许,禁止转载!) 一.基础知识:1.JVM.JRE和JDK的区别: JVM(Java Virtual Machine):java虚拟机,用于保证java的跨平台的特性. java语言是跨平 ...

  3. postgresql----唯一索引,表达式索引,部分索引

    一.唯一索引 唯一索引字面上理解就是在索引上增加唯一约束,不允许出现索引值相同的行,目前只有Btree索引可以声明唯一索引,唯一键会自动创建唯一索引. 测试表: test=# create table ...

  4. 静态绑定 self 和 static的区别

    后期静态绑定 自 PHP 5.3.0 起,PHP 增加了一个叫做后期静态绑定的功能,用于在继承范围内引用静态调用的类. 准确说,后期静态绑定工作原理是存储了在上一个“非转发调用”(non-forwar ...

  5. C#知识

    2018年10月29日 1.类可以定义的位置: (1)单独定义一个class,在program类的同一个文件内 (2)单独定义一个class,在program类的不同一个文件内 (3)类内定义clas ...

  6. Supermarket---poj456(贪心并查集优化)

    题目链接:http://poj.org/problem?id=1456 题意是现有n个物品,每个物品有一个保质期和一个利润,现在每天只能卖一个商品,问最大的利润是多少,商品如果过期了就不能卖了: 暴力 ...

  7. django的framework优化

    1.优化framework的性能,解决restapi调用慢的问题 ①预加载,关联查询时做缓存,序列化前简单调用setup_eager_loading ,这个需要确定sql查询调用情况(根据数据库结构确 ...

  8. 解决Eclipse中新建jsp文件总是以ISO8859-1编码问题

    eclipse --> window -->Preferences-->web-->jsp-->utf-8

  9. matplotlib常见绘图基础代码小结:折线图、散点图、条形图、直方图、饼图

    一.折线图 二.散点图 三.条形图 四.直方图 五.饼图 一.折线图折线图用于显示随时间或有序类别的变化趋势 from matplotlib import pyplot as plt x = rang ...

  10. 关于uuid与自增列的选择

    关于uuid与自增列的选择 在db交流群里看到有人提问,说他的userName 登录名是唯一的,可以用其做主键嘛,如果用自增列,那又要多一列. 后面又说,如果要用主键ID,用uuid会不会好一些呢?作 ...