针对格式文件,Python读取一定大小的文件内容
由数据库导出的数据是格式化数据,如下所示,每两个<REC>之间的数据是一个记录的所有字段数据,如<TITLE>、<ABSTRACT>、<SUBJECT_CODE>。但是每条记录中可能某些字段信息为空,
在导出的文本文件中,就会缺失这个字段,如记录3,缺失<ABSTRACT>这个字段,记录4,缺失<SUBJECT_CODE>这个字段。
<REC>(记录1)
<TITLE>=Regulation of the protein disulfide proteome by mitochondria in mammalian cells.
<ABSTRACT>=The majority of protein disulfides in cells is considered an important inert structural, rather than a dynamic regulatory, determinant of protein function.
<SUBJECT_CODE>=A006_8;D050_42;A006_62
<REC>(记录2)
<TITLE>=Selective control of cortical axonal spikes by a slowly inactivating K+ current.
<ABSTRACT>=Neurons are flexible electrophysiological entities in which the distribution and properties of ionic channels control their behaviors.
<SUBJECT_CODE>=E057_6;E062_318;I135_46
<REC>(记录3)
<TITLE>=Coupling of hydrogenic tunneling to active-site motion in the hydrogen radical transfer catalyzed by a coenzyme B12-dependent mutase.
<SUBJECT_CODE>=B016_11;B014_32;B014_54
<REC>(记录4)
<TITLE>=Hyaluronic acid hydrogel for controlled self-renewal and differentiation of human embryonic stem cells.
<ABSTRACT>=Control of self-renewal and differentiation of human ES cells (hESCs) remains a challenge.
<REC>(记录5)
<TITLE>=Biologically inspired crack trapping for enhanced adhesion.
<ABSTRACT>=We present a synthetic adaptation of the fibrillar adhesion surfaces found in nature.
<SUBJECT_CODE>=A004_57;B022_73;C034_22
<REC>(记录6)
<TITLE>=Identification of a retroviral receptor used by an envelope protein derived by peptide library screening.
<ABSTRACT>=This study demonstrates the power of a genetic selection to identify a variant virus that uses a new retroviral receptor protein.
<SUBJECT_CODE>=A006_8;E059_A;E059_5
1、从数据库中导出数据时,一些表格的导出文件(txt文本文件),占用空间会在3-4G个左右,无法直接读入内存;
2、通过python的linecache模块的getlines函数读取600M以上的文本文件时,有时会因为PC当时的运行情况,内存不足等原因,读取得到的内容为空;
备注:linecache模块的getlines()函数最终是调用file.readlines()函数来一次读取数据的,如果文件过大,getlines函数会返回一个空链表作为结果。
3、逐行读取文本内容,一是不方便后续的处理流程,后续流程需要对每条记录的数据进行处理,而非对每行数据进行处理;二是逐行读取文本内容,速度较慢;
因此,有必要针对这类格式文件,设计一种可以读取一定大小,并且这段文本中的记录都是完整的,不会出现最后一个记录只有部分字段数据;
实现代码如下:
#!/usr/bin/env python
# -*- coding: utf-8 -*-
# -*- coding: GBK -*-
import os
import sys
from time import time REC_STR = '<REC>' def read_text_in_buffer_multi_line(fd,length,label):
BUFFER = []
fd.seek(label,0)#根据新的label设置文件位置
flag = 0
line = '' BUFFER = fd.readlines(length)#读取一定大小的文本,并存放在BUFFER中
line = fd.readline()#读取下一行,用于判断文件是否结束
if not line:
flag = 1 label = fd.tell()#获取当前的文件位置 if flag == 0:#如果文件没有结束,则将BUFFER中最后一个<REC>之后的数据丢弃;否则则直接返回BUFFER
BUFFER_POST = [] while True:
temp = BUFFER.pop()#丢弃数据 if temp.startswith(REC_STR) == False:#判断是否为<REC>
BUFFER_POST.append(temp)
else:#是<REC>,结束循环
BUFFER_POST.append(temp)
break len_buf_post = len(''.join(BUFFER_POST))#获取到丢弃的数据的字节数目
label = label - len_buf_post - len(line)#当前位置减去丢弃的字节数目,再减去多读取的一行的数据的字节数目
return BUFFER,label if __name__ == "__main__":
filename = "Data\\SJWD_U.txt"
fd = open(filename,'rb')
label = 0
readlen = 100000*210#待读取的字节数目
fout = open("out.txt",'w') begin = time()
while True:
buffer_list,label = read_text_in_buffer_multi_line(fd,readlen,label)
if buffer_list == []:
break
else:
fout.writelines(buffer_list)
end = time()
print "time:",(end - begin)
fd.close()
fout.close()
针对格式文件,Python读取一定大小的文件内容的更多相关文章
- python读取txt批量创建文件
python读取txt批量创建文件 pythonbatchfile 前几天有个小问题, 需要批量建立很多文件夹,, 所以手动写了个小的脚本, 后续可以直接使用 读取目录文件, 然后直接创建相应的文件 ...
- 编写Java程序,在硬盘中选取一个 txt 文件,读取该文档的内容后,追加一段文字“[ 来自新华社 ]”,保存到一个新的 txt 文件内
查看本章节 查看作业目录 需求说明: 在硬盘中选取一个 txt 文件,读取该文档的内容后,追加一段文字"[ 来自新华社 ]",保存到一个新的 txt 文件内 实现思路: 创建 Sa ...
- python读取和写入csv文件
读取csv文件: def readCsv(): rows=[] with file(r'E:\py\py01\Data\system.csv','rb') as f: reads=csv.reader ...
- python读取并写入mat文件
用matlab生成一个示例mat文件: clear;clc matrix1 = magic(5); matrix2 = magic(6); save matData.mat 用python3读取并写入 ...
- python 读取mysql存储的文件路径下载文件,内容解析,上传七牛云,内容入es
#!/usr/bin/env python # -*- coding: utf-8 -*- import ConfigParser import json import os import re fr ...
- python 读取csv中的文件,从sftp下载文件
需要从sftp上下载一些图片文件,文件名存放在一个csv文件中.代码如下: # -*- coding:utf-8 -*- import paramiko import csv import os de ...
- python读取、写入txt文本内容
转载:https://blog.csdn.net/qq_37828488/article/details/100024924 python常用的读取文件函数有三种read().readline().r ...
- linux shell 脚本 历史文件清理脚本,按天,按月,清理前N天的历史文件,删除指定大小历史文件,历史文件归档清理
不知道大家那有没有要清理的这个事情.需要清理目录历史文件.可能后续也会有很多其他地方需要清理历史文件,可能会用到. 我这两天空闲写了个脚本,清理比较方便,有要进行清理的大量历史文件的话可以用. 脚本用 ...
- Linux下删除空文件,删除指定大小的文件
Linux下批量删除空文件(大小等于0的文件)的方法: find . -name "*" -type f -size 0c | xargs -n 1 rm -f 用这个还可以删除指 ...
随机推荐
- 0_MVC+EF+Autofac(dbfirst)轻型项目框架_基本框架
前言 原来一直使用他人的开源项目框架,异常的定位会很麻烦,甚至不知道这个异常来自我的代码还是这个框架本身.他人的框架有一定的制约性,也有可能是我对那些框架并没深入了解,因为这些开源框架在网上也很难找到 ...
- 使用canal分析binlog(二) canal源码分析
在能够跑通example后有几个疑问 1. canal的server端对于已经读取的binlog,client已经ack的position,是否持久化,保存在哪里 2. 即使不启动zookeeper, ...
- Eclipse 双击变量,其他相同变量有底色
转载:http://blog.csdn.net/majian_1987/article/details/46691697 方便下次查找. 在Eclipse中,鼠标选中或者光标移动到Java类的变量名时 ...
- Spark源码编译并在YARN上运行WordCount实例
在学习一门新语言时,想必我们都是"Hello World"程序开始,类似地,分布式计算框架的一个典型实例就是WordCount程序,接触过Hadoop的人肯定都知道用MapRedu ...
- ios设备中openGL所支持的最大纹理尺寸
这几天碰到一个在iphone4上显示图片未黑色矩形的bug,在其他机器上都正常 最后发现是图片打包尺寸的关系,iphone4无法读取2048以上大小的单个图片,所以其中的图片都显示成了黑色,希望对碰到 ...
- Linux_10个需要了解的Linux网络和监控命令(转)
源文地址:http://www.linuxde.net/2013/10/15325.html 1. hostname hostname 没有选项,显示主机名字 hostname –d 显示机器所属域名 ...
- LabVIEW 吸星大法 - 看见的好东西都是我的(下篇)
前言 写了多年的LabVIEW程序,你是否面临这样的问题 总是在做一些重复的工作,感觉很没有意思: 总在不停的写代码,做类似的控件,实现相同的功能,丝毫没有成就感: 总在天加班,没有时间去提高自己; ...
- 今年第一季全球PC出貨量同比下降5.2%
市場調研公司Gartner上周發佈報告稱,隨著企業支出的下滑,今年第一季全球PC出貨量同比下降5.2%迪士尼美語評價.英特爾稱,第一季筆記本晶片出貨量同比增長3%,但是筆記本晶片的平均銷售價格下降了3 ...
- Linux 系统的初始化配置
1.零时配置网卡IP地址 2.配置永久生效IP地址 需要进如 cd /etc/sysconfig/network-scripts 找到网卡文件编辑 3.零时主机名的更改. 4.永久主机名的更 ...
- window.location事件
一.最外层top跳转页面,适合用于iframe框架集 top.window.location.href("${pageContext.request.contextPath}/Login_g ...