python linecache读取过程

最近使用Python编写日志处理脚本时，对Python的几种读取文件的方式进行了实验。其中，linecache的行为引起了我的注意。

Python按行读取文件的经典方式有以下几种：

with open('blabla.log', 'r') as f:

    for line in f.readlines():

        ## do something

with open('blabla.log', 'r') as f:

    for line in f:

      ## do something

with open('blabla.log', 'r') as f:

    while 1:

        line = f.readline()

        if not line:

          break

        ## do something

以上几种方式都不支持对于文件按行随机访问。在这样的背景下，能够支持访直接访问某一行内容的linecache模块是一种很好的补充。

我们可以使用linecache模块的getline方法访问某一具体行的内容，官方文档中给出了如下用法：

>>> import linecache

>>> linecache.getline('/etc/passwd', 4)

在使用过程中我注意到，基于linecache的getline方法的日志分析会在跑满CPU资源之前首先占用大量内存空间，也就是在CPU使用率仍然很低的情况下，内存空间就会被迅速地消耗。

这一现象引起了我的兴趣。我猜测linecache在随机读取文件时，是首先依序将文件读入内存，之后寻找所要定位的行是否在内存当中。若不在，则进行相应的替换行为，直至寻找到所对应的行，再将其返回。

对linecache代码的阅读证实了这一想法。

在linecache.py中，我们可以看到getline的定义为：

def getline(filename, lineno, module_globals=None):

    lines = getlines(filename, module_globals)

    if 1 <= lineno <= len(lines):

        return lines[lineno-1]

    else:

        return ''

不难看出，getline方法通过getlines得到了文件行的List，以此来实现对于文件行的随机读取。继续查看getlines的定义。

def getlines(filename, module_globals=None):

    """Get the lines for a file from the cache.

    Update the cache if it doesn't contain an entry for this file already."""

    if filename in cache:

        return cache[filename][2]

    else:

        return updatecache(filename, module_globals)

由此可见，getlines方法会首先确认文件是否在缓存当中，如果在则返回该文件的行的List，否则执行updatecache方法，对缓存内容进行更新。因此，在程序启动阶段，linecache不得不首先占用内存对文件进行缓存，才能进行后续的读取操作。

而在updatecache方法中，我们可以看到一个有趣的事实是：

def updatecache(filename, module_globals=None):

    """Update a cache entry and return its list of lines.

    If something's wrong, print a message, discard the cache entry,

    and return an empty list."""

    ## ... 省略...

    try:

        fp = open(fullname, 'rU')

        lines = fp.readlines()

        fp.close()

    except IOError, msg:

##      print '*** Cannot open', fullname, ':', msg

        return []

    if lines and not lines[-1].endswith('\n'):

        lines[-1] += '\n'

    size, mtime = stat.st_size, stat.st_mtime

    cache[filename] = size, mtime, lines, fullname

    return lines

也就是说，linecache依然借助了文件对象的readlines方法。这也给了我们一个提示，当文件很大不适用readlines方法直接获取行的List进行读取解析时，linecache似乎也并不会成为一个很好的选择。

python linecache读取过程的更多相关文章

python linecache模块读取文件的方法
转自: python linecache模块读取文件在Python中,有个好用的模块linecache,该模块允许从任何文件里得到任何的行,并且使用缓存进行优化,常见的情况是从单个文件读取多行. l ...
Delphi中使用python脚本读取Excel数据
Delphi中使用python脚本读取Excel数据2007-10-18 17:28:22标签:Delphi Excel python原创作品,允许转载,转载时请务必以超链接形式标明文章原始出处 . ...
【原创】控制perl和python脚本执行过程中脚本文件是否关闭的方法
引子跟踪perl和python脚本对文件的访问,实际过程中,perl和python解析器在解析完脚本后,直接关闭了脚本文件,在进程中查询不到是访问文件的脚本文件名称. shell.perl和pyt ...
python配置文件读取
在代码实现的过程中,我们经常选择将一些固定的参数值写入到一个单独的配置文件中.在python中读取配置文件官方提供了configParser方法. 主要有如下方法(找官文): (这家伙很懒,直接复 ...
Linux环境下Python的安装过程
Linux环境下Python的安装过程前言一般情况下,Linux都会预装 Python了,但是这个预装的Python版本一般都非常低,很多 Python的新特性都没有,必须重新安装新一点的版本,从 ...
python下读取excel文件
项目中要用到这个,所以记录一下. python下读取excel文件方法多种,用的是普通的xlrd插件,因为它各种版本的excel文件都可读. 首先在https://pypi.python.org/py ...
Python逐块读取大文件行数的代码 - 为程序员服务
Python逐块读取大文件行数的代码 - 为程序员服务 python数文件行数最简单的方法是使用enumerate方法,但是如果文件很大的话,这个方法就有点慢了,我们可以逐块的读取文件的内容,然后按块 ...
python专题-读取xml文件
关于python读取xml文章很多,但大多文章都是贴一个xml文件,然后再贴个处理文件的代码.这样并不利于初学者的学习,希望这篇文章可以更通俗易懂的教如何使用python 来读取xml 文件. 什么是 ...
【Netty源码分析】数据读取过程
首先客户端连接到服务端时服务端会开启一个线程,不断的监听客户端的操作.

随机推荐

IOS KVO的实现原理
#import "HMViewController.h" #import "HMPerson.h" @interface HMViewController () ...
【JeeSite】角色分配
主要是(roleAssign.jsp , selectUserToRole.jsp )2个jsp页面的JS方法调用比较复杂,主页面要获取弹窗页面的数据 var pre_ids = h.find(&qu ...
js实现div滚动条在页面刷新滚动条位置固定
思想:1.通过div的onscroll事件记录滚动条的scrollTop值,设置到document.cookie 2.页面加载时再读取document.cookie的值,设置给div的scrollTo ...
【luogu P1962 斐波那契数列】题解
题目链接:https://www.luogu.org/problemnew/show/P1962 给你篇dalao的blog自己看吧,把矩阵快速幂的板子一改就OK #include <algor ...
【luogu P1004 方格取数】题解
题目链接:https://www.luogu.org/problemnew/show/P1004 标准的DP,不明白为什么有普及+提高的难度四维DP[i][j][k][l] 表示第一遍走到i,j格子 ...
postman发送HTTP请求自动生成MD5签名
POSTMAN是常用的接口测试工具如何进行MD5签名呢? 代码如下: /** * 通过request.data获取body的内容,这个是postman内置变量 * 常用内置参数如下: * reque ...
LeetCode3.无重复字符的最长子串 JavaScript
给定一个字符串,请你找出其中不含有重复字符的最长子串的长度. 示例 1: 输入: "abcabcbb" 输出: 3 解释: 因为无重复字符的最长子串是 "abc&qu ...
Unity 游戏框架搭建 (十二) 简易AssetBundle打包工具(二)
上篇文章中实现了基本的打包功能,在这篇我们来解决不同平台打AB包的问题. 本篇文章的核心api还是: BuildPipeline.BuildAssetBundles (outPath, 0, Edit ...
iOS之一个iOS开发人员完整的学习路线
iOS开发能力掌握(最好是精通)OC语言和runtime各种细节(读过相关的clang源码和runtime源码为佳).精通基本的framework(Foundation,UIKit等,平时干活用得最 ...
flask笔记(一)
1.第一个flask项目 # 首先你要安装flask这个模块 pip install flask # 安装好了之后,直接新建一个py文件,开始写最简单的flask项目了 from flask impo ...

python linecache读取过程

python linecache读取过程的更多相关文章

随机推荐

热门专题