第十二章 Python文件操作【转】

12.1 open()

open()函数作用是打开文件，返回一个文件对象。

用法格式：open(name[, mode[, buffering[,encoding]]]) -> file object

name 文件名

mode 模式，比如以只读方式打开

buffering 缓冲区

encoding 返回数据采用的什么编码，一般utf8或gbk

Mode	Description
r	只读，默认
w	只写，打开前清空文件内容
a	追加
a+	读写，写到文件末尾
w+	可读写，清空文件内容
r+	可读写，能写到文件任何位置
rb	二进制模式读
wb	二进制模式写，清空文件内容

例如：打开一个文件

>>> f = open('test.txt', 'r')

>>> f.

f.__class__( f.__new__( f.encoding f.readinto(

f.__delattr__( f.__reduce__( f.errors f.readline(

f.__doc__ f.__reduce_ex__( f.fileno( f.readlines(

f.__enter__( f.__repr__( f.flush( f.seek(

f.__exit__( f.__setattr__( f.isatty( f.softspace

f.__format__( f.__sizeof__( f.mode f.tell(

f.__getattribute__( f.__str__( f.name f.truncate(

f.__hash__( f.__subclasshook__( f.newlines f.write(

f.__init__( f.close( f.next( f.writelines(

f.__iter__( f.closed f.read( f.xreadlines(

open()函数打开文件返回一个文件对象，并赋予遍历f，f就拥有了这个文件对象的操作方法。

方法	描述
f.read([size])	读取size字节，当未指定或给负值时，读取剩余所有的字节，作为字符串返回
f.readline([size])	从文件中读取下一行，作为字符串返回。如果指定size则返回size字节
f.readlines([size])	读取size字节，当未指定或给负值时，读取剩余所有的字节，作为列表返回
f.write(str)	写字符串到文件
f.writelines(seq)	写序列到文件，seq必须是一个可迭代对象，而且要是一个字符串序列
f.seek(offset[, whence=0])	在文件中移动文件指针，从whence（0代表文件起始位置，默认。1代表当前位置。2代表文件末尾）偏移offset个字节
f.tell()	返回当前在文件中的位置
f.close()	关闭文件
f.flush	刷新缓冲区到磁盘

博客地址：http://lizhenliang.blog.51cto.com and https://yq.aliyun.com/u/lizhenliang
QQ群：323779636（Shell/Python运维开发群）

12.2 文件对象操作

写一个测试文件test.txt举例：

# cat test.txt

1.Python

2.Java

3.C++

4.Ruby

12.2.1 read()读取所有内容

>>> f = open('test.txt', 'r')

>>> f.read()

'1.Python\n2.Java\n3.C++\n4.Ruby\n'

# 获取指定字节

指定读取多少字节：

>>> f = open('test.txt', 'r')

>>> f.read(9)

'1.Python\n'

12.2.2 readline()读取下一行内容

>>> f = open('test.txt', 'r')

>>> f.readline()

'1.Python\n'

>>> f.readline()

'2.Java\n'

12.2.3 readlines()读取所有内容返回一个列表

>>> f = open('test.txt', 'r')

>>> f.readlines()

['1.Python\n', '2.Java\n', '3.C++\n', '4.Ruby\n']

12.2.4 wirte()写入字符串到文件

>>> f = open('test.txt', 'a') # 以追加方式打开文件

>>> f.write("5.Shell\n") # 这一步并没有真正写到文件

>>> f.flush() # 刷新到磁盘才写到文件

# cat test.txt

1.Python

2.Java

3.C++

4.Ruby

5.Shell

12.2.5 wirtelines()写入一个序列字符串到文件

>>> f = open('test.txt', 'a')

>>> f.writelines(['a','b','c'])

>>> f.flush()

# cat test.txt

1.Python

2.Java

3.C++

4.Ruby

5.Shell

abc

12.2.6 seek()从指定位置读取

>>> f = open('test.txt', 'r')

>>> f.tell()

>>> f.seek(9)

>>> f.tell()

>>> f.seek(5,1) # 1表示从当前位置开始

>>> f.tell()

12.2.7 tell()返回当前指针位置

>>> f = open('test.txt', 'r')

>>> f.tell()

>>> f.readline()

'1.Python\n'

>>> f.tell()

>>> f.readline()

'2.Java\n'

>>> f.tell()

>>> f.close() # 使用完后关闭文件

12.3 文件对象增删改查

在shell中，我们要想对文件指定行插入内容、替换等情况，使用sed工具很容易就实现。在本章节讲的open()函数并没有直接类似与sed工具的方法，要想实现这样的操作，变通的处理能到达此效果，主要思路是先读取内容修改，再写会文件，以下举几个常用的情况。

12.3.1 在第一行增加一行

例如：在开头添加一个test字符串

#!/usr/bin/python

# -*- coding: utf-8 -*-

f = open('test.txt', 'r')

data = f.read()

data = "test\n" + data

f = open('test.txt', 'w')

f.write(data)

f.flush()

f.close()

# python test.py

# cat test.txt

test

1.Python

2.Java

3.C++

4.Ruby

先将数据读出来，然后把要添加的test字符串拼接到原有的数据，然后在写入这个文件。

12.3.2 在指定行添加一行

例如：在第二行添加一个test字符串

#!/usr/bin/python

# -*- coding: utf-8 -*-

f = open('test.txt', 'r')

data_list = f.readlines() # 经测试，此方法比下面迭代效率高

# data_list = []

# for line in f:

# data_list.append(line)

data_list.insert(1, 'test\n')

# data = ''.join(data)

f = open('test.txt', 'w')

# f.write(data)

f.writelines(data_list)

f.flush()

f.close

# python test.py

# cat test.txt

1.Python

test

2.Java

3.C++

4.Ruby

先将数据以列表存储，就可以根据下标插入到指定位置，也就是哪一行了。再通过join把列表拼接成字符串，最后写到文件。

12.3.3 在匹配行前一行或后一行添加test字符串

#!/usr/bin/python

# -*- coding: utf-8 -*-

f = open('test.txt', 'r')

data_list = f.readlines()

data_list.insert(2-1, 'test\n') # 在指定行减去一行就是上一行了，下一行插入同理

f = open('test.txt', 'w')

f.writelines(data_list)

f.flush()

f.close

12.3.4 删除指定行

例如：删除第三行，与在指定行添加同理

#!/usr/bin/python

# -*- coding: utf-8 -*-

f = open('test.txt', 'r')

data_list = f.readlines()

data_list.pop(2)

f = open('test.txt', 'w')

f.writelines(data_list)

f.flush()

f.close

例如：只保留第一行至第三行

#!/usr/bin/python

# -*- coding: utf-8 -*-

f = open('test.txt', 'r')

data_list = f.readlines()[0:2] # 列表切片

f = open('test.txt', 'w')

f.write(data_list)

f.flush()

f.close

12.3.5 删除匹配行

例如：删除匹配Py字符的行

#!/usr/bin/python

# -*- coding: utf-8 -*-

f = open('test.txt', 'r')

data = f.readlines()

# data_list = []

# for line in data:

# if line.find('Py') == -1: # 如果当前行不包含Py字符，会返回-1，否则返回下标

# data_list.append(line)

data_list = [line for line in data if line.find('Py') == -1]

f = open('test.txt', 'w')

f.writelines(data_list)

f.flush()

f.close

12.3.6 全局替换字符串

#!/usr/bin/python

# -*- coding: utf-8 -*-

f = open('test.txt', 'r')

data = f.read()

data.replace('old string', 'new string')

f = open('test.txt', 'w')

f.write(data)

f.flush()

f.close

12.3.7 在指定行替换字符串

例如：将C++改为C#

#!/usr/bin/python

# -*- coding: utf-8 -*-

f = open('test.txt', 'r')

data = f.readlines()

data_list = []

for line in data:

if data.index(line) == 2:

data_list.append(line.replace('++', '#'))

else:

data_list.append(line)

f = open('test.txt', 'w')

f.writelines(data_list)

f.flush()

f.close

12.3.8 处理大文件

在读取上G文件时，直接读取所有内容会导致内存占用过多，内存爆掉。要想提高处理效率，有以下两种方法：

方法1：open()打开文件返回的对象本身就是可迭代的，利用for循环迭代可提高处理性能

>>> f = open('test.txt')

>>> for line in f:

... print line # 每行后面会有一个换行符\n，所以会打印出来换行符，可以使用line.strip('\n')去除

...

1.Python

2.Java

3.C++

4.Ruby

方法2：每次只读取固定字节

#!/usr/bin/python

# -*- coding: utf-8 -*-

f = open('test.txt')

while True:

data = f.read(1024) # 每次只读取1024字节

if not data: break

12.3.9 下载文件

方法1：

import urllib

url = "http://nginx.org/download/nginx-1.10.1.tar.gz"

urllib.urlretrieve(url, "nginx-1.10.1.tar.gz")

方法2：

import urllib2

url = "http://nginx.org/download/nginx-1.10.1.tar.gz"

f = urllib2.urlopen(url).read()

with open("nginx-1.10.1.tar.gz", "wb") as data:

data.write(f)

12.4 fileinput

fileinput模块是Python内建模块，用于遍历文件，可对多文件操作。

方法	描述
fileinput.input([files[, inplace[, backup[, mode[, openhook]]]]])	files：文件路径，多文件这样写['1.txt,'2.txt''] inplace：是否将标准输出写到原文件，默认是0，不写 backup：备份文件扩展名，比如.bak mode：读写模式，默认r，只读 openhook：
fileinput.isfirstline()	检查当前行是否是文件的第一行
fileinput.lineno()	返回当前已经读取行的数量
fileinput.fileno()	返回当前文件数量
fileinput.filelineno()	返回当前读取行的行号
fileinput.filename()	返回当前文件名

12.4.1 遍历文件内容

#!/usr/bin/python

# -*- coding: utf-8 -*-

import fileinput

for line in fileinput.input('test.txt'):

print line

# python test.py

1.Python

2.Java

3.C++

4.Ruby

12.4.2 返回当前读取行的行号

#!/usr/bin/python

# -*- coding: utf-8 -*-

import fileinput

for line in fileinput.input('test.txt'):

print fileinput.filelineno()

print line, # 逗号忽略换行符

# python test.py

1.Python

2.Java

3.C++

4.Ruby

12.4.3 全局替换字符，修改原文件

#!/usr/bin/python

# -*- coding: utf-8 -*-

import fileinput

for line in fileinput.input('test.txt', backup='.bak', inplace=1):

line = line.replace('++','#')

print line,

先把要操作的文件备份一个以.bak的后缀文件，inplace=1是将标准输出写到原文件，也就是这个脚本如果没有标准输出，就会以空数据写到原文件。

12.4.4 对多文件操作

#!/usr/bin/python

# -*- coding: utf-8 -*-

import fileinput

for line in fileinput.input(['test.txt', 'test2.txt']):

print line,

12.4.5 实时读取文件新增内容，类似tail -f

#!/usr/bin/python

# -*- coding: utf-8 -*-

with open('access.log') as f:

f.seek(0,2) # 每次打开文件都将文件指针移动到末尾

while True:

line = f.readline()

if line:

print line,

这个死循环会一直执行下面的操作。很消耗性能。

我们可以加个休眠，每秒读取一次：

#!/usr/bin/python

# -*- coding: utf-8 -*-

import time

with open('access.log') as f:

f.seek(0,2)

while True:

line = f.readline()

if line:

print line,

else:

time.sleep(1)

12.5 shutil

shutil模块是Python内建模块，用于文件或目录拷贝，归档。

方法	描述
shutil.copyfile(src, dst)	复制文件
shutil.copytree(src, dst)	复制文件或目录
shutil.move(src, dst)	移动文件或目录
shutil.rmtree(path,ignore_errors=False, onerror=None)	递归删除目录。os.rmdir()不能删除有文件的目录，就可以用这个了
shutil.make_archive(base_name, format, root_dir=None, base_dir=None, verbose=0, dry_run=0, owner=None, group=None, logger=None)	Python2.7以后才有这个方法。功能是创建zip或tar归档文件。 base_name：要创建归档文件名 format：归档文件格式，有zip、tar、bztar、gztar root_dir：要压缩的目录 base_dir：？用法：shutil.make_archive('wp','zip','/root/wordpress')

12.6 with语句

在处理一些事务时，可能会出现异常和后续的清理工作，比如读取失败，关闭文件等。这就用到了异常处理语句try...except，如下：

#!/usr/bin/python

# -*- coding: utf-8 -*-

f = open('test.txt')

try:

data = f.read()

finally:

f.close()

Python对于这种情况提供了一种更简单的处理方式，with语句。处理一个文件时，先获取一个文件句柄，再从文件中读取数据，最后关闭文件句柄。如下：

#!/usr/bin/python

# -*- coding: utf-8 -*-

with open('test.txt') as f:

data = f.read()

转自

第十二章 Python文件操作-云栖社区-阿里云 https://yq.aliyun.com/articles/64777?spm=a2c4e.11155435.0.0.54a15d013hSThj

第十二章 Python文件操作【转】的更多相关文章

[Python学习笔记][第七章Python文件操作]
2016/1/30学习内容第七章 Python文件操作文本文件文本文件存储的是常规字符串,通常每行以换行符'\n'结尾. 二进制文件二进制文件把对象内容以字节串(bytes)进行存储,无法用笔 ...
第9章 Python文件操作目录
第9章 Python文件操作第9.1节 Python的文件打开函数open简介第9.2节 Python的文件打开函数open详解第9.3节 Python的文件行读取:readline 第9.4节 ...
第九章 Python文件操作
前一阵子写类相关的内容,把老猿写得心都累了,本来准备继续介绍一些类相关的知识的,如闭包.装饰器.描述符.枚举类.异常等,现在实在不想继续,以后再开章节吧.本章弄点开胃的小菜提提神,介绍Python中文 ...
Python 学习笔记（十二）Python文件和迭代（二）
迭代基本含义迭代是重复反馈过程的活动,其目的通常是为了接近并到达所需的目标或结果.每一次对过程的重复被称为一次“迭代”,而每一次迭代得到的结果会被用来作为下一次迭代的初始值. 在计算科学中,迭代 ...
Python 学习笔记（十二）Python文件和迭代（一）
文件文件和文件夹文件:文本文件.二进制文件文件夹:(windows) G:\pythonWorkspace\python\study (linux/mac) /home/workspace/py ...
第十二章 Python网络编程
socket编程 socket是应用层与TCP/IP协议族通信的中间软件抽象层,它是一组接口.它把复杂的TCP/IP协议族隐藏在Socket接口后面,对用户来说,一组简单的接口就是全部,让Socket ...
第十二章 Python标准库内置模块和包简介
在<第十章 Python的模块和包>老猿详细介绍了Python模块和包的相关概念,模块和包是Python功能扩展的重要手段,也是Python开放的重要特征.为了提供强大的能力,Python ...
进击的Python【第十二章】：mysql介绍与简单操作，sqlachemy介绍与简单应用
进击的Python[第十二章]:mysql介绍与简单操作,sqlachemy介绍与简单应用一.数据库介绍什么是数据库? 数据库(Database)是按照数据结构来组织.存储和管理数据的仓库,每个数 ...
python 教程第十二章、标准库
第十二章. 标准库 See Python Manuals ? The Python Standard Library ? 1) sys模块 import sys if len(sys.argv) ...

随机推荐

git 放弃merge 回到上一次commit
用git reset --hard 放弃正在合并中merge,返回上一次的commit
linux下载并安装redis
1 到http://redis.io/download 官网下下载最新稳定的redis 2 下载的redis安装包移动到要安装的位置 3 解压安装包 tar zxvf redis-3.0.5.tar. ...
windows nginx
nginx.exe -s stop stop是快速停止nginx,可能并不保存相关信息: nginx.exe -s quit quit是完整有序的停止nginx,并保存相关信息. nginx.exe ...
【转】TCP之深入浅出send和recv
本篇我们用一个测试机上的阻塞socket实例来说明主题.文章中所有图都是在测试系统上现截取的. 需要理解的3个概念 1. TCP socket的buffer 每个TCP socket在内核中都有一个发 ...
Python标准库-datatime和time
Python标准库-datatime和time 作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.标准库datatime 1>.datatime模块 #!/usr/bin/e ...
linux 进程管理与调度（一）
进程结构进程在内核的源代码中以结构体表示,篇幅很长,在此列举一小段关键代码,可以发现是个双向链表,具体的可以在内核目录下找一个叫"sched.h"的头文件. struct tas ...
goroutine的使用与常见错误
goroutine的使用时常见错误 goroutine是Golang 的核心之一,在使用时,一般都要配合channel一起使用. 在使用时,经常会遇到一些错误,包括: 不输出输出与希望输出不一致 a ...
PTA-多项式A除以B
多项式A除以B 这仍然是一道关于A/B的题,只不过A和B都换成了多项式.你需要计算两个多项式相除的商Q和余R,其中R的阶数必须小于B的阶数. 输入格式: 输入分两行,每行给出一个非零多项式,先给出A, ...
1209 BBS 登录
目录上周内容今日内容 url.py views.py login home.html 逻辑流程登录功能上周内容 bbs项目项目开发流程需求分析架构设计分组开发我们一般情况下都只是作用 ...
Shell排序——软考（五）
希尔排序是一种插入排序,是对直接插入排序的一种改进,该算法出自于D.L.Shell,因此得名为希尔.Shell排序又名缩小增量排序. 思想假设初始序列为n个元素,先取一个小于n的整数d1作 ...

第十二章 Python文件操作【转】

第十二章 Python文件操作【转】的更多相关文章

随机推荐

热门专题