python之文件读写详解

前言

文件读写可以说是最常用的功能之一，总结一下python内置的读写文件的方法。

打开文件

open

def open(file, mode='r', buffering=None, encoding=None, errors=None, newline=None, closefd=True):

    pass

参数说明：

file：文件路径,可以是相对路径，也可以是绝对路径
mode: 文件的读写方式，默认‘r’，只读方式；
buffering：设置缓冲策略，0用于二进制文件，1为行缓冲，用于文本模式；默认二进制文件固定大小缓冲，文本文件行缓冲
encoding：设置编码，默认utf-8;该参数不能用于二进制模式；
errors：设置怎么处理文件的编码异常，默认strict,发生错误抛出异常；设置ignore忽略编码异常，可能导致数据丢失，这个参数不能用于二进制模式；
newline：设置换行符，默认换行符为'\n','\r','\r\n',写入文件的时候，所有文本中的上述三种都会转换成'\n'换行符；当设置为''时，也启用默认模式；如果设置其它合法值，则使用其他值，一般不用；
closefd=True ：设置文件描述符的状态，当为False时，文件关闭但描述符不关闭，但是打开文件时指定了文件名，那么设置False不会起作用。

文件打开方式介绍

r:	以只读方式打开文件。文件的指针将会放在文件的开头。这是默认模式。

w:	打开一个文件只用于写入。如果该文件已存在则将其覆盖。如果该文件不存在，创建新文件。

a:	打开一个文件用于追加。如果该文件已存在，文件指针将会放在文件的结尾。也就是说，新的内容将会被写入到已有内容之后。如果该文件不存在，创建新文件进行写入。

x:  创建一个新文件，将其打开并编写；如果文件已经存在报错；

rb:	以二进制格式打开一个文件用于只读。文件指针将会放在文件的开头。这是默认模式。

wb:	以二进制格式打开一个文件只用于写入。如果该文件已存在则将其覆盖。如果该文件不存在，创建新文件。

ab:	以二进制格式打开一个文件用于追加。如果该文件已存在，文件指针将会放在文件的结尾。也就是说，新的内容将会被写入到已有内容之后。如果该文件不存在，创建新文件进行写入。

r+:	打开一个文件用于读写。文件指针将会放在文件的开头。

w+:	打开一个文件用于读写。如果该文件已存在则将其覆盖。如果该文件不存在，创建新文件。

a+:	打开一个文件用于读写。如果该文件已存在，文件指针将会放在文件的结尾。文件打开时会是追加模式。如果该文件不存在，创建新文件用于读写。

rb+:以二进制格式打开一个文件用于读写。文件指针将会放在文件的开头。

wb+:以二进制格式打开一个文件用于读写。如果该文件已存在则将其覆盖。如果该文件不存在，创建新文件。

ab+:以二进制格式打开一个文件用于追加。如果该文件已存在，文件指针将会放在文件的结尾。如果该文件不存在，创建新文件用于读写。

关闭文件

close()

f = open(file)

f.close()

注意：

由于文件每次打开都需要调用Close函数关闭，可以使用上下文管理器管理文件，其会自动在适当的时候关闭文件。

with open(filename) as f:

    f.read()

文件普通读写

读

方法一：read()

with open(filename) as f:

    f.read()  # 一次性读取全部，在大文件这是不可取的

    f.read(5) # 读取5个字节，如果使用UTF-8编码，5表示5个汉字，也表示5个字母。

    f.read(6) # 同一个f对象，多次读取时在上一次的基础上继续往下，如果超过则有多少读多少

方法二：readline()

with open(filename) as f:

    f.readline()  # 按行来读取，每次返回一行，

    f.readline()  # 多次读取在上一行的基础上往下，换行符也会被读取

方法三：readlines()

with open(filename) as f:

    t = f.readlines()  # 按行读取全部的内容作为一个列表返回

方法四：直接遍历打开的文件对象，按行读取

with open('./test.txt','r+') as f:

      for line in f:

           print(line)

方法五：使用linecache模块

import linecache

line = linecache.getline(filename,5)  # 读取文件第五行的数据

说明：getline方法主要用来获取特定的行的内容，当多次读取文件不规则行的时候该方法能提高效率，因为其将文件的内容缓存了一份在内存中，不用每次去磁盘读取，减少了IO，但这也意味着当读取很大的文件的时候，内存消耗十分严重，因为getline内部使用了readlines方法；大文件可能造成内存溢出。

readable()方法可以用来判断文件是否可读

写

方法一：write()

with open(filename,'w',encoding='utf-8') as f:

    t = f.write('ddd') # 将内容写入，必须是字符串格式，不可以是数字，返回的是字符串的个数，包括了换行符\r\n占两个字符（windows）,占一个字符\n(linux)。

    t = f.write('aaa') # 多次写入在原来的基础上继续写入

方法二：writelines()

with open(filename,'w',encoding='utf-8') as f:

    f.writelines(['aa','bb'])  # 该方法自动将列表元素拼接起来写入文件，参数时一个可迭代对象，列表、字典、集合都可以

writeable()可以判断打开的文件对象f究竟是可读的还是可写的。

注意的问题

f.write(123):这种是不被允许的，必须转化成二进制或字符串；
open(filename,'rb',encoding='utf-8'):以二进制格式打开文件是不能指定编码的，否则报错
以二进制格式打开文件，写入的必须是字节文件，同时写入返回的是字节数；以文本模式打开，写入的必须是文本，同时返回的是字符串个数；一个汉字字符串占3个字节。

普通字符串转化为字节文件的方法：

b'123adf':这种方法只能针对数字和字母，默认使用ascii编码，不能转化汉字；
'123adf'.encode('utf-8):可以转化字母和汉字；
bytes('我的',encoding='utf-8'):可以转化字母和汉字,但必须指定编码格式；

文件的定位读写

tell():获取文件指针的位置

with open(filename,'r',encoding='utf-8') as f:

    f.read(3)

    t = f.tell()  # 获取指针的位置,返回3，如果读取到换行符，换行符在windows占两个字节

seek(offset,from):设置指针的位置

参数

offset:偏移量，设置负数表示向前偏移，正数表示向后偏移，一个汉字占3个字节，字母占一个字节
from:偏移的方向

0:表示文件开头

1:表示当前位置

2:表示文件末尾

with open(filename,'r',encoding='utf-8') as f:

    f.read(3)

    a = f.seek(0,0) # 返回指针定位后的实际位置，默认偏移方向从文件开头算起

注意

在文本模式下打开文件，偏移方向只能从文件开头算起，参数from只能为0，这是因为文本模式涉及到编码的问题，以二进制格式打开文件就可以设置不同的方向。
每次打开文件，读操作的指针都是在文件的开头，写操作的指针在文件的末尾，直到文件被关闭；

几个经典的案例

文件同时读写的情况

    with open('test.txt', 'r+') as f:

        print(f.tell())  # 当前指针的位置在开头0

        a = f.read(3)  # 指针到了位置3

        print(a)

        print(f.tell())

        h = f.write('hhh')  # 从文件的末尾写入，相当于追加数据

        print(h)

        c = f.tell()  # 指针在文件的末尾

        print(c)

        print(f.read())  # 读取从位置3到文件原来的末尾的数据

        print(f.tell())  # 当前位置在新的文件末尾和c相同

总结：r+模式下，如果同一个文件对象需要读和写，读和写各有一个指针，它们是相互独立的，读写位置各不干扰；但是tell函数获取到的位置优先表示写的位置；即当程序执行时，如果只有读，tell获取的位置是读的位置；如果出现了写，tell获取的位置就一定是写的位置了，无论后面还有没有更多的读操作；同理其他的模式也一样；

文件同时读写存在偏移的情况

with open('test.txt', 'r+') as f:

    print(f.tell())  # 当前读指针的位置在开头0,写指针还未初始化

    print(f.read(3))  # 读指针到了位置3

    print(f.tell())  # 获取到读指针的位置为3

    f.seek(0)  # 指针偏移到文件的开头,只能影响一个指针

    print(f.read(3))  # 读指针到了位置3

    h = f.write('gggg')  # 增加一个文件描述符，写指针初始化到文件的末尾，写入数据

    j = f.tell()  # 获取写的位置优先，写指针在文件末尾

    print(j)

    f.seek(0)  # 指针偏移到文件的开头，读文件的数据更新，加入了写入的数据

    j = f.tell()  # 获取写指针在文件的开头

    print(j)

    h = f.write('vvvv')  # 从文件开头写入数据，覆盖原来的数据

    c = f.tell()  # 获取写指针在文件的位置4

    print(c)

    print(f.read(4))  # 读取从位置4往后的4个字符

    print(f.tell())  # 读指针在文件8位置

    h = f.write('xxx')  # 从文件的末尾写入，相当于追加数据

    print(f.tell())  # 当前位置在新的文件末尾

    print(f.read())  # 从8位置读取所有的数据

总结：

seek()函数只能影响它下面的第一次的读写操作；并且会将上一次写入的数据更新到读缓冲区中；
在r+模式下，write()总是从文件的末尾写入，除非受seek函数的影响；
write()操作被偏移影响后,其后的read操作的指针会被移到write操作的位置；

文件同时读写存在且存在更新的情况

    with open('test.txt', 'r+') as f:

        f.read()

        f.seek(2,0)  # 定位到到文件的开头往右2的位置

        f.truncate()  # 将2位置后所有的数据删除

        f.write('aaa')  # 写入新的数据

truncate()：动态删除数据，从当前指针删除后面所有的数据

其他方法

flush():刷新文件内部缓冲，直接把内部缓冲区的数据立刻写入文件, 而不是被动的等待输出缓冲区写入,一般close()函数时先调用flush(),然后再关闭文件描述符。
fileno:返回一个整型的文件描述符,很少用到；
isatty()：文件是否连接到一个终端的设备；
truncate()：文件截取，无参数时从当前的指针位置删除后面所有；有参数时从首行首字母截取数据留下来，其余的删除；

参考

https://docs.python.org/3/

python之文件读写详解的更多相关文章

C++文件读写详解（ofstream,ifstream,fstream）
C++文件读写详解(ofstream,ifstream,fstream) 这里主要是讨论fstream的内容: #include <fstream> ofstream //文件写操作内存 ...
【转载】C++文件读写详解（ofstream,ifstream,fstream）
原文:http://blog.csdn.net/kingstar158/article/details/6859379 在看C++编程思想中,每个练习基本都是使用ofstream,ifstream,f ...
python文件读写详解
# Python3 open(file, mode='r', buffering=-1, encoding=None, errors=None, newline=None, closefd=True, ...
python开头——文件声明详解
一.解释器声明 1.声明方式 linux #!/usr/bin/python windowns #!c:/python27/python.exe 放在首行 2.作用告诉电脑,要用/usr/bin下面 ...
C++文件读写详解
http://blog.csdn.net/kingstar158/article/details/6859379/
【转】C++文件读写详解（ofstream,ifstream,fstream）
转:http://blog.csdn.net/kingstar158/article/details/6859379 摘要:具体用法,上面链接中,文章写的很详细,讲解ofstream,ifstream ...
python之OS模块详解
python之OS模块详解 ^_^,步入第二个模块世界----->OS 常见函数列表 os.sep:取代操作系统特定的路径分隔符 os.name:指示你正在使用的工作平台.比如对于Windows ...
Python对Excel操作详解
Python对Excel操作详解文档摘要: 本文档主要介绍如何通过python对office excel进行读写操作,使用了xlrd.xlwt和xlutils模块.另外还演示了如何通过Tcl ...
Python的logging模块详解
Python的logging模块详解作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.日志级别日志级别指的是产生的日志的事件的严重程度. 设置一个级别后,严重程度 ...

随机推荐

BZOJ 3198: [Sdoi2013]spring [容斥原理哈希表]
3198: [Sdoi2013]spring 题意:n个物品6个属性,求有多少不同的年份i,j满足有k个属性对应相等一开始读错题了,注意是对应相等第i个属性只能和第i个属性对应容斥一下 \[ 恰 ...
VS2010+opencv2.4.10+gsl_1.8配置实现RobHess的SIFT程序
最近在做sift方面的毕业设计,弄了一天终于把RobHess的SIFT程序调通了.虽然网上有很多相关博文,但是我还是想把我的调试的过程跟大家分享一下.由于工程没法在博文上传,所以有需要的可以在下方留言 ...
Oracle,Sql,procedure 感觉自己写的很棒的一个存储过程
感觉自己写的很棒的一个Oracle存储过程,(其实想说很叼^,^). 集成了一堆操作数据的功能(至少几十), 包括存储过程执行异常信息输出帮助诊断. 亮点很多, 比如`over(partition b ...
ASP.NET Core的身份认证框架IdentityServer4--(3)令牌服务配置访问控制跟UI添加
使用密码保护API OAuth 2.0 资源所有者密码授权允许一个客户端发送用户名和密码到IdentityServer并获得一个表示该用户的可以用于访问api的Token. 该规范建议仅对" ...
Shell 编程入门
首先创建一个文件: 在终端中输入如下命令: vi helloworld.sh 然后按i进行命令编写下面这句话是必须写的 #!/bin/sh这句话是必须写的 #!/bin/sh a="hel ...
Activiti中的log4j(slf4j)的配置
今天试了一下在Activiti中使用log4j来进行配置发现这个会出现问题,其实Activiti中的日志系统是采用的是slf4j而不是log4j 然后使用slf4j驱动log4j来做的通过Proce ...
在Ubuntu上安装PHPStudy组件
phpStudy for Linux (lnmp+lamp一键安装包) phpStudy Linux版&Win版同步上线支持Apache/Nginx/Tengine/Lighttpd/IIS ...
PHP动态编译出现Cannot find autoconf的解决方法
wget http://ftp.gnu.org/gnu/m4/m4-1.4.9.tar.gz tar -zvxf m4-.tar.gz cd m4-/ ./configure && m ...
Console 口配置 Telnet 登录方式典型配置指导
1.进入系统视图,启动 Telnet 服务 system-view [Sysname] telnet server enable 2.配置从 VTY 用户界面登录后可以访问的命令级别为 2 级 [Sy ...
sys.argv[]用法-转载
sys.argv变量是一个字符串的列表.特别地,sys.argv包含了命令行参数的列表,即使用命令行传递给你的程序的参数. 这里,当我们执行python using_sys.py we are ar ...