字符编码与python文件处理

————————————————

字符编码

1、常见的编码

ASCII: 美国人发明的,只编码英文字母和符号,1个字节。

GB2312: 中国人发明的,增加了中文汉字和符号,2个字节。

Unicode: 为了把所有语言都统一到一套编码里,一般是2个字节,生僻字4个字节。

UTF-8: 为了节省英文字符内存空间,UTF-8可变长编码,常用的英文字母被编码成1个字节,汉字通常是3个字节,生僻的字符编码成4-6个字节。

2、关于字符编码需要记住的结论

(1)内存固定使用unicode,我们可以改变的是存入硬盘采用格式

英文+汉字-》unicode-》gbk

英文+日文-》unicode-》shift-jis

万国字符》-unicode-》utf-8

(2)文本文件存取乱码问题

存乱了:解决方法是,编码格式应该设置成支持文件内字符串的格式

取乱了:解决方法是,文件是以什么编码格式存如硬盘的,就应该以什么编码格式读入内存

(3)python解释器默认读文件的编码

python3默认:utf-8

python2默认:ASCII

指定文件头修改默认读文件的编码:

在py文件的首行写:

# coding:gbk

(4)保证运行python程序前两个阶段不乱码的核心法则:

指定文件头

# coding:文件当初存入硬盘时所采用的编码格式

(5)

python3的str类型默认直接存成unicode格式,无论如何都不会乱码

保证python2的str类型不乱码

x=u'上' 前面加个u

(6)了解

python2解释器有两种字符串类型:str、unicode

# str类型

x='上' # 字符串值会按照文件头指定的编码格式存入变量值的内存空间

# unicode类型

x=u'上' # 强制存成unicode

python中的文件处理

————————————————

1、什么是文件?

文件是操作系统提供给用户/应用程序来操作硬盘的一种虚拟的接口。

2、为什么要用文件?

用户/应用程序通过操作文件可以将数据永久的保存到硬盘当中,即操作文件就是操作硬盘。

3、如何操作文件?

需要先了解的知识点

首先,我们需要了解一下关于文件的两种模式:

(1)控制文件读写内容的模式

t文本模式(默认的模式):

读写都是以str(unicode)为单位的

读写的必须是文本文件,图片或者视频等可能会报错

必须指定encoding=‘utf-8’

b二进制模式(bytes)

1.读写都是以bytes为单位

2.可以针对所有的文件

3,一定不能指定字符编码,即encoding参数

总结:

1.在操作纯文本文件方面,t模式确实帮我们省去了编码与解码的环节,b模式则还需要手动的进行编码和解码,所有纯文本下t模式更加方便。

2.但是对于那些非文本文件(如图片、视频等),就只能用b模式

(2)控制文件读写操作的模式

r只读模式

w只写模式

a只追加写模式

+:r+、w+、a+

具有详解之r模式:

1.r为open方法默认的操作模式,当文件不存在时会报错,当文件存在时文件的指针会跳到开始的位置

2.r模式会把文件所有的内容从硬盘读到内存

3.第二次读的时候,读不出任何东西,因为第一次读之后指针已经在文件末尾了

具有详解之w模式:

1.只写模式,当文件不存在时会自动创建文件,当文件存在时会清空文件数据,指针位于开始的位置

2.只有f.wirte()方法,只有写模式,wirte里有一个参数,是需要写入的数据

3.在w模式打开文件没有关闭文件的情况下,连续写入,新的内容总是跟在旧的之后

4.如果重新以w模式打开文件,则会清空文件内容

具有详解之a模式:

1.只追加写模式,在文件不存在时,会创建空文档,指针在开头;当文件存在时,文件指针会直接跳到末尾

具有详解之+模式:

1.+模式不能单独使用,需要配合r、w和a联合使用

open()方法

1.打开文件

f=open(r'aaa/a.txt',mode='rt')
参数说明:第一个参数指的是需要打开的文件路径
第二个参数mode指的是文件读写内容和操作的方式,默认是rt模式
# f的值是一种变量,占用的是pycharm应用程序的内存,f返回的是一个特殊的文件对象,open方法除了会返回一个文件对象给f。还会使操作系统打开一个文件。

2.操作文件(读写操作)

res = f.read()  # 从头到尾全部读取出来
res = f.readline() # 一次读一行
res = f。readlines() # 结果为一个大列表 # read()里的可选n参数,在t模式下是指读出几个字符;在b模式下是这读出多少个字节。
# 操作文件实际是应用程序对文件的读写请求都是在向操作系统进行请求,然后操作系统控制硬盘把数据读入内存、或者写入硬盘 注意:read和readlines方法都是将内容一次读出,如果内容过大,很可能会导致内存溢出,因此,必须分多次读入,采用for或者while循环的方式。 res=f.writelines() #将列表中的内容写到文件中
f.flush()立马刷新,将内存的数据写到硬盘中

3.关闭文件

f.close()  # 回收open时操作系统开辟的系统资源

with open()方法

with open()方法的主要特点是,你打开文件之后就不需要你在手动关闭文件占用的系统资源了,它会帮你自动关闭;同时,它还支持同时打开多个文件;
with open(‘a.txt’,mode='rt')as f1,open('b.txt',mode='rt') as f2:
res1=f1.read()
res2=f2.read()

注意:在以rt模式操作文件时,需要指定encoding=‘utf-8’!!!为什么呢?

因为,windows默认读文件的编码是gbk,Linux默认读文件的编码是utf-8

如果在opne打开文件的时候没有指定编码格式为utf-8时,pycharm默认存文件是utf-8,但是在读取文件时,由于没有指定编码格式,就会自动调用操作系统本身的默认的读编码格式!!!这是Windows系统下就会报错!;指定了编码格式,后面读取的时候会自动按照当时编码的格式进行解码。

4、文件指针移动

文件指针移动的单位都是以字节bytes为单位,只有在t模式下是指移动字符个数。

f.seek(n,模式)用来负责指针的移动,是以字节为单位。

参数说明:n指的是移动的字节个数

模式0:参照物是文件开头的位置

模式1:参照物是当前指针所在的位置

模式2:参照物是文件末尾的位置,指针是倒着移动(向左移),n为负值

强调:只有0模式可以在t下使用,其他都不行。

f.tell() #获取文件指针当前位置

字符编码和python中的文件处理的更多相关文章

  1. 字符编码和Python代码操作文件

    字符编码和Python代码操作文件 读写模式之a模式 # a模式 只追加模式 # 路径不存在:自动创建 with open(r'a.txt','a',encoding='utf8') as f: pa ...

  2. python学习之【第十一篇】:Python中的文件操作

    1.前言 在Python中,对文件的操作主要遵循以下流程: 打开文件,得到文件句柄并赋值给一个变量 通过文件句柄对文件进行操作 关闭文件 2.打开文件 使用open函数,可以打开一个已经存在的文件,或 ...

  3. 【Python】解析Python中的文件操作

    目录结构: contents structure [-] 简介 Python中的文件类型 内置函数的文件操作 open()函数 Mode 创建文本文件 读取文本文件 循环文件对象 关闭文件 With语 ...

  4. [转]字符集、字符编码、XML中的中文编码

    字符集.字符编码.XML中的中文编码 作为程序员的你是不是对于ASCII .UNICODE.GB2321.UTF-7.UTF-8等等不时出现在你面前的这些有着奇怪意义的词感到很讨厌呢,是不是总觉得好象 ...

  5. [转]python中对文件、文件夹的操作——os模块和shutil模块常用说明

    转至:http://l90z11.blog.163.com/blog/static/187389042201312153318389/ python中对文件.文件夹的操作需要涉及到os模块和shuti ...

  6. 字符集、字符编码、XML中的中文编码

    字符集.字符编码.XML中的中文编码 作为程序员的你是不是对于ASCII .UNICODE.GB2321.UTF-7.UTF-8等等不时出现在你面前的这些有着奇怪意义的词感到很讨厌呢,是不是总觉得好象 ...

  7. Python中的文件和目录操作实现

    Python中的文件和目录操作实现 对于文件和目录的处理,虽然可以通过操作系统命令来完成,但是Python语言为了便于开发人员以编程的方式处理相关工作,提供了许多处理文件和目录的内置函数.重要的是,这 ...

  8. Python中对 文件 的各种骚操作

    Python中对 文件 的各种骚操作 python中对文件.文件夹(文件操作函数)的操作需要涉及到os模块和shutil模块. 得到当前工作目录,即当前Python脚本工作的目录路径: os.getc ...

  9. 【python系统学习17】python中的文件读写

    python中的文件读写 文件读写,是Python代码调用电脑文件的主要功能,能被用于读取和写入文本.音频片段.Excel文档.邮件以及任何保存在电脑上的东西. 可使用python批量的操作本地文件, ...

随机推荐

  1. 微信小程序避坑指南——input框里的图标在部分安卓机里无法点击的问题

    问题场景: 下图中的显隐密码和验证码均为包裹在 input标签 中的 image标签, 但在开发测试中发现点击不了这俩个image标签,因为是被input标签的padding挡住了. 解决方法:将im ...

  2. Java虚拟机启动过程解析

    一.序言 当我们在编写Java应用的时候,很少会注意Java程序是如何被运行的,如何被操作系统管理和调度的.带着好奇心,探索一下Java虚拟机启动过程. 1.素材准备 从Java源代码.Java字节码 ...

  3. 选择ERP频频踩雷?国内外ERP有差异,突破ERP软件单一性是关键

    信息化日新月异的蓬勃发展,导致企业在选择ERP软件时频频踩雷.企业如何选择出一个适合自己的ERP软件系统呢?是选择国外知名公司的ERP软件产品,还是选择国内性价比高的ERP软件产品呢,小编就带大家了解 ...

  4. python发QQ邮件

    python发qq邮件相对比较简单,网上教程一大把:固定套路,后面封装看自己怎么方便可以怎样进行封装:原版代码如下: """ # -*- coding : utf-8 - ...

  5. C++ 炼气期之算术运算符

    1. 前言 编写程序时,数据确定后,就需要为数据提供相应的处理逻辑(方案或算法).所谓逻辑有 2 种存在形态: 抽象形态:存在于意识形态,强调思考过程,与具体的编程语言无关. 具体形态:通过代码来实现 ...

  6. SAP BDC 用户输入日期转系统日期格式: CONVERT_DATE_TO_EXTERNAL

    BDC中,日期输入格式不正确:可调用FM  CONVERT_DATE_TO_EXTERNAL DATA:l_bdcfield LIKE bdcdata-fval."BDC field val ...

  7. Java中将对象或者集合对象转换成json字符串

    1.对象和字符串相互转换 2.集合对象和字符串相互转换

  8. P2599 [ZJOI2009]取石子游戏 做题感想

    题目链接 前言 发现自己三岁时的题目都不会做. 我发现我真的是菜得真实. 正文 神仙构造,分讨题. 不敢说有构造,但是分讨我只服这道题. 看上去像是一个类似 \(Nim\) 游戏的变种,经过不断猜测结 ...

  9. Tomcat深入浅出——Servlet(三)

    零.HttpServletRequest 上一篇已经介绍了这个接口,现在补充些内容 首先介绍一下作用域: jakarta.servlet.jsp.PageContext pageContext 页面作 ...

  10. Eclipse拷贝动态的web工程

    1.选中需要拷贝的工程,CTRL+C,然后CTRL+V 2.在web动态工程中,还需要选中新拷贝工程,右键选中properties,然后搜索web,--->Web Project Setttin ...