Python基础(字符编码与文件处理)

一、了解字符编码的知识储备

　1、计算机基础知识（三副图）

2、文本编辑器存取文件的原理（notepad++,Pycharm,word)

　　打开编辑器就启动了一个进程，是在内存中运行的，所以在编辑器写的内容在没保存之前都是存放在内存中的，断电后数据就会丢失。因而需要保存到硬盘上，点击保存按钮，就从内存中把数据刷到硬盘上。

3、Python解释器执行py文件的与原理，例如python test.py

　　第一阶段：python解释器启动，此时就相当于启动了一个文本编辑器。

　　第二阶段：python解释器相当于文本编辑器，去打开test.py文件，从硬盘将test.py的文件内容读到内存中。

　　第三阶段：python解释器解释执行刚刚加载到内存中test.py的代码。（PS:在该阶段，即执行时，才会识别python的语法，执行文件内代码，执行到name='tracy'，会开辟内存空间存放字符串'tracy')

总结：python解释器与文本编辑器的异同

　　相同点：python解释器是执行文件内容的，因而python解释器具备都py文件的功能，这一点与文本编辑器一样

　　不同点：文本编辑器将文件内容读入内存后，是未来显示/编辑，而python解释器将文件读入内存后，是为了执行（识别python语法）

二、什么是字符编码

　　计算机要想工作必须通电，也就是说电驱使计算机干活，而电的特性，就是高低电平。（高低电平即二进制数1，低电平即二进制0），也就是说计算机只认识数字。

　　如何能让计算机读懂人类的字符？

　　字符----->（翻译过程）------>数字

　　这个过程实际就是一个字符如何对应一个特定数字的标准，这个标准称之为字符编码。

三、字符编码的发展史

　　阶段一：现代计算机起源于美国，最早诞生也是基于英文考虑的ASCII

　　ASCII:一个Bytes代表一个字符（英文字符/键盘上的所有其他字符），1Bytes=8bit,8bit可以表示0-2**8-1种变化，即可表示256个字符。

　　阶段二：为了满足中文，中国人定制了GBK

　　GBK：2Bytes代表一个字符

　　阶段三：日本人定制了Shift_JIS，韩国人定制了Euc-kr等等

　　小结：各国有各国的标准，就会有不可避免的冲突，结果就是，在多语言混合的文本中，显示出来就会有乱码。

　　于是产生了Unicode，同意用2B有特色代表一个字符，2**16-1=65535，可代表6万多个字符，因而兼容万国语言。

　　但是对于通篇都是英文的文本来说，这种编码方式无疑是多了一倍的存储空间。于是产生了utf-8，对英文字符只用1Bytes表示，对中文字符用3Bytes表示。

　　unicode特性：简单粗暴，所有字符都是2Bytes，优点是字符->数字的转换速度快，缺点是占用空间打。

　　utf-8特性：精准，对不同的字符用不同的长度表示，有点是节省空间，缺点是：字符-->数字的转换速度慢，因为每次都需要计算出字符需要多长的Bytes才能够准确表示。

　　内存中使用的编码是Unicode，用空间换时间。

　　硬盘中或者网络传输用utf-8,网络I/O延迟或者磁盘I/O延迟要远大于utf-8的转换延迟，而且I/O应该是尽可能地节省带宽，保证数据传输的稳定性。

四、字符编码的使用

　　文本编辑器转换图

　　Unicode--->encode----->utf-8

　　uft-8--------->decode----->Unicode

　　分析字符转换过程：

　　文件从内存刷到硬盘的操作简称存文件

　　文件从硬盘读到内存的操作简称读文件

　　分析乱码：

　　1、存文件时就已经乱码的情况；

　　2、存文件时不乱码而读文件时乱码；

　　小结：　　

　　无论是何种编辑器，要防止文件出现乱码（请一定注意，存放一段代码的文件也仅仅只是一个普通文件而已，此处指的是文件没有执行前，我们打开文件时出现的乱码）

　　核心法则就是，文件以什么编码保存的，就以什么编码方式打开。

　　python2默认ASCII，python3默认utf-8,除非文件头部指定编码方式。

　　针对python3如下图;

　　在浏览网页的时候，服务器会吧动态生成的Unicode内容转换为UTF-8再传输到浏览器

　　如果服务端encode的编码格式是utf-8,客户端内存中收到的也是uft-8编码的二进制。

　　在python3中也有两种字符串类型str和bytes

　　str是Unicode　

#coding:utf-8
s='林' #当程序执行时，无需加u，'林'也会被以unicode形式保存新的内存空间中,

#s可以直接encode成任意编码格式

s.encode('utf-8')

s.encode('gbk')

print(type(s)) #<class 'str'>

bytes是bytes

#coding:utf-8

s='林' #当程序执行时，无需加u，'林'也会被以unicode形式保存新的内存空间中,

#s可以直接encode成任意编码格式

s1=s.encode('utf-8')

s2=s.encode('gbk')

print(s) #林

print(s1) #b'\xe6\x9e\x97' 在python3中，是什么就打印什么

print(s2) #b'\xc1\xd6' 同上

print(type(s)) #<class 'str'>

print(type(s1)) #<class 'bytes'>

print(type(s2)) #<class 'bytes'>

总结：

字符编码
python2   str   --> bytes  ascii
python3   str   --> unicode

文件处理
r读  光标文件开头  不会影响文件内容
w写  光标在文件开头  打开文件的时候文件即被清空
a追写  光标在文件末尾  不会影响文件内容
r+可读可写 光标在文件开头
w+可写可读 光标在文件开头 打开文件的时候文件即被清空
a+追加可读 光标在文件末尾
带b 上面的6种模式都可以+b

#只读方式打开文件，读

#f = open('复习.py','r',encoding='utf-8')

#f文件+句柄  能操作文件的一个东西

#for i in f:

#     print(i,end='')

#写方式打开文件

# f = open('复习2.py','w',encoding='utf-8')

#可写可读  打开文件的时候文件就为空，写的是任意内容，读的是刚刚写进去的内容

#要想读，先移动光标

#读的光标和写的光标是两回事

# f = open('复习2.py','w+',encoding='utf-8')

# f.write('12237yuiayi')

# #seek 制定光标的位置在0位置

# f.seek(0)

# print(f.read(3))

# f.write('kahkshldkhd')

# print('***',f.read())

# f.close()

#可读可写

# f = open('复习2.py','r+',encoding='utf-8')

# print(f.read())

# f.write('\najshdjkdjk')

# f.close()

#追加可读

f = open('复习2.py','a+',encoding='utf-8')

f.seek(0)

print(f.read())

Python基础(字符编码与文件处理)的更多相关文章

python基础--字符编码以及文件操作
字符编码: 1.运行程序的三个核心硬件:cpu.内存.硬盘任何一个程序要是想要运算,肯定是先从硬盘加载到当前的内存中,然后cpu根据指定的指令去执行操作 2.python解释器运行一个py文件的步骤 ...
Python基础-字符编码与转码
***了解计算机的底层原理*** Python全栈开发之Python基础-字符编码与转码需知: 1.在python2默认编码是ASCII, python3里默认是utf-8 2.unicode 分为 ...
Python之字符编码与文件操作
目录字符编码 Python2和Python3中字符串类型的差别文件操作文件操作的方式文件内光标的移动文件修改字符编码什么是字符编码? ''' 字符编码就是制定的一个将人类的语言的字符与二 ...
Python入门基础--字符编码与文件处理
字符编码文本编辑器存取文件的原理 #1.打开编辑器就打开了启动了一个进程,是在内存中的,所以,用编辑器编写的内容也都是存放与内存中的,断电后数据丢失 #2.要想永久保存,需要点击保存按钮:编辑器把内 ...
python基础-----字符编码
1.ASCII ASCII(American Standard Code for Information Interchange,美国标准信息交换代码)是基于拉丁字母的一套电脑编码系统,主要用于显示现 ...
what's the python之字符编码与文件处理
用文本编辑器打开一个文件就是把一个文件读入了内存中 ,所以打开文件的操作也是在内存中的,断电即消失,所以若要保存其内容就必须点击保存让其存入硬盘中 python解释器执行py文件的原理 : 第一阶段: ...
第2章 Python基础-字符编码&数据类型字符编码&字符串练习题
1.简述位.字节的关系位(bit)是计算机中最小的表示单元,数据传输是以“位”为单位的,1bit缩写为1b 字节(Byte)是计算机中最小的存储单位,1Byte缩写为1B 8bit = 1Byte ...
第2章 Python基础-字符编码&数据类型购物车&多级菜单作业
作业一.三级菜单数据结构: menu = { '北京':{ '海淀':{ '五道口':{ 'soho':{}, '网易':{}, 'google':{} }, '中关村':{ '爱奇艺':{}, ...
第2章 Python基础-字符编码&数据类型列表&元祖练习题
1.创建一个空列表,命名为names,往里面添加old_driver,rain,jack,shanshan,peiqi,black_girl元素 names = ["old_driver&q ...

随机推荐

计蒜客 28317.Growling Gears-一元二次方程的顶点公式 (Benelux Algorithm Programming Contest 2014 Final ACM-ICPC Asia Training League 暑假第一阶段第二场 G)
G. Growling Gears 传送门此题为签到题,直接中学的数学知识点,一元二次方程的顶点公式(-b/2*a,(4*a*c-b*b)/4*a):直接就可以得到结果. 代码: #include& ...
Python的并发并行[2] -> 队列[1] -> 使用队列进行任务控制
使用队列进行任务控制 1 FIFO与LIFO队列 FIFO(First In First Out)与LIFO(Last In First Out)分别是两种队列形式,在FIFO中,满足先入先出的队列方 ...
Best Time to Buy and Sell Stock with Cooldown -- LeetCode
Say you have an array for which the ith element is the price of a given stock on day i. Design an al ...
Group Shifted Strings -- LeetCode
Given a string, we can "shift" each of its letter to its successive letter, for example: & ...
luogu P3817 小A的糖果
题目描述小A有N个糖果盒,第i个盒中有a[i]颗糖果. 小A每次可以从其中一盒糖果中吃掉一颗,他想知道,要让任意两个相邻的盒子中加起来都只有x颗或以下的糖果,至少得吃掉几颗糖. 输入输出格式输入格 ...
【NOIP模拟赛】【乱搞AC】【奇技淫巧】【乘法原理】回文串计数
回文串计数 (calc.pas/calc.c/calc.cpp) [题目描述] 虽然是一名理科生,Mcx常常声称自己是一名真正的文科生.不知为何,他对于背诵总有一种莫名的热爱,这也促使他走向了以记忆量 ...
把我的漫画浏览器后台程序迁移到GAE上了
这两天看了一下Python和GAE相关资料,作为练手,把我以前写的Windows 8下看漫画的程序的后台解析算法迁移到了GAE上了. 之前由于没有后台服务器,很多东西在本地实现起来不是很方便,现在拿G ...
检索COM 类工厂中CLSID 为{00024500-0000-0000-C000-000000000046}组件时失败
检索 COM 类工厂中 CLSID 为{00024500-0000-0000-C000-000000000046} 的组件时失败,原因是出现以下错误: 80070005 当在ASP.NET应用程序中引 ...
sql server 高可用故障转移(1)
原文:sql server 高可用故障转移(1) 群集准备工作个人电脑内存12G,处理器 AMD A6-3650CPU主频2.6GHz 虚拟机 VMware Workstation 12 数据库 ...
Windows环境下，用netstat命令查看某个端口号是否占用
目标:在Windows环境下,用netstat命令查看某个端口号是否占用,为哪个进程所占用. 操作:操作分为两步:(1)查看该端口被那个PID所占用;方法一:有针对性的查看端口,使用命令 Netsta ...

Python基础(字符编码与文件处理)

Python基础(字符编码与文件处理)的更多相关文章

随机推荐

热门专题