python基础（7）：字符编码

今天我们进入字符编码的学习。字符编码是一个多理论少结论的知识点，我会总结很多的知识点。我们只需要通读当作了解即可，最后我会总结需要我们理解掌握的重点。

本篇导航：

学习字符编码的计算机基础储备
什么是字符编码
字符编码的发展
字符编码的实际应用
重点总结

一、学习字符编码的计算机基础储备

1、计算机软件运行基础图解

2、文本编辑器存取文件原理。（nodepad++,pycharm,word）

打开编辑器就打开了一个进程，是在内存中的，所以在编辑器编写的内容也都是存放与内存中的，断电后数据丢失。因而需要保存到硬盘上，点击保存按钮，就从内存中把数据刷到了硬盘上。

在这一点上，我们编写一个py文件（没有执行），跟编写其他文件没有任何区别，都只是在编写一堆字符而已。

3. python解释器执行py文件的原理，例如python test.py

第一阶段：python解释器启动，此时就相当于启动了一个文本编辑器，进入内存

第二阶段：python解释器相当于文本编辑器，去打开test.py文件，从硬盘上将test.py的文件内容读入到内存中(小复习：pyhon的解释性，决定了解释器只关心文件内容，不关心文件后缀名)

第三阶段：python解释器解释执行刚刚加载到内存中test.py的代码( ps：在该阶段，即执行时，才会识别python的语法，执行文件内代码，执行到name="egon",会开辟内存空间存放字符串"egon")

在前两个阶段中python解释器和文本编辑器是相同的唯一的不同是到了第三个阶段文本编辑器将内容读入内存是为了显示/编辑，而python解释器是为了执行。

二、什么是字符编码

计算机只认识又0，1组成的数字。而我们平时在使用计算机时，用的都是人类能读懂的字符（用高级语言编程的结果也无非是在文件内写了一堆字符）。想让计算机看得懂我们所写的内容必须经过一个过程：

字符---------->翻译过程---------->数字

这个过程实际就是一个字符如何对应一个特定数字的标准，这个标准称之为字符编码

以下两个场景下涉及到字符编码的问题：

1. 一个python文件中的内容是由一堆字符组成的（python文件未执行时）

2. python中的数据类型字符串是由一串字符组成的（python文件执行时）

三、字符编码的发展

1、ASCII

现代计算机起源于美国，最早诞生也是基于英文考虑的ASCII

ASCII:一个Bytes代表一个字符（英文字符/键盘上的所有其他字符），1Bytes=8bit，8bit可以表示0-2**8-1种变化，即可以表示256个字符

ASCII最初只用了后七位，127个数字，已经完全能够代表键盘上所有的字符了（英文字符/键盘的所有其他字符）后来为了将拉丁文也编码进了ASCII表，将最高位也占用了

2、百花齐放

为了满足中文，中国人定制了GBK

GBK:2Bytes代表一个字符

为了满足其他国家，各个国家纷纷定制了自己的编码

日本把日文编到Shift_JIS里，韩国把韩文编到Euc-kr里 ... ...

3、分久必合终归一统

各国有各国的标准，就会不可避免地出现冲突，结果就是，在多语言混合的文本中，显示出来会有乱码。于是产生了unicode，统一用2Bytes代表一个字符，2**16-1=65535，可代表6万多个字符，因而兼容万国语言

但对于通篇都是英文的文本来说，这种编码方式无疑是多了一倍的存储空间。于是产生了UTF-8，对英文字符只用1Bytes表示，对中文字符用3Bytes

4、注意：

unicode：简单粗暴，所有字符都是2Bytes，优点是字符->数字的转换速度快，缺点是占用空间大

utf-8：精准，对不同的字符用不同的长度表示，优点是节省空间，缺点是：字符->数字的转换速度慢，因为每次都需要计算出字符需要多长的Bytes才能够准确表示

1）内存中使用的编码是unicode，用空间换时间（程序都需要加载到内存才能运行，因而内存应该是尽可能的保证快）

2）硬盘中或者网络传输用utf-8，网络I/O延迟或磁盘I/O延迟要远大与utf-8的转换延迟，而且I/O应该是尽可能地节省带宽，保证数据传输的稳定性。

四、字符编码的实际应用

unicode----->encode-------->utf-8

utf-8-------->decode---------->unicode

1、乱码

文件从内存刷到硬盘的操作简称存文件

文件从硬盘读到内存的操作简称读文件

1）乱码一：存文件时已乱码

例如存文件时，由于文件内有各个国家的文字，我们单以日本的编码shiftjis去存，

本质上其他国家的文字由于在shiftjis中没有找到对应关系而导致存储失败，'你瞅啥'在shiftjis中找不到对应关系'何を見て\n'可以找到对应关系。但当我们用文件编辑器去存的时候，编辑器会帮我们做转换，保证中文也能用shiftjis存储（硬存，必然乱码），这就导致了，存文件阶段就已经发生乱码此时当我们用shiftjis打开文件时，日文可以正常显示，而中文则乱码了。或者：

f=open('a.txt','wb')

f.write('何を見て\n'.encode('shift_jis'))

f.write('你愁啥\n'.encode('gbk'))

f.write('你愁啥\n'.encode('utf-8'))

f.close()

以任何编码打开文件a.txt都会出现其余两个无法正常显示的问题（open,write是下一个文件处理的知识点不是大家的关注点，只需要看编码部分即可）

2）乱码二：存文件是没乱码读文件时乱码

存文件时用utf-8编码，保证兼容万国，不会乱码，而读文件时选择了错误的解码方式，比如gbk，则在读阶段发生乱码，读阶段发生乱码是可以解决的，选对正确的解码方式就ok了，而存文件时乱码，则是一种数据的损坏。

总结：

无论是何种编辑器，要防止文件出现乱码核心法则就是，文件以什么编码保存的，就以什么编码方式打开

2、注意：

文件test.py以gbk格式保存，内容为：x='林'

无论是python2 test.py

还是python3 test.py

都会报错（因为python2默认ascii，python3默认utf-8）

除非在文件开头指定#coding:gbk

五、重点总结

1、以什么编码存的就要以什么编码取出
ps：内存固定使用unicode编码，
我们可以控制的编码是往硬盘存放或者基于网络传输选择编码

2、数据是最先产生于内存中，是unicode格式，要想传输需要转成bytes格式
#unicode----->encode(utf-8)------>bytes
拿到bytes，就可以往文件内存放或者基于网络传输
#bytes------>decode(gbk)------->unicode

3、python3中字符串被识别成unicode
python3中的字符串encode得到bytes

4、了解
python2中的字符串就bytes
python2中在字符串前加u，就是unicode

python基础（7）：字符编码的更多相关文章

python基础_字符编码
字符编码的历史阶段一:现代计算机起源于美国,最早诞生也是基于英文考虑的ASCII 阶段二:为了满足中文,中国人定制了GBK 阶段三:各国有各国的标准,就会不可避免地出现冲突,结果就是,在多语言混合的 ...
python 基础之字符编码和文件处理
一.字符编码 (1)计算机基础知识 (2)python 解释器执行py文件的原理 <1>python 解释器启动 <2>python解释器相当于一个文本编辑器,打开txt.py ...
python基础4 ----字符编码
python基础---字符编码一.了解字符编码 1. 文本编辑器存取文件的原理(nodepad++,pycharm,word) 打开编辑器就打开了启动了一个进程,是在内存中的,所以在编辑器编写的内容 ...
第二篇.2、python基础之字符编码
一了解字符编码的知识储备一计算机基础知识二文本编辑器存取文件的原理(nodepad++,pycharm,word) #1.打开编辑器就打开了启动了一个进程,是在内存中的,所以,用编辑器编写的 ...
第1章 Python基础之字符编码
阅读目录一.什么是字符编码二.字符编码分类三.字符编码转换关系 3.1 程序运行原理 3.2 终极揭秘 3.3 补充总结回到顶部一.什么是字符编码计算机要想工作必须通电,也就是说'电'驱 ...
Python基础之字符编码
前言字符编码非常容易出问题,我们要牢记几句话: 1.用什么编码保存的,就要用什么编码打开 2.程序的执行,是先将文件读入内存中 3.unicode是父编码,只能encode解码成其他编码格式 utf ...
（Python基础）字符编码与转码
ASCII(American Standard Code for Information Interchange,美国标准信息交换代码)是基于拉丁字母的一套电脑编码系统,主要用于显示现代英语和其他西欧 ...
Python全栈开发之路【第三篇】：Python基础之字符编码和文件操作
本节内容一.三元运算三元运算又称三目运算,是对简单的条件语句的简写,如: 简单条件语句: if 条件成立: val = 1 else: val = 2 改成三元运算: val = 1 if 条件成 ...
第一章：python基础语法| 字符编码| 条件语句...
1.编程语言介绍编程就是写代码,让计算机帮你做事情.计算机底层是电路,只认识二进制0和1.机器语言&汇编语言语言进化历史:机器.汇编.高级.机器语言只接受二进制代码:汇编语言是采用英文缩写的 ...
Python基础2 字符编码和逻辑运算符
编码 AscII码 :标准ASCII码是采用7位二进制码来编码的,最高为0,没有0000 0000,所以就是2**7-1=127个字符 , 当用1个字节(8位二进制码)来表示ASCII码时,就在最高位 ...

随机推荐

Hadoop SSH+IP、SSH+别名免密登录配置
1.为什么要进行 SSH 无密码验证配置? Hadoop运行过程中需要管理远端Hadoop守护进程,在Hadoop启动以后,NameNode是通过SSH(Secure Shell)来启动和停止各个Da ...
java基础（十一章）
一.理解什么是类和对象万事万物皆对象 1.属性--对象具有的特征(特点) 2.方法--对象可执行的操作(能干什么事) 3.对象的定义: 是一个客观存在的,看的见或摸得着的 ...
了解Java
一.计算机程序为了让计算机执行某些操作或解决某个问题而编写一系列有序指令的集合.二.Java SE(标准版) 1.Java技术的基础和核心: 2.主要由于开发桌面应用 ...
织梦DEDECMS中的默认文件夹的名称怎么修改呢？
1.首先找到系统配置文件,一般此文件会存放在Include目录下,文件名称为:common.inc.php. 2.打开common.inc.php,以修改模板目录templets为例, ...
利用Excel做一些简单的数据分析
先来几个原始数据的截图,如下所示: 示例图就举一个吧,因为这些数据量还挺大的,大概的总结了一下,这下列这几栏中不合规范的数据占比很大: (1)民族(经分析,在此表中所涉及到的民族分别为:汉族,满族,蒙 ...
angularjs应用prerender.io 搜索引擎优化实践
上一篇博文(http://www.cnblogs.com/ideal-lx/p/5625428.html)介绍了单页面搜索引擎优化的原理,以及介绍了两个开源框架的优劣.prerender框架的工作原理 ...
ssh无密码登录远程主机
方法:在客户端生成公/私钥对,将私钥文件保存在客户端,再将公钥文件上传到服务器端(远程主机) 1.在客户端生成公/私钥对 cb@cb251#ssh-keygen...cb@cb251#ls .ssh/ ...
解决arcgis javascript textsymbol不支持多行文本标注的问题
首先,下载这段js文件,命名为esri.symbol.MultiLineTextSymbol.js require(["esri/layers/LabelLayer"], func ...
python cookbook第三版学习笔记一
数据结构假设有M个元素的列表,需要从中分解出N个对象,N<M,这会导致分解的值过多的异常.如下: record=['zhf','zhf@163.com','775-555-1212','847 ...
PHP 判断是否包含在某个字符串中
1.用strpos函数,查找字符首次出现的位置,如果不存在则会返回false$str= 'abc';$needle= 'e';$pos = strpos($str, $needle);2.用strst ...

python基础（7）：字符编码

python基础（7）：字符编码的更多相关文章

随机推荐

热门专题