一.什么是字符编码

计算机要想工作必须通电,也就是说‘电’驱使计算机干活,而‘电’的特性，就是高低电压(高低压即二进制数1,低电压即二进制数0),也就是说计算机只认识数字

编程的目的是让计算机干活，而编程的结果说白了只是一堆字符，也就是说我们编程最终要实现的是：一堆字符驱动计算机干活

所以必须经过一个过程：

字符串--------（翻译过程）------->数字

这个过程实际就是一个字符如何对应一个特定数字的标准，这个标准称之为字符编码

二.字符编码分类

计算机由美国人发明，最早的字符编码为ASCII，只规定了英文字母数字和一些特殊字符与数字的对应关系。最多只能用 8 位来表示（一个字节），即：2**8 = 256，所以，ASCII码最多只能表示 256 个符号

当然我们编程语言都用英文没问题，ASCII够用，但是在处理数据时，不同的国家有不同的语言，日本人会在自己的程序中加入日文，中国人会加入中文。

而要表示中文，单拿一个字节表表示一个汉子，是不可能表达完的(连小学生都认识两千多个汉字)，解决方法只有一个，就是一个字节用>8位2进制代表，位数越多，代表的变化就多，这样，就可以尽可能多的表达出不通的汉字

所以中国人规定了自己的标准gb2312编码，规定了包含中文在内的字符－>数字的对应关系。

日本人规定了自己的Shift_JIS编码

韩国人规定了自己的Euc-kr编码（另外，韩国人说，计算机是他们发明的，要求世界统一用韩国编码）

这时候问题出现了，精通18国语言的小周同学谦虚的用8国语言写了一篇文档，那么这篇文档，按照哪国的标准，都会出现乱码（因为此刻的各种标准都只是规定了自己国家的文字在内的字符跟数字的对应关系，如果单纯采用一种国家的编码格式，那么其余国家语言的文字在解析时就会出现乱码）

所以迫切需要一个世界的标准（能包含全世界的语言）于是unicode应运而生（韩国人表示不服，然后没有什么卵用）

ascii用1个字节（8位二进制）代表一个字符

unicode常用2个字节（16位二进制）代表一个字符，生僻字需要用4个字节

例：

字母x，用ascii表示是十进制的120，二进制0111 1000

汉字中已经超出了ASCII编码的范围，用Unicode编码是十进制的20013，二进制的01001110 00101101。

字母x，用unicode表示二进制0000 0000 0111 1000，所以unicode兼容ascii，也兼容万国，是世界的标准

这时候乱码问题消失了，所有的文档我们都使用但是新问题出现了，如果我们的文档通篇都是英文，你用unicode会比ascii耗费多一倍的空间，在存储和传输上十分的低效

本着节约的精神，又出现了把Unicode编码转化为“可变长编码”的UTF-8编码。UTF-8编码把一个Unicode字符根据不同的数字大小编码成1-6个字节，常用的英文字母被编码成1个字节，汉字通常是3个字节，只有很生僻的字符才会被编码成4-6个字节。如果你要传输的文本包含大量英文字符，用UTF-8编码就能节省空间：

字符	ASCII	Unicode	UTF-8
A	01000001	00000000 01000001	01000001
中	x	01001110 00101101	11100100 10111000 10101101

从上面的表格还可以发现，UTF-8编码有一个额外的好处，就是ASCII编码实际上可以被看成是UTF-8编码的一部分，所以，大量只支持ASCII编码的历史遗留软件可以在UTF-8编码下继续工作。

三.字符编码转换关系

3.1 程序运行原理

首先需明确，计算机各组件之间协同工作，数据传输都是二进制形式，在计算机看来，没有文字，一切都是二进制数，计算机运行主要依靠

cpu：从内存中取出二进制指令执行

内存：从硬盘取出二进制数据提供给cpu运行

硬盘：将人类认识的文字以二进制的形式存放到磁盘上

文件和程序文件都特么的是文件,文件内容的读取或者程序的运行都需要把

程序员开发程序，最终写了一堆人为定义的人类认为有意义的文字符号表示，以二进制形式保存到硬盘
程序运行，操作系统从硬盘上找到存放程序代码的位置，读取二进制到内存
python解释器从内存里读二进制，解释执行

3.2 终极揭秘

首先我们在终端定义一个内存变量：name＝'林海峰'，那这个内存变量被存放到内存（必然是二进制），所以需要一个编码，就是unicode(内存中使用字符编码固定就是unicode)

但是如果我们写到文件中name＝'林海峰'保存到硬盘(必然是二进制)，也需要一个编码，这就跟各个国家有关了，假设我们用gbk，那么文件就被以gbk形式保存到硬盘上了。

程序要运行：硬盘二进制（gbk）－－－> 内存二进制（unicode）
就是说，所有程序，最终都要加载到内存，程序保存到硬盘不同的国家用不同的编码格式，但是到内存中我们为了兼容万国（计算机可以运行任何国家的程序原因在于此），统一且固定使用unicode，这就是为何内存固定用unicode的原因，你可能会说兼容万国我可以用utf－8啊，可以，完全可以正常工作，之所以不用肯定是unicode比utf－8更高效啊（uicode固定用2个字节编码，utf－8则需要计算），但是unicode更浪费空间，没错，这就是用空间换时间的一种做法，而存放到硬盘，或者网络传输，都需要把unicode转成utf－8，因为数据的传输，追求的是稳定，高效，数据量越小数据传输就越靠谱，于是都转成utf－8格式的，而不是unicode。

gbk－>unicode需要decode()，unicode->gbk需要encode()就是这个意思

浏览网页的时候，服务器会把动态生成的Unicode内容转换为UTF-8再传输到浏览器

python程序比较特殊，要想运行需要python解释器去调用，也就相当于python解释器去读内存的程序的unicode代码

因而python解释器也有个解释器默认编码可以用sys.getdefaultencoding()查看，如果不在python文件指定头信息＃-*-coding:utf-8-*-,那就使用默认的

注意了，这个编码，是python解释器这个软件的编码

3.3 补充

抛开编程，我们单独写一个文件，保存到硬盘上，也需要有字符编码啊，过程如下

首先，我们要编辑文档，你总不能自己控制高低电压往硬盘写入二进制吧，总得又一个软件吧，软件就是一个运行的程序啊，你所写的内容都是由运行在内存中的软件去操作的，所以像下面这样的数据你不点保存，都还是在内存中（有些软件会隔几秒自动执行保存），此刻如果断电呢，数据当然全都没了啊，也就是说下面的这些数据其实都被保存到内存中，是unicode格式。

pycharm本质也跟word一样啊？都是处理文件的软件

但是如果修改文件保存的编码，即硬盘编码使用gbk，提交操作后，保存上面的文件，那么文件就被以gbk格式保存到了硬盘上

然后关闭pycharm，我们重新打开，文件默认编码打开编码如果是utf-8,那么必然就乱了啊，因为硬盘(gbk)--->内存(unicode)<---pycharm(使用utf－8去读)

修改成gbk方式读取

总结

其实无论是word也好pycharm也好，python解释器也好，我们都可当她们是处理文件的软件

注意：

python2.7解释器默认编码为ascii
python3.5解释器默认编码为utf-8
不管是python解释器也好还是其他与文本相关的软件也好，它们只能指定存取文件到硬盘的字符编码，而内存中固定使用uniccode
test.py文件的头#-*-coding:utf-8-*-就是在修改python解释器的编码

流程：

从硬盘读区test.py的二进制bytes类型数据加载到内存，此刻python解释器就是一个类word软件啊，python解释器用自己的编码，将文件的二进制解码成unicode放到内存中
python解释器从内存中读取unicode代码解释执行，执行时的代码中函数指定的编码与python解释器再无半点关系

原文地址为：http://www.cnblogs.com/linhaifeng/articles/5950339.html

python基础之字符编码（一）的更多相关文章

python基础_字符编码
字符编码的历史阶段一:现代计算机起源于美国,最早诞生也是基于英文考虑的ASCII 阶段二:为了满足中文,中国人定制了GBK 阶段三:各国有各国的标准,就会不可避免地出现冲突,结果就是,在多语言混合的 ...
python 基础之字符编码和文件处理
一.字符编码 (1)计算机基础知识 (2)python 解释器执行py文件的原理 <1>python 解释器启动 <2>python解释器相当于一个文本编辑器,打开txt.py ...
python基础4 ----字符编码
python基础---字符编码一.了解字符编码 1. 文本编辑器存取文件的原理(nodepad++,pycharm,word) 打开编辑器就打开了启动了一个进程,是在内存中的,所以在编辑器编写的内容 ...
第二篇.2、python基础之字符编码
一了解字符编码的知识储备一计算机基础知识二文本编辑器存取文件的原理(nodepad++,pycharm,word) #1.打开编辑器就打开了启动了一个进程,是在内存中的,所以,用编辑器编写的 ...
第1章 Python基础之字符编码
阅读目录一.什么是字符编码二.字符编码分类三.字符编码转换关系 3.1 程序运行原理 3.2 终极揭秘 3.3 补充总结回到顶部一.什么是字符编码计算机要想工作必须通电,也就是说'电'驱 ...
Python基础之字符编码
前言字符编码非常容易出问题,我们要牢记几句话: 1.用什么编码保存的,就要用什么编码打开 2.程序的执行,是先将文件读入内存中 3.unicode是父编码,只能encode解码成其他编码格式 utf ...
（Python基础）字符编码与转码
ASCII(American Standard Code for Information Interchange,美国标准信息交换代码)是基于拉丁字母的一套电脑编码系统,主要用于显示现代英语和其他西欧 ...
Python全栈开发之路【第三篇】：Python基础之字符编码和文件操作
本节内容一.三元运算三元运算又称三目运算,是对简单的条件语句的简写,如: 简单条件语句: if 条件成立: val = 1 else: val = 2 改成三元运算: val = 1 if 条件成 ...
第一章：python基础语法| 字符编码| 条件语句...
1.编程语言介绍编程就是写代码,让计算机帮你做事情.计算机底层是电路,只认识二进制0和1.机器语言&汇编语言语言进化历史:机器.汇编.高级.机器语言只接受二进制代码:汇编语言是采用英文缩写的 ...
Python基础2 字符编码和逻辑运算符
编码 AscII码 :标准ASCII码是采用7位二进制码来编码的,最高为0,没有0000 0000,所以就是2**7-1=127个字符 , 当用1个字节(8位二进制码)来表示ASCII码时,就在最高位 ...

随机推荐

MySQL查询操作
查询执行路径中的组件:查询缓存.解析器.预处理器.优化器.查询执行引擎.存储引擎SELECT语句的执行流程: FROM Clause --> WHERE Clause --> GROUP ...
django（python manage.py migrate）同步数据库出错后的解决办法
执行python manage.py migrate同步数据库前一次执行 python manage.py makemigrations 时生成的文件及之后所有的文件删除即可,然后修改models.p ...
c++中的构造函数初始化列表
三种情况下,必须在构造函数初始化列表中初始化成员: 1.const成员 2.引用成员 3.没有默认构造函数的成员
beego——模型定义
复杂的模型定义不是必须的,此功能用作数据库数据转换和自动建表默认的表名规则,使用驼峰转蛇形: AuthUser -> auth_user Auth_User -> auth__user ...
js判断background颜色明暗色调,以设置白/黑字体颜色
整理自:jscolor.js插件 this.styleElement.style.color = this.isLight() ? '#000' : '#FFF'; this.isLight ...
微信小程序组件checkbox
表单组件checkbox:官方文档 Demo Code: JS Page({ data:{ items:[ {name: 'USA', value: '美国'}, {name: 'CHN', valu ...
微信小程序组件text
基础内容text:官方文档 Demo Code var initData = 'this is first line\nthis is second line' var extraLine = []; ...
HDU - 3829 Cat VS Dog (二分图最大独立集)
题意:P个小朋友,每个人有喜欢的动物和讨厌的动物.留下喜欢的动物并且拿掉讨厌的动物,这个小朋友就会开心.问最多有几个小朋友能开心. 分析:对于每个动物来说,可能既有人喜欢又有人讨厌,那么这样的动物实际 ...
ASP.NET MVC jQuery 树插件在项目中使用方法（一）
jsTree是一个基于jQuery的Tree控件.支持XML,JSON,Html三种数据源.提供创建,重命名,移动,删除,拖"放节点操作.可以自己自定义创建,删除,嵌套,重命名,选择节点 ...
CC3中的2D转换
2D转换方法: translate() rotate() scale() skew() matrix() 1.translate()方法,根据左(X轴)和顶部(Y轴)位置给定的参数,从当前元素位置移动 ...

python基础之字符编码（一）