python语言中的编码问题

在编程的过程当中，常常会遇到莫名其妙的乱码问题。很多人选择出了问题直接在网上找答案，把别人的例子照搬过来，这是快速解决问题的一个好办法。然而，作为一个严谨求实的开发者，如果不从源头上彻底理解乱码产生的机制，并由此寻求解决问题的根本路径，那么永远不能从码农的阴影中摆脱出来。下面就来一起了解一下计算机编码问题的来龙去脉。

ASCII

众所周知，计算机中的所有数据，不论是文字、图片、视频、还是音频文件，本质上最终都是按照类似 01010101 的二进制形式存储的。然而，计算机中的字符，并不能完全以这种方式来表示。由于计算机最初是由美国人发明的，因而最初的计算机编码使用的也是美国人的标准，即ASCII( American Standard Code for Information Interchange，美国信息交换标准代码)。ASCII码一共规定了128个字符的编码，比如大写的字母A是65（二进制01000001），符号@的编码是64（二进制01000000）。这128个符号中， 0～31及127(共33个)是控制字符或通信字符，32–126 分配给了能在键盘上找到并且能打印出来的字符。所有ASCII编码表示的内容，只占用了一个字节的后面7位，最高位统一规定为0。

后来为了能够表示欧洲地区除了英文字母以外的其它字母，出现了扩展的ASCII编码。扩展的ASCII包含原有的128个字符，又增加了128个字符，总共是256个。编码时最高位为1，这样就可以与ASCII码完全兼容。可以表示诸如音标æ（编码145，二进制10010001）以及法语中的字母é（编码为130，二进制10000010）等字符。

这个编码能表示音标和欧洲大多数非英语系字母，但是它并不是国际标准，在不同的国家， 128 到 255对应的字符并不完全相同，这就产生了各种不同的扩展ASCII编码。比如 ISO8859-1 字符集，也就是 Latin-1，加入了西欧常用字符，包括德法两国的字母。ISO8859-2 字符集，也称为 Latin-2，收集了东欧字符。 ISO8859-3 字符集，也称为 Latin-3，收集了南欧字符，等等。

这样的编码方式够吗？显然不够，比如汉字，就无法用ASCII表示。扩展的ASCII 也远远不够。

GBK

中国人为了能够正常使用计算机这一伟大方明，做出了多方面的努力。GB2312就是这一努力的成果，该标准于1980年发布，1981年5月1日开始实施。它标志着我国在使用电子计算机方面迈出了重要的一步。GB2312 编码共收录了6763个汉字，同时还兼容 ASCII。这一字符编码基本满足了汉字的计算机处理需要，它所收录的汉字已经覆盖中国大陆99.75%的使用频率，对一些古汉语和繁体字 GB2312 没法处理。后来就在GB2312的基础上创建了一种叫 GBK 的编码，于1995年正式发布。GBK 不仅收录了GB 2312 中的全部汉字、非汉字符号，同时还收录了日韩语中出现的汉字，如韩国著名围棋手李世乭中的乭 GBK编码是0x8168(0x表示16进制)。这里可以查询汉字对应的GBK编码。

GBK编码一般用两个字节表示一个字符，如果是英文字母，则使用一个字符，与ASCII编码相同，因此，GBK 也是兼容 ASCII 编码的，但并不与任何扩展的ASCII编码兼容。这可以从它的编码序列看出来。

GBK 采用双字节表示，总体编码范围为 0x8140-0xFEFE（1000000101000000-1111111011111110），首字节在 0x81-0xFE 之间，尾字节在 0x40-0xFE之间。可以看出首字节最高位都为1，这样一来，如果尾字节后的字节最高位为0，那么就可以解析为一个ASCII编码字符，否则就是一个连续的二字节字符。

Unicode

世界上存在着多种语言，有没有一种编码方式能够囊括所有语言中的字符呢？答案是有。Unicode编码正是为了满足这种需求制定的。Unicode是一个很大的集合，目前的规模可以容纳100多万个符号。每个符号的编码都不一样，这么多的字符，想要以二进制形式表示，就需要比较多的字节才能够一一对应。标准的Unicode采用4个字节表示一个字符串。这个四字节的二进制代码，称为这个字符的码点。比如，U+0639表示阿拉伯字母Ain，U+0041表示英语的大写字母A，U+ 4E6D表示汉字"乭 "。访问unicode.org可以查询具体的符号对应表。

使用4个字节表示一个字符的方法显然不够科学，因为很多英文字母只需要一个字节就可以表示了，偏要用四个字节表示就会造成很大的浪费。于是就出现了UTF-8 编码。

Unicode只是规定了字符如何编码，并没有规定如何存储和传输。 UTF-8编码就是Unicode编码的一种实现方式，它规定可以使用1~4个字节表示一个字符，根据所要表现的字符不同而变化字节长度，英文字母就用1个字节表示，汉字就用2-3个字节表示。

那么问题来了，由于计算机中的字符串是连续的0101的编码，如何既能够表示一个字符在Unicode编码表中的码点，又能够让计算机明白这个连续编码串中的一个字节就是一个英文字母，而不与他前面的编码串构成两个或三个字节表示的字符。UTF-8 的编码的设计者巧妙的解决了这个问题。

英文字符这些原本就可以用ASCII码表示的字符用UTF-8表示时就只需要一个字节的空间，和ASCII是一样的。对于多字节（n个字节）的字符，第一个字节的前n为都设为1，第n+1位设为0，后面字节的前两位都设为10。剩下的二进制位全部用该字符的Unicode码填充。

0001 0000~0010 FFFF | 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

这样的编码方式很好理解，如果一个字节当中第一位是0，那么这个字节就对应着一个字符，如果第一位是1，那么看他后面连续有多少个1，就表示这个字符占用了多少个字节。例如，“我”的Unicode码点是0x6211，二进制110001000010001，落在第三行的范围内（0000 0800~0000 FFFF），因此"我"需要三个字节，格式是"1110xxxx 10xxxxxx 10xxxxxx"。然后，从"我"的最后一个二进制位开始，依次从后向前填入格式中的x，多出的位补0。这样就得到了"我"的UTF-8编码是"11100110 10001000 10010001 "，转换成十六进制就是E68891，这才是最终存储在计算机中的二进制编码。

这里指出一个误区，网络上有很多在线utf8编码转换工具，声称可以把汉字转换成UTF-8 编码，其实大多数工具只是把汉字转换成了与之对应的unicode码点，并不是真正在存储和传输过程中的utf-8编码。这里可以查询汉字对应的utf-8编码和unicode编码，可以看出这两者是不同的。

除了UTF-8之外，Unicode的实现方式还有UTF-16 ，UTF-32 。 UTF-16 使用2~4个字节表示一个字符，UTF-32 则使用标准的4个字节表示一个字符，与其Unicode码点一一对应。无论采用哪种表现形式，同一字符所对应的Unicode码点都是一样的，只不过在存储和传输的时候，把码点做了不同的转换。

PYTHON字符编码

下面开始讲讲Python中的编码问题。

Python的默认编码是ASCII，这跟它的诞生背景有关，Python的诞生时间是1989年，Unicode于 1994年才正式公布，在Python诞生之初并无Unicode可用，只能选择ASCII。后来做了多方改进，才使得它适用于非英语系的用户。

如果不做修改，Python将使用ASCII为所有代码编码，包括注释。

>>> import sys

>>> sys.getdefaultencoding()

'ascii'

在编写python代码时如果不指定文件的编码方式，将默认使用ASCII编码。所以如果在代码中出现中文，将会报错

#stringtest.py

print '你好'

C:\Python27\python.exe D:/MyGit/demo/test/test.py
File "D:/MyGit/demo/test/test.py", line 1
SyntaxError: Non-ASCII character '\xe4' in file D:/MyGit/demo/test/test.py on line 1, but no encoding declared; see http://python.org/dev/peps/pep-0263/ for details

如果想在代码中使用中文，则一定要在代码开头（第一行或第二行）声明此文件的编码方式，比如编码方式设为UTF-8

# -*- coding: utf-8 -*-

或者

#!/usr/bin/python

# -*- coding: utf-8 -*-

其中第一行注释是为了告诉Linux/OS X系统，这是一个Python可执行程序，Windows系统会忽略这个注释。

这样，在代码中就可以使用中文了。

（完）

python语言中的编码问题的更多相关文章

python语言中的编码问题(续)
上文提到了python开发中非常重要的两处设置. 一个是编解码器的默认设置defaultencoding >>> import sys >>> sys.getdef ...
Python语言中各种进制相互转换
目录 Python语言中各种进制相互转换将二进制.八进制.十进制的数分别转换成十进制的方法将十进制转换成二进制.八进制.十六进制 Python语言中各种进制相互转换本文参考自https://ww ...
Python语言中的关键字（自己做的读书笔记）
电脑配置:联想笔记本电脑 windows8系统 Python版本:2.7.8 本文章撰写时间:2015.1.1 作者:陈东陈阅读说明: 1.本文都是先解释,后放图片: 2.文中斜体部分要么为需要输入 ...
聊聊python 2中的编码
为什么需要编码: 计算机可以存储和处理二进制,那么从文字到计算机可以识别的二进制之间需要对应的关系,于是便有了ASCII,ASSCII使用7位字符,由于1byte=8bit,所以最高位补一个0,使用8 ...
Python 2 中的编码
在 Python 尤其是 Python2 中,编码问题是困扰开发者尤其初学者的一大问题.什么 Unicode/UTF-8/str ,又是 decode/encode 的,搞得人头都大了.其实不然,这有 ...
了解 Python 语言中的时间处理
python 语言对于时间的处理继承了 C语言的传统,时间值是以秒为单位的浮点数,记录的是从1970年1月1日零点到现在的秒数,这个秒数可以转换成我们日常可阅读形式的日期和时间:我们下面首先来看一下p ...
python 2 和python 3 中的编码对比
在 Python 中,不论是 Python2 还是 Python3 中,总体上说,字符都只有两大类: 通用的 Unicode 字符: (unicode 被编码后的)某种编码类型的字符,比如 UTF-8 ...
day06 python 3中的编码
#python2 和 python3 的一些区别 ''' #python2 print('aaa') print'aaa' range() xrange()生成器 raw_input() #pytho ...
Python语言中的按位运算
(转)位操作是程序设计中对位模式或二进制数的一元和二元操作. 在许多古老的微处理器上, 位运算比加减运算略快, 通常位运算比乘除法运算要快很多. 在现代架构中, 情况并非如此:位运算的运算速度通常与加 ...

随机推荐

如何区别exists与not exists?
1.exists:sql返回结果集为真:not exists:sql不返回结果集为真.详解过程如图: exists not exists
[AlwaysOn Availability Groups]健康模型 Part 1——概述
健康模型概述在成功部署AG之后,跟踪和维护健康状况是很重要的. 1.AG健康模型概述 AG的健康模型是基于策略管理(Policy Based Management PBM)的.如果不熟悉这个特性,可 ...
jsp
-----------------
关于Hadoop用户体系的设想（胡思乱想）
关于Hadoop的用户体系设计设想 Hadoop并没有一个完整的用户体系,其权限控制的对象,主要是Linux的其它用户(即非安装Hadoop的用户),控制方式也和Linux的文件权限很像,目前权限控制 ...
D3.js学习（七）
上一节中我们学会了如何旋转x轴标签以及自定义标签内容,在这一节中,我们将接触动画(transition) 首先,我们要在页面上添加一个按钮,当我们点击这个按钮时,调用我们的动画.所以,我们还需要在原来 ...
《图解HTTP》读书笔记
目前国内讲解HTTP协议的书是在太少了,记忆中有两本被誉为经典的书<HTTP权威指南>与<TCP/IP详解,卷1>,但内容晦涩难懂,学习难度较大.其实,HTTP协议并不复杂,理 ...
php缓冲区详解
什么是缓冲区(buffer)? 简单而言,缓冲区的作用就是,把输入或者输出的内容先放进内存,而不显示或者读取.至于为什么要有缓冲区,这是一个很广泛的问题,如果有兴趣,可以在网山找下资料. 其实缓冲区最 ...
iOS 关于PCH文件(全局文件)的介绍
1.pch文件是什么 pch文件即扩展名为.pch的预编译文件.是将工程中较稳定的不会经常修改的代码预先编译好,放在一个公共的文件(.pch)里. 2.pch 文件的作用 A.存放宏. 比如 #d ...
★Kali信息收集~ 5.The Harvester：邮箱挖掘器
官网:http://www.edge-security.com 安装:apt-get install theHarvester 运行:终端输入 theharvester (小写) 用法+参数:(返回邮 ...
牛逼的css3:动态过渡与图形变换
写css3的属性的时候,最好加上浏览器内核标识,进行兼容. -ms-transform:scale(2,4); /* IE 9 */ -moz-transform:scale(2,4); /* Fir ...

python语言中的编码问题

python语言中的编码问题的更多相关文章

随机推荐

热门专题