python字符编码与解码 unicode，str

解释以下几个问题：

（1）python2中str和unicode是两种字符串类型，与字符编码方式是什么关系？

（2）str和unicode是怎么相互转换的？

（3）'\x...'；'\u...', '\U...'； u'...',u'\u...',u'\U...'这些都是什么意思？

（4）字符“汉”在str类型下显示为 '\xe6\xb1\x89'，在unicode类型下为啥是这样： u'\u6c49'，两者之间什么关系？

（5）unicode-escape又是啥？

回答如下：

一、字符编码

　　首先一点是“字符编码”（charcater coding）问题，即每个字符与某个数值（编码）的一一映射，

称为码位值（code point or code position）。早期的ASCII编码用8位二进制（一个字节），

即数值0~255范围编码了128个字符，因为英文字母就那26个，加上大小写以及一些标点符号，也够用了。

但是各国语言符号多种多样，0~255范围显然不够用，于是又有了GBK等各种编码，

最后，为了编码所有的字符，产生了统一标准：Unicode(此Unicode非pyhton中的unicode类型)，

各种字符都能在Unicode中找到对应的码位值。

　　注：在下文中，各种进制用英文缩写代替：十进制：DEC，十六进制：HEX，二进制：BIN。

　　比如，汉字字符“汉”在Unicode下的码位值为：

DEC	27721
HEX	6c49
BIN	0110 1100 0100 1001

　　接下来的问题就是，Unicode具体怎样存储和传输，如果用两个字节，最大就是65535，汉字据说有超过十万个，

再加上其他语言的字符，这显然不够，需要更多字节。Unicode有两种格式：UCS-2和UCS-4，UCS-2就是用2个字节，

UCS-4用4个字节，4个字节最大可达42亿，应该是够了。但是，假如为了涵盖各种字符编码，每个字符都用4个字节，

那在存储和传输中就浪费了大量空间，比如英文字母只需一个字节，而字符“汉”只需两个字节。为了节省空间，

变长编码应运而生，但是计算机在读取二进制编码时，怎么知道一个字符该读几个字节，这就需要把字符所需字节数的信息

也编码到二进制中，UTF-8就是这样的编码。

　　在UTF-8中，对于单字节字符，UTF-8兼容ASCII，两者编码相同；对于多字节字符，字节数的信息编码在第一个字节中，

字节数用1的个数表示，再用0隔开，接着是原来的Unicode编码，后面每个字节均以10开头，具体如下所示：

　　还是以字符“汉”为例，来对比下Unicode编码和UTF-8编码，

其中，utf8二进制前4个数为1110，即表示此字符占用三个字节：

Unicode(HEX)	6c 49
Unicode(BIN)	,
UTF-8(BIN)	1110 , 1011 , 10
UTF-8(HEX)	e6 b1 89

二、str和unicode

　　python2中的str和unicode是两种字符串类型（class）。

　　unicode就是以Unicode编码为基础的字符串类型，赋值格式为u'xxx'，

相较于一般的字符串赋值，多了一个前缀"u"，还是以字符“汉”为例，我看到的格式有三种:

#  === 第一种，直接是字符 ===

In [10]: u'汉'

Out[10]: u'\u6c49'

In [11]: print u'汉'

汉

#  === 第二种，双字节十六进制，\u小写 ===

In [14]: u'\u6c49'

Out[14]: u'\u6c49'

In [15]: print u'\u6c49'

汉

#  === 第三种，四字节十六进制，\U大写 ===

In [16]: u'\U00006c49'

Out[16]: u'\u6c49'

In [17]: print u'\U00006c49'

汉

注意如果把第三种中的4个0省掉，会报错。

　　str是另一种字符串，用于存储和传输的编码字符串，因此不同于unicode类型，

unicode类型字符串需要经过再次编码（encode）得到str类型字符串。

In [19]: su = u'汉'

In [20]: su

Out[20]: u'\u6c49'

In [21]: s = su.encode('utf8')

In [22]: s

Out[22]: '\xe6\xb1\x89'  #  三个字节构成

In [23]: print s

汉

In [24]: sg = su.encode('gbk')

In [25]: sg

Out[25]: '\xba\xba'  # 两个字节构成

In [26]: print sg

ºº   # 环境默认编码不是gbk，因此显示乱码

In [30]: len(su)

Out[30]: 1

In [31]: len(s)

Out[31]: 3

In [32]: len(sg)

Out[32]: 2

反过来，str也可以解码（decode）得到unicode类型。（这里的“\x”是十六进制转义的意思，后面跟的是十六进制数字）

In [34]: s.decode('utf8')

Out[34]: u'\u6c49'

In [35]: print s.decode('utf8')

汉

In [36]: sg.decode('gbk')

Out[36]: u'\u6c49'

In [37]: print sg.decode('gbk')

汉

即：

　　　　　　str -- (decode) --> unicode

　　　　　　unicode -- (encode) --> str

　　还有一个问题，字符串'\u6c49'是什么意思，注意这里的'\u6c49'是str类型。

In [40]: ss = '\u6c49'

In [41]: ss

Out[41]: '\\u6c49'

In [42]: print ss

\u6c49

In [44]: ss.decode('unicode-escape')

Out[44]: u'\u6c49'

In [45]: print ss.decode('unicode-escape')

汉

这其实表示的是unicode-escape编码的str变量，类似的还有'\U00006c49'：

In [52]: ss = '\U00006c49'

In [55]: ss.decode('unicode-escape')

Out[55]: u'\u6c49'

In [56]: print ss.decode('unicode-escape')

汉

完毕。

参考文章

【1】字符编码笔记：ASCII，Unicode和UTF-8 by 阮一峰

【2】 https://www.zhihu.com/question/31833164 关注刘志军的回答

【3】 http://www.pitt.edu/~naraehan/python2/unicode.html handling unicode.

python字符编码与解码 unicode，str的更多相关文章

【转】python 字符编码与解码——unicode、str和中文：UnicodeDecodeError: 'ascii' codec can't decode
原文网址:http://blog.csdn.net/trochiluses/article/details/16825269 摘要:在进行python脚本的编写时,如果我们用python来处理网页数据 ...
Python字符编码详解，str,bytes
什么是明文 “明文”是可以是文本,音乐,可以编码成mp3文件.明文可以是图像的,可以编码为gif.png或jpg文件.明文是电影的,可以编码成wmv文件.不一而足. 什么是编码?把明文变成计算机语言 ...
【ABAP系列】SAP ABAP 字符编码与解码、Unicode
公众号:SAP Technical 本文作者:matinal 原文出处:http://www.cnblogs.com/SAPmatinal/ 原文链接:[ABAP系列]SAP ABAP 字符编码与解码 ...
Python 字符编码 zz
http://www.cnblogs.com/huxi/archive/2010/12/05/1897271.html 1. 字符编码简介 1.1. ASCII ASCII(American Stan ...
Python字符编码详解
1. 字符编码简介 1.1. ASCII ASCII(American Standard Code for Information Interchange),是一种单字节的编码.计算机世界里一开始只有 ...
【转】Python字符编码详解
转自:http://www.cnblogs.com/huxi/archive/2010/12/05/1897271.html 1. 字符编码简介 1.1. ASCII ASCII(American S ...
Python字符编码讲解
声明:本文参考 Python字符编码详解在计算机中我们不管用什么语言和程序,最终数据在计算机中的都是字节码(也就是01形式)的形式存在的,如果计算机直接把字节码显示在屏幕上,很明显一般人看不懂字节 ...
Python2/3的中、英文字符编码与解码输出： UnicodeDecodeError: 'ascii' codec can't decode/encode
摘要:Python中文虐我千百遍,我待Python如初恋.本文主要介绍在Python2/3交互模式下,通过对中文.英文的处理输出,理解Python的字符编码与解码问题(以点破面). 前言:字符串的编码 ...
深入理解Python字符编码--转
http://blog.51cto.com/9478652/2057896 不论你是有着多年经验的 Python 老司机还是刚入门 Python 不久,你一定遇到过UnicodeEncodeError ...

随机推荐

python多进程之Process
由于fork创建进程不能在windows系统上使用,所以产生了multiprocessing.Process Process可以直接实例化然后用start调用,需要指定新的进程执行的函数,用元组的方式 ...
Ubuntu安装CUDA9.0 + cuDNN
本篇文章是基于安装CUDA 9.0的经验写,CUDA9.0目前支持Ubuntu16.04和Ubuntu17.04两个版本,如下图所示(最下面的安装方式我们选择第一个,即runfile方式): 下载链接 ...
题解【luoguP1351 NOIp提高组2014 联合权值】
题目链接题意:给定一个无根树,每个点有一个权值.若两个点 \(i,j\) 之间距离为\(2\),则有联合权值 \(w_i \times w_j\).求所有的联合权值的和与最大值分析: 暴力求,每个 ...
oracle 国外网站【转载】
[转自]:http://www.2cto.com/database/201406/306615.html 1. http://www.oratechinfo.co.uk/ http://www.ora ...
如何写出高性能DOM？
为什么要写高性能DOM? 一个网站,在页面上承载最多内容的就是DOM,而且无论是我们通过加载JS.加载图片,他们也是通过写HTML标签来实现的.而我们性能优化要做的无非就是几大块: 站点的网络消耗 D ...
String StrigBuffer StringBuilder 浅解
1.String是最基本的字符串类,用于表示字符串. 特点:对象内容不可变,但可以通过指向不同的对象来“表示”不同的内容. 使用场景:如果不涉及到内容改变,可以使用String. 注意:如果想将Str ...
Spring注解@Resource和@Autowired的区别
@Resource和@Autowired都是用来做bean的依赖注入的,两者都可以写在字段和setter方法上. java为我们提供了 javax.annotation.Resource这个注解. s ...
深度解析Java多线程的内存模型
内部java内存模型硬件层面的内存模型 Java内存模型和硬件内存模型的联系共享对象的可见性资源竞速 Java内存模型很好的说明了JVM是如何在内存里工作的,JVM可以理解为java执行的一个操 ...
当你启动Redis的时候，Redis做了什么
直奔主题,当启动Redis的时候,Redis执行了哪些操作? 假设Redis安装在了/usr/local/目录下,那么启动Redis是通过执行/usr/local/bin/redis-server - ...
js 重置表单
//方法一document.getElementById("myform").reset(); //方法二 ].reset(); //方法三使用input按钮 <input ...

python字符编码与解码 unicode，str

python字符编码与解码 unicode，str的更多相关文章

随机推荐

热门专题