1 模块简介

Python 3中最大的变化之一就是删除了Unicode类型。在Python 2中,有str类型和unicode类型,例如,

Python 2.7.6 (default, Oct 26 2016, 20:30:19)
[GCC 4.8.4] on linux2
Type "help", "copyright", "credits" or "license" for more information.
>>> x = "blah"
>>> type(x)
<type 'str'>
>>> y = u"blah"
>>> type(y)
<type 'unicode'>

如果我们在Python 3中输入同样的代码,你将会发现,最终返回的都是一个字符串类型。

Python 3.4.3 (default, Nov 17 2016, 01:08:31)
[GCC 4.8.4] on linux
Type "help", "copyright", "credits" or "license" for more information.
>>> x = "blah"
>>> type(x)
<class 'str'>
>>> y = u"blah"
>>> type(y)
<class 'str'>

Python 3默认的是UTF-8编码。这意味着你可以在字符串或者变量名中使用Unciode字符集。让我们看看实际中是如何运用的。

在Python 2输入如下代码,在变量名中使用Unicode编码,不出意料的化,最终会抛出SyntaxError错误。

>>> 中国 = "china"
File "<stdin>", line 1
中国 = "china"
^
SyntaxError: invalid syntax

在Python 3中输入同样的代码,然后将该变量输出到控制台,可以看到,Unicode变量名在Python 3中可以正常工作。

>>> 中国 = "china"
>>> 中国
'china'

在Python 2中,当读取一个不是ASCII编码的文件或者网页时,我经常会遇到莫名其妙的编码问题。你可能会看到你的输出结果类似于如下示例,

#Python 2
>>> "abcdef" + chr(255)
'abcdef\xff'

你将会注意到字符串的末尾有一些有意思的字符。那应该是一个不可显示的字符,而不是xff(\xff是这个字符的16进制表示)。在Python 3中,你将会得到你期望的输出,

#Python 3
>>> "abcdef" + chr(255)
'abcdefÿ'

过去我在Python 2中常常通过会调用Python内置的unicode函数来试图解决这个问题。它是将一个字符串转换为Unicode格式。下面的代码哪块出错了?

#Python 2
>>> unicode('abcdef' + chr(255))
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
UnicodeDecodeError: 'ascii' codec can't decode byte 0xff in position 6: ordinal not in range(128)

UnicodeDecodeError错误可以说是Python 2中最为头疼的问题。我曾经在一些项目上花费很多的时间来解决这个问题。我期待在Python 3中不要再和这些问题打交道了。我知道Python 包索引(PyPI)中提供了一个叫做Unidecode的库,可以处理大部分的Unicode字符,并将它们转换为ASCII字符。我已经利用这个工具去解决输入的一些特定问题了。

2 编码/解码

你很快就可以了解到你既不能对一个unicode字符串进行解码,也不能对一个str类型的字符串进行编码。如果你尝试对一个unicode类型的字符串解码为ascii,例如,将其转换为字节字符串,你将会得到一个UnicodeEncodeError错误。如下所示,

# Python 2
# 解码
>>> u"\xa0".decode("ascii")
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
UnicodeEncodeError: 'ascii' codec can't encode character u'\xa0' in position 0: ordinal not in range(128)
# 编码
>>> "\xa0".encode("ascii")
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
UnicodeDecodeError: 'ascii' codec can't decode byte 0xa0 in position 0: ordinal not in range(128)

如果你在Python 3中输入同样的代码,你就会得到一个AttributeError错误,

# Python 3
>>> u"\xa0".decode("ascii")
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
AttributeError: 'str' object has no attribute 'decode'

原因就是Python 3中的字符串并没有decode属性。但是字节字符串有decode这个属性,让我们用字节字符串作为示例,

# Python 3
>>> b"\xa0".decode("ascii")
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
UnicodeDecodeError: 'ascii' codec can't decode byte 0xa0 in position 0: ordinal not in range(128)

但是ASCII编码依然不知道如何处理我们传入的字符。幸运的是,你可以传入额外的参数用于指定解码方法,如下所示,

# Python 3
>>> b"\xa0".decode("ascii","replace")
'�'
>>> b"\xa0".decode("ascii","ignore")
''

当我们指定解码方法为替换这个字符或者忽略它,我们可以看到解码后的结果。

让我们来通过一个Python官方文档中提供的实例,来学习如何对一个字符串进行编码。

# Python 3
>>> u = chr(40960) + "abcd" + chr(1972)
>>> u
'ꀀabcd\u07b4'
>>> u.encode("ascii")
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
UnicodeEncodeError: 'ascii' codec can't encode character '\ua000' in position 0: ordinal not in range(128)
>>> u.encode("ascii","ignore")
b'abcd'
>>> u.encode("ascii","replace")
b'?abcd?'

这个例子中,我们定义一个字符串,并在字符串的开始和末尾分为添加一个非ASCII字符。然后我们使用编码方法,尝试着将这个字符串转换为一个Unicode字符串的字节表示。第一个尝试失败了,然后返回给我们一个错误。下一个尝试使用了 ignore 标志位,将字符串中的非ASCII字符全部删除。最后一个尝试使用了 replace 标志位,将未知的Unicode字符全部替换为问号。

如果你右很多与编码相关的任务,Python也提供了codecs模块,你可以参考。

总结

截至到目前,你已经对如何使用Unicode非常了解了。Unicode使得你的应用可以在代码中或者输出上支持其他语言。你也初步接触了Pythono中对字符串的编码和解码。对于这部分,Python官方文档提供了非常丰富的资料,如果你需要了解更多,情查阅它。

3 Reference

Python 201

Python标准模块--Unicode的更多相关文章

  1. Python标准模块--threading

    1 模块简介 threading模块在Python1.5.2中首次引入,是低级thread模块的一个增强版.threading模块让线程使用起来更加容易,允许程序同一时间运行多个操作. 不过请注意,P ...

  2. Python标准模块--logging

    1 logging模块简介 logging模块是Python内置的标准模块,主要用于输出运行日志,可以设置输出日志的等级.日志保存路径.日志文件回滚等:相比print,具备如下优点: 可以通过设置不同 ...

  3. Python标准模块--importlib

    作者:zhbzz2007 出处:http://www.cnblogs.com/zhbzz2007 欢迎转载,也请保留这段声明.谢谢! 1 模块简介 Python提供了importlib包作为标准库的一 ...

  4. Thread类的其他方法,同步锁,死锁与递归锁,信号量,事件,条件,定时器,队列,Python标准模块--concurrent.futures

    参考博客: https://www.cnblogs.com/xiao987334176/p/9046028.html 线程简述 什么是线程?线程是cpu调度的最小单位进程是资源分配的最小单位 进程和线 ...

  5. python 全栈开发,Day42(Thread类的其他方法,同步锁,死锁与递归锁,信号量,事件,条件,定时器,队列,Python标准模块--concurrent.futures)

    昨日内容回顾 线程什么是线程?线程是cpu调度的最小单位进程是资源分配的最小单位 进程和线程是什么关系? 线程是在进程中的 一个执行单位 多进程 本质上开启的这个进程里就有一个线程 多线程 单纯的在当 ...

  6. 【转】Python标准模块--importlib

    [转]Python标准模块--importlib 作者:zhbzz2007 出处:http://www.cnblogs.com/zhbzz2007 欢迎转载,也请保留这段声明.谢谢! 1 模块简介 P ...

  7. Python标准模块--logging(转载)

    转载地址:http://www.cnblogs.com/zhbzz2007/p/5943685.html#undefined Python标准模块--logging 1 logging模块简介 log ...

  8. python全栈开发,Day42(Thread类的其他方法,同步锁,死锁与递归锁,信号量,事件,条件,定时器,队列,Python标准模块--concurrent.futures)

    昨日内容回顾 线程 什么是线程? 线程是cpu调度的最小单位 进程是资源分配的最小单位 进程和线程是什么关系? 线程是在进程中的一个执行单位 多进程 本质上开启的这个进程里就有一个线程 多线程 单纯的 ...

  9. python标准模块(二)

    本文会涉及到的模块: json.pickle urllib.Requests xml.etree configparser shutil.zipfile.tarfile 1. json & p ...

随机推荐

  1. [虾扯蛋] android界面框架-Window

    从纯sdk及framwork的角度看,android中界面框架相关的类型有:Window,WindowManager,View等.下面就以这几个类为出发点来概览下安卓开发的"界面架构&quo ...

  2. 深入理解BFC

    定义 在解释BFC之前,先说一下文档流.我们常说的文档流其实分为定位流.浮动流和普通流三种.而普通流其实就是指BFC中的FC.FC是formatting context的首字母缩写,直译过来是格式化上 ...

  3. jQuery学习之路(6)- 简单的表格应用

    ▓▓▓▓▓▓ 大致介绍 在CSS技术之前,网页的布局基本都是依靠表格制作,当有了CSS之后,表格就被很多设计师所抛弃,但是表格也有他的用武之地,比如数据列表,下面以表格中常见的几个应用来加深对jQue ...

  4. [C#] C# 知识回顾 - 特性 Attribute

    C# 知识回顾 - 特性 Attribute [博主]反骨仔 [原文地址]http://www.cnblogs.com/liqingwen/p/5911289.html 目录 特性简介 使用特性 特性 ...

  5. [原] 利用 OVS 建立 VxLAN 虚拟网络实验

    OVS 配置 VxLAN HOST A ------------------------------------------ | zh-veth0(10.1.1.1) VM A | | ---|--- ...

  6. (翻译)FIFO In Hardware

    翻译一些自己觉得有价值的材料,工作中碰到英语大多数是读,基本没有写或者翻的,翻得不好不到位的敬请指摘. 同时也附原文以供参考. http://electronics.stackexchange.com ...

  7. C# 序列化与反序列化几种格式的转换

    这里介绍了几种方式之间的序列化与反序列化之间的转换 首先介绍的如何序列化,将object对象序列化常见的两种方式即string和xml对象; 第一种将object转换为string对象,这种比较简单没 ...

  8. 设计模式之单例模式(Singleton)

    设计模式之单例模式(Singleton) 设计模式是前辈的一些经验总结之后的精髓,学习设计模式可以针对不同的问题给出更加优雅的解答 单例模式可分为俩种:懒汉模式和饿汉模式.俩种模式分别有不同的优势和缺 ...

  9. 茂名石化BPM应用实践 ——业务协同及服务共享平台建设和应用

    一.茂名石化简介 茂名石化隶属于中国石油化工集团公司,创建于1955年,是国家"一五"期间156项重点项目之一.经过50多年的发展,茂名石化已成为我国生产规模最大的炼油化工企业之一 ...

  10. arcpy+PyQt+py2exe快速开发桌面端ArcGIS应用程序

    前段时间有一个项目,大体是要做一个GIS数据处理工具. 一般的方法是基于ArcObjects来进行开发,因为我对ArcObjects不太熟悉,所以就思考有没有其他简单快速的方法来做. 在查看ArcGI ...