Python中文虐我千百遍,我待Python如初恋。本文主要介绍在Python2/3交互模式下,通过对中文、英文的处理输出,理解Python的字符编码与解码问题(以点破面)。

前言:字符串的编码一开始是 ascii,只支持英文,由于多种语言的存在,出现万国码 unicode,但 unicode 不兼容 ascii,而且对存储空间造成浪费,所以出现 utf-8 编码,一种针对 unicode 的可变长度字符编码。

Python3的字符编码与解码输出

 >>> hi = b'hello, world'
>>> hi
b'hello, world'
>>> print(hi)
b'hello, world'
>>> hi.decode('utf-8')
'hello, world'
 >>> hey = '你好'
>>> hey
'你好'
>>> print(hey)
你好
>>> unihey = hey.encode('unicode_escape')
>>> unihey
b'\\u4f60\\u597d'
>>> print(unihey)
b'\\u4f60\\u597d'
>>> unihey.decode('unicode_escape')
'你好'
>>> '\u4f60\u597d'
'你好'

在 Python3 中共有两种字符序列。一种是 str 序列,默认对字符串编码;一种是 bytes 序列,操作二进制数据流,如代码段一中的 hi,通过在字符串前的 b,即表示 bytes 。这两种序列可通过 decode 和 encode 相互转换,如下图:

在代码段一中,通过对 bytes 以 utf-8 的格式解码,得到 str。除此之外,还可通过 unicode_escape、gbk 等格式解码;

在代码段二中,通过对 str 的中文 hey 以 unicode_escape 的格式编码,得到 bytes 。用什么格式编码就用什么解码,即可得到原字符。

由于 Python3 对中文的支持友好,将 unihey 中的转义符 \ 去掉,在交互模式下可直接显示中文。

在网络传输中,如 urllib、request 等获取数据的库,通常返回 bytes 序列,这时可通过 decode 指定相应的格式经行解码,获取中文字符。

Python2的字符编码与解码输出

 >>> hi = u'hello, world'
>>> hi
u'hello, world'
>>> print hi
hello, world
>>> hi.encode('utf-8')
'hello, world'
>>> hi.encode('unicode_escape')
'hello, world'
 >>> hey = '你好'
>>> hey
'\xc4\xe3\xba\xc3'
>>> print hey
你好
>>> uhey = u'你好'
>>> uhey
u'\u4f60\u597d'
>>> print uhey
你好
>>> ghey = uhey.encode('gbk')
>>> ghey
'\xc4\xe3\xba\xc3'
>>> print ghey
你好
>>> hey.decode('gbk')
u'\u4f60\u597d'
>>> print hey.decode('gbk')
你好
>>> '\u4f60\u597d'
'\\u4f60\\u597d'

在 Python2 中也有两种字符序列。一种是 unicode 序列,如代码段一中的 hi,通过在字符串前的 u,即表示 unicode,相当于 Python3 中的 str;一种是 str 序列,相当于 Python3 中的 bytes 。这两种序列可通过 decode 和 encode 相互转换,如下图:

在代码段一中,通过对 unicode 以 utf-8、unicode_escape 的格式编码,得到 str;

在代码段二中,通过对 str 的中文 hey 以 gbk 的格式解码,得到 unicode;对 unicode 的中文 uhey 以 gbk 的格式编码,得到 str 。

在 Python 的交互模式下,直接输出是 Python 所理解的代码中的状态,而 print 输出的是给用户看到。

从代码段二的20行、21行可以看出,Python2 对中文的支持没有 Python3 友好。除此之外,当列表中有中文时,Python2 必须遍历列表,才能在交互模式下看到中文,而 Python3 直接打印列表即可。

总结

上述表述可能不到位,欢迎交流讨论!同时我们可以通过 Anaconda 切换不同的 Python 环境,去尝试上述小栗子,随便编码解码,玩坏了算我输~( ̄▽ ̄)~

Python2/3的中、英文字符编码与解码输出: UnicodeDecodeError: 'ascii' codec can't decode/encode的更多相关文章

  1. 【转】python 字符编码与解码——unicode、str和中文:UnicodeDecodeError: 'ascii' codec can't decode

    原文网址:http://blog.csdn.net/trochiluses/article/details/16825269 摘要:在进行python脚本的编写时,如果我们用python来处理网页数据 ...

  2. python2(中文编码问题):UnicodeDecodeError: 'ascii' codec can't decode byte 0x?? in position 1

    python在安装时,默认的编码是ascii,当程序中出现非ascii编码时,python的处理常常会报这样的错UnicodeDecodeError: 'ascii' codec can't deco ...

  3. python2.7 报错(UnicodeDecodeError: 'ascii' codec can't decode byte 0xe6 in position 0: ordinal not in range(128))

    报错: 原来用的python3.5版本后来改为2.7出现了这个错误里面的中文无法显示 UnicodeDecodeError: 'ascii' codec can't decode byte 0xe6 ...

  4. python 默认编码( UnicodeDecodeError: 'ascii' codec can't decode)

    python在安装时,默认的编码是ascii,当程序中出现非ascii编码时,python的处理常常会报这样的错UnicodeDecodeError: 'ascii' codec can't deco ...

  5. python2 UnicodeDecodeError: 'ascii' codec can't decode byte 0xce in position 7: ordinal not in range(128)

    python在安装时,默认的编码是ascii,当程序中出现非ascii编码时,python的处理常常会报这样的错UnicodeDecodeError: 'ascii' codec can't deco ...

  6. python2.7安装第三方库错误:UnicodeDecodeError: 'ascii' codec can't decode byte 0xcb in position 0

    开发环境:win10, x64, pycharm社区版,python2.7.13 python2经常会遇见乱码的问题,并且一遇到中文就乱码.所以我们在安装的时候要注意,无论是解释器interpreto ...

  7. 解决UnicodeDecodeError: 'ascii' codec can't decode byte 0xe7 in position 12: ordinal not in range(128)的编码问题

    当我在运行一个基于scrapy的爬虫时出现UnicodeDecodeError: 'ascii' codec can't decode byte 0xe7 in position 12: ordina ...

  8. python2 当中 遇到 UnicodeDecodeError UnicodeDecodeError: 'ascii' codec can't decode byte 0xe9 in position 37: ordinal not in range(128)

    使用python2 总是遇到 UnicodeDecodeErrorUnicodeDecodeError: 'ascii' codec can't decode byte 0xe9 in positio ...

  9. Anaconda中启动Python时的错误:UnicodeDecodeError: 'gbk' codec can't decode byte 0xaf in position 553

    今天,在Anaconda prompt启动python遇到了如下错误: UnicodeDecodeError: ‘gbk’ codec can’t decode byte 0xaf in positi ...

随机推荐

  1. Spring AOP高级——源码实现(3)AopProxy代理对象之JDK动态代理的创建过程

    spring-aop-4.3.7.RELEASE  在<Spring AOP高级——源码实现(1)动态代理技术>中介绍了两种动态代理技术,当然在Spring AOP中代理对象的生成也是运用 ...

  2. 重启mysql主从同步mongodb(tungsten-replicator)

    1. 连接mysql mysql -uroot -p;(mysql从库) 输入数据库密码 2. 停止主同步 mysql> stop slave; 3. 清数据 将mongo库数据清空 4. 杀主 ...

  3. linux基础命令整理(一)

    ls 显示当前目录内容 1)ls / (显示根目录下所有的目录和文件) 2)ls -l / (以列表的形式显示根目录下所有的目录和文件) 绝对路径和相对路径 1)绝对路径,以/开头的都是绝对路径,比如 ...

  4. 关于Excel数据批量导入数据库的案例

    写这个案例主要是感觉这个功能挺实用,很多地方会用得到的,废话就不多说了,直接上对应的源码. 这个案例我运用的是Winform窗体程序实现数据的导入. 首先是数据库的登陆界面如下: 源码如下: usin ...

  5. 0:A+B Problem-poj

    0:A+B Problem 总时间限制:  1000ms 内存限制:  65536kB 描述 Calculate a + b 输入 Two integer a,,b (0 ≤ a,b ≤ 10) 输出 ...

  6. python实战--数据结构二叉树

    此文将讲述如何用python实战解决二叉树实验 前面已经讲述了python语言的基本用法,现在让我们实战一下具体明确python的用法 点击我进入python速成笔记 先看一下最终效果图: 首先我们要 ...

  7. XSD详解二 - 简易元素、属性、内容限定

    一.XSD 简易元素 XML Schema 可定义 XML 文件的元素. 简易元素指那些只包含文本的元素.它不会包含任何其他的元素或属性. 1.什么是简易元素? 简易元素指那些仅包含文本的元素.它不会 ...

  8. 16. 使用Exhibitor管理ZooKeeper

    Exhibitor是管理ZooKeeper服务实例的主管服务.由Netflix开发和开放源码,对于ZooKeeper的实例监控.备份/恢复.清理和可视化非常有用. Note Netflix Exhib ...

  9. 自己动手实现mybatis动态sql

    发现要坚持写博客真的是一件很困难的事情,各种原因都会导致顾不上博客.本来打算写自己动手实现orm,看看时间,还是先实现一个动态sql,下次有时间再补上orm完整的实现吧. 用过mybatis的人,估计 ...

  10. linux禁用锁定和解除解锁用户账号的方法

    Linux系统使用的是/etc/shadow保存加密了的用户密码,要禁止一个帐号的话,最快的方法就是修改存储于/etc/shadow中的密码. 一般情况下,一个有效的Linux用户在/etc/shad ...