关于Python字符编码encode和decode
(注:本文部分内容摘自互联网,由于作者水平有限,不足之处,还望留言指正。)
记得几天前,部门的一个小姑娘问我,怎么她Python打印出来的中文信息都乱码了?我走过去,略思一二,瞬间给她搞定,其实这是字符编码转换的问题。这时,我注意到小姑娘流露出一丝丝崇拜的眼神。所以我想,如果你连编码问题都搞不定,还怎么泡妞啊。可能一部分人也会进入这种误区,我以我小学生的水平,把我的理解结合网上的资料写下来。
注意:Python3默认编码是unicode;而Python2是ASCII码。Windows环境默认是gbk编码。
常见编码错误原因:
1. Python解释器的默认编码
2. Python源文件文件编码
3. Terminal使用的编码
4. 操作系统的语言设置
一、 编码的种类
I、ASCII 占1个字节,只支持英文
II、GB2312 占2个字节,支持6700+汉字
III、GBK GB2312的升级版,支持21000+汉字,中文2个字节。
IV、Unicode 2-4字节 已经收录136690个字符
V、UTF-8: 使用1、2、3、4个字节表示所有字符;优先使用1个字符、无法满足则使增加一个字节,最多4个字节。英文占1个字
节、欧洲语系占2个、东亚占3个,其它及特殊字符占4个。中文3个字节。
VI、UTF-16: 使用2、4个字节表示所有字符;优先使用2个字节,否则使用4个字节表示。
二、 Python3的执行过程
1.解释器找到代码文件,把代码字符串按文件头定义的编码加载到内存,转成unicode
2.把代码字符串按照语法规则进行解释,
3.所有的变量字符都会以unicode编码声明
Py3 自动把文件编码转为unicode,Python2并不会自动的把文件编码转为unicode存在内存里。需要手动转码。
三、手动转码规则
UTF-8 --> decode 解码 --> Unicode
Unicode --> encode 编码 --> GBK / UTF-8 等
使用type可以查看编码形式,unicode是‘unicode’,gbk和utf-8是‘str或bytes’。
实例:
Python2中默认是ASCII码
#coding=utf-8
#Python2中默认是ASCII码,一般会加入以utf-8编程
a = '编码' # a是utf-8类型
b = a.decode('utf-8') # b是Unicode类型
c = b.encode('gbk') #c是gbk类型
d = c.decode('gbk').encode('utf-8') #先将c转换成Unicode,再转成utf-8
print a ,b,c,d
print type(a),type(b),type(c),type(d)
输出结果
Python3中默认是unicode
a = '编码' # a是unicode类型
b = a.encode('utf-8') # b是utf-8类型
c = a.encode('gbk') #c是gbk类型
print (a ,b,c)
print (type(a),type(b),type(c))
#python3默认是unicode类型
输出结果
在Windows中默认gbk
>>> a = '编码'
>>> b = a.decode('gbk') #windows默认是gbk,先解码成unicode
>>> c = b.encode('utf-8') #unicode转换成utf-8
>>> a
'\xb1\xe0\xc2\xeb'
>>> b
u'\u7f16\u7801'
>>> c
'\xe7\xbc\x96\xe7\xa0\x81'
>>> print(a,b,c)
('\xb1\xe0\xc2\xeb', u'\u7f16\u7801', '\xe7\xbc\x96\xe7\xa0\x81')
>>> type(a)
<type 'str'>
>>> type(b)
<type 'unicode'>
>>> type(c)
<type 'str'>
>>>
就写这些吧。
哎,我们曾经有梦,可是那一年毕业了,梦去另一个城市搬砖了。梦是我同学呀。
关于Python字符编码encode和decode的更多相关文章
- python 字符编码练习
通过下面的练习,加深对python字符编码的认识 # \x00 - \xff 256个字符 >>> a = range(256)>>> b = bytes(a) # ...
- Python字符编码讲解
声明:本文参考 Python字符编码详解 在计算机中我们不管用什么语言和程序,最终数据在计算机中的都是字节码(也就是01形式)的形式存在的,如果 计算机直接把字节码显示在屏幕上,很明显一般人看不懂字节 ...
- Python字符串的encode与decode研究心得——解决乱码问题
转~Python字符串的encode与decode研究心得——解决乱码问题 为什么Python使用过程中会出现各式各样的乱码问题,明明是中文字符却显示成“/xe4/xb8/xad/xe6/x96/x8 ...
- 深入理解Python字符编码--转
http://blog.51cto.com/9478652/2057896 不论你是有着多年经验的 Python 老司机还是刚入门 Python 不久,你一定遇到过UnicodeEncodeError ...
- 深入理解Python字符编码
不论你是有着多年经验的 Python 老司机还是刚入门 Python 不久,你一定遇到过UnicodeEncodeError.UnicodeDecodeError 错误,每当遇到错误我们就拿着 enc ...
- Python字符编码详解,str,bytes
什么是明文 “明文”是可以是文本,音乐,可以编码成mp3文件.明文可以是图像的,可以编码为gif.png或jpg文件.明文是电影的,可以编码成wmv文件.不一而足. 什么是编码?把明文变成计算机语言 ...
- Python字符编码补充
字符编码: Python字符编码贯穿Python学习的始终,现在应用的是Python2中字符编码的问题是很多的. 这次是要彻底解决Python字符编码的问题!!! 1 字符编码的发展过程: 1 .AS ...
- python --- 字符编码学习小结(二)
距离上一篇的python --- 字符编码学习小结(一)已经过去2年了,2年的时间里,确实也遇到了各种各样的字符编码问题,也能解决,但是每次都是把所有的方法都试一遍,然后终于正常.这种方法显然是不科学 ...
- 转1:Python字符编码详解
Python27字符编码详解 声明 一 字符编码基础 1 抽象字符清单ACR 2 已编码字符集CCS 3 字符编码格式CEF 31 ASCII初创 311 ASCII 312 EASCII 32 MB ...
随机推荐
- 微软公布带外安全更新MS14-068
11月19日,微软公布了带外更新MS14-068以解决Windows 系统中的一个安全漏洞,该补丁安全等级为"严重". MS14-068 | Kerberos 中的漏洞可能同 ...
- oracle锁一些知识
表级锁共具有五种模式,如下所示. 行级排他锁(Row Exclusive,简称RX锁) 当我们进行DML时会自动在被更新的表上添加RX锁,或者也可以通过执行lock命令显式的在表上添加RX锁.在该锁定 ...
- asp.net session丢失的解决方法小结
现在我就把原因和解决办法写出来. ASP.NET Session丢失原因: 由于Asp.net程序是默认配置,所以Web.Config文件中关于Session的设定如下: < sessionSt ...
- Asp.net控制Tomcat启动关闭的实现方法
一.场景 近日有个项目客户要求能自己配置相关权限.由于历史原因这个项目采用的是公司以前的权限系统.这个权限系统很强大,不过有个弊端,就是每增加一个权限菜单都要重启才能生效,不然就要等1天它缓存过期后才 ...
- 一个简单的flask应用
一个简单的flask应用,文件名hello.py from flask import Flask app = Flask(__name__) @app.route('/') def hello_wor ...
- Ubuntu安装qBittorrent
qBitTorrent是Ubuntu Linux中最受欢迎的P2P软件之中的一个. 出自一名法国大学生之手的qBitTorrent功能强大.界面精美.操作直观. qBitTorrent是Linux中最 ...
- boost::archive::binary_iarchive
#include <iostream> #include <string> #include <sstream> #include <vector> # ...
- 微信小程序直播
微信小程序直播(转) 通过PC实现推流,然后用小程序进行直播播放,也就是PC->小程序. 小程序支持 小程序的直播能力只针对某些类目开放并且需要申请开通. 支持的类目 社交 直播 教育 在线教育 ...
- vue+node+mongoDB 火车票H5(一)---准备工作,基本配置
前端菜鸟一枚,由于公司项目用到了vue,我虽然参与了,但是很多环境配置和流程还不是特别清楚,就想自己个人业余做个webapp看看, 对于完全新手而言,很多坑会纠结很久,所以想借此机会自己做的同时记录各 ...
- 160801、BlockingQueue处理多线程
前面介绍过spring的taskExecutor,今天介绍一个jdk里处理多线程的方法 一.spring的配置文件(注入bean) <bean id="cmsClickButtonMn ...