【python】浅谈encode和decode

对于encode和decode，笔者也是根据自己的理解，有不对的地方还请多多指点。

编码的理解：

1.编码：utf-8,utf-16,gbk,gb2312,gb18030等，编码为了便于理解，可以把它当做一个算法，用于加密和解密。基类编码字符集：unicode等，基类编码字符集可以理解为明文。其他编码字符集： ANSCII,汉字等，其他类编码字符集可以理解为密文。三者的关系是明文用算法加密成密文，密文用算法解密成明文。

2.Python 默认脚本文件都是 ANSCII 的，当代码中有非 ANSCII 码范围内的字符的时候（汉字及其他字符）。则需要在程序的第一行或第二行指定编码声明：

# -*- coding=utf-8 -*-或者 #coding=utf-8 其他的编码如：gbk、gb2312也可以；否则会出现类似:SyntaxError: Non-ASCII character '/xe4' in file ChineseTest.py on line 1, but no encoding declared; see http://www.pytho for details这样的异常信息。

编码转换：

一个str转换成特定编码类型，需要把str转为Unicode,然后从unicode转为特定的编码类型如：utf-8、gb2312等。

如何确认str类型的编码：

对于str类型可以理解为密文，我们需要通过decode或者unicode函数来进行解密，如下面例子：

>>> a="我"

>>> print unicode(a,"utf-8")

Traceback (most recent call last):

File "<pyshell#7>", line 1, in <module>

print unicode(a,"utf-8")

UnicodeDecodeError: 'utf8' codec can't decode byte 0xce in position 0: invalid continuation byte

“我”字解码时却出现了UnicodedecodeError，说明"我"不是用utf-8编码的，那就换个编码方式：gbk

>>> print unicode(a,"gbk")

我

>>> print a.decode("gbk")

我

ASCII与Unicode区别：

>>> "Hello World" #ASCII string，密文

'Hello World'

>>> u"Hello World" #Unicode string，明文

u'Hello World'

Encode和Decode:

1.encode()：顾名思义是加密的意思，主要用于编码。

#将Unicode转换成普通的Python字符串:"编码(encode)"
unicodestring = u"Hello world"
utf8string = unicodestring.encode("utf-8")
asciistring = unicodestring.encode("ascii")
isostring = unicodestring.encode("ISO-8859-1")
utf16string = unicodestring.encode("utf-16")

编码不符主要报错：

UnicodeEncodeError: ******: illegal multibyte sequence

2.decode():解码的意思，主要用于解码

#将普通的Python字符串转换成Unicode: "解码(decode)"
plainstring1 = unicode(utf8string, "utf-8")
plainstring2 = unicode(asciistring, "ascii")
plainstring3 = unicode(isostring, "ISO-8859-1")
plainstring4 = unicode(utf16string, "utf-16")

解码不符主要报错：UnicodeDecodeError:*******: invalid continuation byte

3.decode()和Unicode()的意思相同，都是用于解码，以下是官方语法：

S.decode([encoding[,errors]]) -> string or unicode

unicode(string[, encoding[, errors]]) -> unicode object

【python】浅谈encode和decode的更多相关文章

python浅谈正则的常用方法
python浅谈正则的常用方法覆盖范围70%以上上一次很多朋友写文字屏蔽说到要用正则表达,其实不是我不想用(我正则用得不是很多,看过我之前爬虫的都知道,我直接用BeautifulSoup的网页标签去 ...
Python字符串的encode与decode研究心得——解决乱码问题
转~Python字符串的encode与decode研究心得——解决乱码问题为什么Python使用过程中会出现各式各样的乱码问题,明明是中文字符却显示成“/xe4/xb8/xad/xe6/x96/x8 ...
Python 浅谈注释的重要性
最近参加了一个比赛,然后看到队友编程的代码,我觉得真的是难以下咽,几乎每个字符都要咨询他,用老师的话来说,这就是山炮编程员,所以此时的我意识到写一篇关于注释程序的重要性了,因此特地的写一篇文章帮助大家 ...
Python 浅谈编程规范和软件开发目录规范的重要性
最近参加了一个比赛,然后看到队友编程的代码,我觉得真的是觉得注释和命名规范的重要性了,因为几乎每个字符都要咨询他,用老师的话来说,这就是命名不规范的后续反应.所以此时的我意识到写一篇关于注释程序的重要 ...
【转记录】python中的encode以及decode
字符串编码常用类型:utf-8,gb2312,cp936,gbk等. python中,我们使用decode()和encode()来进行解码和编码在python中,使用unicode类型作为编码的基础 ...
Python 字符串的encode与decode
python的str,unicode对象的encode和decode方法 python中的str对象其实就是"8-bit string" ,字节字符串,本质上类似java中的byt ...
Python字符串的encode与decode研究心得乱码问题解决方法
为什么Python使用过程中会出现各式各样的乱码问题,明明是中文字符却显示成“\xe4\xb8\xad\xe6\x96\x87”的形式? 为什么会报错“UnicodeEncodeError: 'asc ...
Python字符串的encode与decode
首先要搞清楚,字符串在Python内部的表示是unicode编码. 因此,在做编码转换时,通常需要以unicode作为中间编码,即先将其他编码的字符串解码(decode)成unicode,再从unic ...
Python字符串的encode与decode研究心得乱码问题解决方法
以下摘自:http://www.jb51.net/article/17560.htm 为什么Python使用过程中会出现各式各样的乱码问题,明明是中文字符却显示成“\xe4\xb8\xad\xe6\x ...

随机推荐

PostgreSQL高可用性、负载均衡、复制与集群方案介绍
目录[-] 一.高可用性.负载均衡.复制的几个方案比较: 二.多节点集群方案比较 9.3官方文档(中文):http://58.58.27.50:8079/doc/html/9.3.1_zh/high- ...
四主要的几种 Web 服务器
一 Microsoft IIS 1. 仅支持 Windows 操作系统,用于 .Net 平台网站的部署和运行. 2. IIS 是一种 Web 服务组件,包括括 Web 服务器.FTP 服务器.NNTP ...
DataTableToExcel
public static string CreateExcel(DataTable dt, string FileName, string path, string columns) ...
简单实用的纯CSS百分比圆形进度条插件
percircle是一款简单实用的纯CSS百分比圆形进度条插件.你不需要做任何设置,只需要按该圆形进度条插件提供的标准HTML结构来编写代码,就可以生成一个漂亮的百分比圆形进度条. 首先要做的就是引入 ...
Win+R运行自定义程序应该这样玩
互联网是一个“生态圈”,Windows有自己的生态学,有些看似高效的“奇技淫巧”实则只是搞笑. 我很以前十分崇拜善用佳软的站长,对事不对人,有些弊端,只是我们不知道,但并不代表就没有. 有些“恍然大悟 ...
System.Web.UI.ScriptManager.RegisterStartupScript（语句末尾加分号，不然可能会造成语句不执行）
System.Web.UI.ScriptManager.RegisterStartupScript(this.Page, this.GetType(), "testKey", &q ...
Codeforces Round #144 (Div. 2)
A. Perfect Permutation 奇偶对调. B. Non-square Equation \(s(x)\)不超过200,根据求根公式计算\(x\). C. Cycles 每次新增点时都和 ...
spark yarn-cluster 和 yarn-client提交的配置
1. spark conf 目录下需要配置进去hadoop home 2.需要spark 提交的配置文件加上‘-- master yarn-cluster/yarn-client’设置提交的模式
POJ 3114 Countries in War（强连通）（缩点）（最短路）
Countries in War Time Limit: 1000MS Memory Limit: 65536K Total Sub ...
Linux驱动设计—— 驱动调试技术
参考博客与书籍: <Linux设备驱动开发详解> <Linux设备驱动程序> http://blog.chinaunix.net/uid-24219701-id-2884942 ...

【python】浅谈encode和decode

【python】浅谈encode和decode的更多相关文章

随机推荐

热门专题