python2.7编码与解码

常见的编码
　　ASCII: 美国人发明的，只编码英文字母和符号，1个字节。
　　GB2312: 中国人发明的，增加了中文汉字和符号，2个字节。
　　Unicode: 为了把所有语言都统一到一套编码里，一般是2个字节，生僻字4个字节。
　　UTF-8：为了节省英文字符内存空间，UTF-8可变长编码，常用的英文字母被编码成1个字节，汉字通常是3个字节，生僻的字符编码成4-6个字节。

 >>> S = '中文'

 >>> print type(S), len(S)

 <type 'str'> 4

 >>> unicodeS = u'中文'

 >>> print type(unicodeS), len(unicodeS)

 <type 'unicode'> 2

 >>> utfS = u'中文'.encode('utf-8')

 >>> print type(utfS), len(utfS)

 <type 'str'> 6

　　在计算机内存中，统一使用Unicode编码，当需要保存到硬盘或者需要传输的时候，就转换为UTF-8编码，这样可以节省很多存储空间。

　　其中，python2和python3系统默认编码分别是ascii和utf-8，以python2.7为例：

 >>> import sys

 >>> sys.getdefaultencoding()

 'ascii'

 >>> a = 'hello'

 >>> print type(a)

 <type 'str'>

 >>> b = a.decode('ascii')

 >>> print type(b)

 <type 'unicode'>

 >>> c = a.decode('ascii').encode('utf-8')

 >>> print type(c)

 <type 'str'>

　　然而python2.7中，比较麻烦的还是有两种数据模型来支持字符串这种数据类型，str和unicode（python3改进后只有unicode一种)，比如s = '中文'就是str类型的字符串，而u=u"中文"就是一个unicode类型的字符串。unicode是由str类型的字符串解码后得到，unicode也可以编码成str类型。即

　　str --> decode -->unicode

　　unicode --> encode --> str

　　在做编码转换时，通常需要以unicode作为中间编码，即先将其他编码的字符串解码（decode）成unicode，再从unicode编码（encode）成另一种编码。
　　注：Unicode 格式：像\u0000;二进制编码格式：像\x00\x00，其中utf-8,gbk就是二进制编码;

 >>> s1 = u'中文'

 >>> type(s1)

 <type 'unicode'>

 >>> s2 = 'ABC'

 >>> type(s2)

 <type 'str'>

 #字符串转码成unicode对象

 >>> u'ABC'

 u'ABC'

 >>> u'中文'

 u'\u4e2d\u6587'

 #英文字符串编码成utf8格式

 >>> 'ABC'.encode('utf-8')

 'ABC'

 >>> u'ABC'.encode('utf-8')

 'ABC'

 #中文字符串需先转码成unicode,再编码成utf8格式

 >>> '中文'.encode('utf-8')

 Traceback (most recent call last):

   File "<pyshell#15>", line 1, in <module>

     '中文'.encode('utf-8')

 UnicodeDecodeError: 'utf8' codec can't decode byte 0xd6 in position 0: invalid continuation byte

 >>> u'中文'.encode('utf-8')

 '\xe4\xb8\xad\xe6\x96\x87'

 >>> u'\u4e2d\u6587'.encode('utf-8')

 '\xe4\xb8\xad\xe6\x96\x87'

 #字符串从utf8格式解码成unicode

 >>> 'ABC'.decode('utf-8')

 u'ABC'

 >>> '\xe4\xb8\xad\xe6\x96\x87'.decode('utf-8')

 u'\u4e2d\u6587'

 >>> print '\xe4\xb8\xad\xe6\x96\x87'.decode('utf-8')

 中文

　　编码检验和转换

 #检查编码

 >>> import urllib

 >>> rawdata = urllib.urlopen('http://www.google.cn/').read()

 >>> import chardet

 >>> chardet.detect(rawdata)

 {'confidence': 0.99, 'encoding': 'utf-8'}

 #将String对象从UTF-8内码转换为gbk,相反则s.decode('gbk').encode('utf-8')

 >>> rawdata.decode('utf-8').encode('gbk')

 #以unicode为中介实现编码或解码

 >>> u'中文'.encode('gbk')

 '\xd6\xd0\xce\xc4'

 >>> u'中文'.encode('utf-8')

 '\xe4\xb8\xad\xe6\x96\x87'

 >>> '\xd6\xd0\xce\xc4'.decode('gbk')

 u'\u4e2d\u6587'

 >>> print u'\u4e2d\u6587'

 中文

 >>> '\xe4\xb8\xad\xe6\x96\x87'.decode('utf-8')

 u'\u4e2d\u6587'

 >>> print u'\u4e2d\u6587'

 中文

其中，decode的函数原型是 decode([encoding], [errors='strict'])，可以用第二个参数控制错误处理的策略。

　默认的参数就是strict，代表遇到非法字符时抛出异常；
如果设置为ignore，则会忽略非法字符；
如果设置为replace，则会用?取代非法字符；

读写文件编码

　　以test.txt文件为例，文件内容为“测试”。

 >>> #coding=utf-8

 >>> f = open("test.txt")

 >>> s = f.read()

 >>> print type(s)

 <type 'str'>

 >>> s

 '\xb2\xe2\xca\xd4'

 >>> u = s.decode("gbk")

 >>> u

 u'\u6d4b\u8bd5'

 >>> f.write(u.encode("utf-8"))

 >>> print u

 测试

python2.7编码与解码的更多相关文章

Python2/3的中、英文字符编码与解码输出： UnicodeDecodeError: 'ascii' codec can't decode/encode
摘要:Python中文虐我千百遍,我待Python如初恋.本文主要介绍在Python2/3交互模式下,通过对中文.英文的处理输出,理解Python的字符编码与解码问题(以点破面). 前言:字符串的编码 ...
关于Python2字符编码的体会
对于Python的字符编码问题也懵了很久,最近做爬虫多次遇到网页转码的问题,干脆彻底解决掉!Just Do it! 1.两种类型str与unicode str和unicode都是basestring的 ...
python3中的编码与解码（超好理解）
编码和解码是针对数据而言的,数据能干什么呢?无非就是用来显示,储存和传输的: 储存和传输数据当然是希望数据越小越好,所以发明了utf-8这种数据编码显示:它智能将英文用一个字节表示,欧洲的字符用两个字 ...
Day5 Pyhton基础之编码与解码（四）
1.编码与解码 1.1现在常用的编码类型
URL地址编码和解码
0. 参考 [整理]关于http(GET或POST)请求中的url地址的编码(encode)和解码(decode) python3中的urlopen对于中文url是如何处理的? 中文URL的编码问题 ...
Python基础-编码与解码
一.什么是编码编码是指信息从一种形式或格式转换为另一种形式或格式的过程. 在计算机中,编码,简而言之,就是将人能够读懂的信息(通常称为明文)转换为计算机能够读懂的信息.众所周知,计算机能够读懂的 ...
python2.X编码
1.Python文件的编码在Python文件中,可以在第一或第二行指定文件的编码格式(以注释的形式加),这也是Python语法规定的,见http://www.python.org/peps/pep- ...
【转】python基础-编码与解码
[转自:https://www.cnblogs.com/OldJack/p/6658779.html] 一.什么是编码编码是指信息从一种形式或格式转换为另一种形式或格式的过程. 在计算机中,编码,简 ...
python学习笔记09-python编码与解码
二进制编码: --->ASCII:只能存英文和拉丁字符一个字符占一个字节:8位 ------>gb2312:只能存6700多个中文: 1980年发表 ----------->gbk ...

随机推荐

【撸码caffe 二】 blob.hpp
Blob类是caffe中对处理和传递的实际数据的封装,是caffe中基本的数据存储单元,包括前向传播中的图像数据,反向传播中的梯度数据以及网络层间的中间数据变量(包括权值,偏置等),训练模型的参数等等 ...
【Codeforces 258A】 Game With Sticks
[题目链接] http://codeforces.com/contest/451/problem/A [算法] 若n和m中的最小值是奇数,则先手胜,否则后手胜 [代码] #include<bit ...
Hdu-6249 2017CCPC-Final G.Alice’s Stamps 动态规划
题面题意:给你n个集合,每个集合有L到R这些种类的邮票,让你选择其中的K个集合,使得最后选择的邮票种类尽可能多,N,L,R都<=2000 题解:容易乱想到网络流,可是再细想一下就会发现处理不了 ...
Spring《八-一》CGLIB代理和自动代理
CGLIB代理配置文档 <bean id="logProxy" class="org.springframework.aop.framework.ProxyFac ...
批量插入 SqlBulkCopy的测试
关于SqlBulkCopy的测试最近要做.net关于sql大量插入,找到了sqlbulkcopy(自己google下,应该很多说明了)这个好东西,于是测试下性能,用了三个方法对比: 1)直接用ado ...
Android应用优化之代码检测优化
在网络层,互联网提供所有应用程序都要使用的两种类型的服务,尽管目前理解这些服务的细节并不重要,但在所有TCP/IP概述中,都不能忽略他们: 无连接分组交付服务(Connectionless Packe ...
linux下恢复被删除的文件
https://cloud.tencent.com/developer/article/1028317
WordPress浏览次数统计插件：WP-Postviews使用
WP-Postviews使用 1.要让你的博客在页面上显示浏览次数,你需要修改你博客当前使用的主题,在主循环中插入以下代码: 1 <?php if(function_exists('the_vi ...
08.十分钟学会JSP传统标签编程
一.认识标签 1,说明:传统标签编程在开发中基本用不到,学习标签编程主要还是为了完善知识体系. 2,标签的主要作用:移除或减少jsp中的java代码 3,标签的主要组成部分及运行原理 4,简单标签示例 ...
搭建eclipse的安卓开发环境（eclipse+jdk+adt+sdk)
学校暑期大作业让用安卓写一个app,有两种方案(android stduio+sdk和eclipse+jdk+adt+sdk)折腾了几天发现还是后者好用,但是安装环境和下载真的是去了半条命,(不过由于 ...

python2.7编码与解码

python2.7编码与解码的更多相关文章

随机推荐

热门专题