python 之编码问题详解
前在一个项目中遇到用post提交一个xml,xml中含有中文,对于单独的py文件,使用urllib2.urlopen完全ok,但在django中使用就一直报编码错误,然后在网上看到这篇文章不错,决定mark一下,学习学习。原文地址:http://www.2cto.com/kf/201407/317866.html
全部是在python2.7.*的环境下。
1.Python编码基础
1.1 str和unicode
python中有两种数据模型来支持字符串这种数据类型,str和unicode,它们的基类都是basestring。比如s = "中文"就是str类型的字符串,而u=u"中文"就是一个unicode类型的字符串。unicode是由str类型的字符串解码后得到,unicode也可以编码成str类型。即
str --> decode --> unicodeunicode --> encode --> str严格来说,str也许应该叫做字节串,因为对于UTF-8编码的str类型"中文",使用len()函数得到的结果是6,因为UTF-8编码的str类型“中文”实际是"\xe4\xb8\xad\xe6\x96\x87"。而对于unicode类型u“中文”(实际是u"\u4e2d\u6587"),使用len()函数得到结果是2。1.2 头部编码声明
在python源代码文件中如果有用到非ascii字符,比如中文,那么需要在源码文件头部声明源代码字符编码,格式如下:
#-*- coding: utf-8 -*-
这个格式看起比较复杂,其实python只检查#、coding,编码等字符串,可以简写成#coding:utf-8,甚至还可以写成#coding:u8。
2.Python2.x常见编码问题
2.1 头部编码声明和文件编码问题
文件头部编码声明决定了python解析源码中的str的编码选择方式,比如头部声明的是utf-8编码,则代码中s="中文"python就会按照utf-8编码格式来解析,通过repr(s)可以看到字符编码是"\xe4\xb8\xad\xe6\x96\x87",如果头部声明的编码是gbk编码,则python会对s采用gbk编码解析,结果是"\xd6\xd0\xce\xc4"。
需要注意的是,文件本身的编码要跟文件头部声明编码一致,不然就会出现问题。文件本身的编码在Linux下面可以在vim下用命令set fenc来查看。如果文件本身编码是gbk,而源码文件头部声明的编码是utf-8,这样如果源码中有中文就会有问题了,因为本身中文str存储是按照gbk编码来的,而python在解析str的时候又以为是utf-8编码,这样就会报SyntaxError: (unicode error) 'utf8' codec can't decode byte错误。
2.2 默认编码问题
下面看个python默认编码导致的问题:
#coding: utf-8
u = u"中文"
print repr(u) # u'\u4e2d\u6587' s = "中文"
print repr(s) # '\xe4\xb8\xad\xe6\x96\x87' u2 = s.decode("utf-8")
print repr(u2) # u'\u4e2d\u6587' #s2 = u.decode("utf-8") #编码错误
#u2 = s.encode("utf-8") #解码错误
注意实例中注释掉的2行代码,对于unicode最好不要直接调用decode,str最好不要直接调用encode方法。因为如果是直接调用,则相当于
u.encode(default_encoding).decode("utf-8") # default_encoding是python的unicode实现中用的默认编码,即 sys.getdefaultencoding() 得到的编码
如果你没有设置过,那么默认编码就是ascii,如果你的unicode本身超出了ascii编码范围就会报错。同理,如果对str直接调用encode方法,那么默认会先对str进行解码,即
s.decode(default_encoding).encode("utf-8")
如果str本身是中文,而default_encoding是ascii的话,解码就会出错,从而导致上面这两行会分别报
UnicodeEncodeError: 'ascii' codec can't encode characters in position...
和
UnicodeDecodeError: 'ascii' codec can't decode byte 0xe4 in position...
上面例子中注释掉的两行代码如果执行就会报错,当然,如果本身str或者unicode都在ascii编码范围,就没有问题。比如s = "abc"; s.encode("utf-8")就不会有问题,语句执行后会返回一个跟s的id不同的str。
那如果要解决实例1中的问题,有两种方法,其一是明确指定编码,如下所示:
#coding: utf-8
u = u"中文"
print repr(u) # u'\u4e2d\u6587' s = "中文"
print repr(s) # '\xe4\xb8\xad\xe6\x96\x87' u2 = s.decode("utf-8")
print repr(u2) # u'\u4e2d\u6587' s2 = u.encode("utf-8").decode("utf-8") # OK
u2 = s.decode("utf8").encode("utf-8") # OK
第二种方法就是更改python的默认编码为文件编码格式,如下所示(这里只所以要reload sys模块,是因为python初始化后删除了setdefaultencoding方法:
#coding:utf-8 import sys
reload(sys)
sys.setdefaultencoding("utf-8") #更改默认编码为utf-8 u = u"中文"
print repr(u) # u'\u4e2d\u6587' s = "中文"
print repr(s) # '\xe4\xb8\xad\xe6\x96\x87' u2 = s.decode("utf-8")
print repr(u2) # u'\u4e2d\u6587' s2 = u.decode("utf-8")
u2 = s.encode("utf-8")
2.3读写文件编码
采用python的open()方法打开文件时,read()读取的是str,编码就是文件本身的编码。而调用write()写文件时,如果参数是 unicode,则需要用指定编码encode,如果write()参数是unicode而且没有指定编码,则会采用python默认编码(sys.getdefaultencoding())encode后再写入。
#coding:utf-8
f = open("testfile")
s = f.read()
f.close()
print type(s) # <type str> u = s.decode("utf-8") #testfile是utf-8编码
f = open("testfile", "w")
f.write(u.encode("gbk")) #以gbk编码写入,testfile为gbk编码
f.close()
此外,python的codecs模块提供了一个open()方法,可以指定编码打开文件,使用这个方法打开文件读取返回是unicode。写入时,如果 write参数是unicode,则使用打开文件时的编码写入,如果是str,则先使用默认编码解码成unicode后再以打开文件的编码写入(这里需要 注意如果str是中文,而默认编码sys.getdefaultencoding()是ascii的话会报解码错误)。
#coding:gbk
import codecs f = codecs.open('testfile', encoding='utf-8')
u = f.read()
f.close()
print type(u) # <type unicode> f = codecs.open('testfile', 'a', encoding='utf-8')
f.write(u) #写入unicode # 写入gbk编码的str,自动进行解码编码操作
s = '汉'
print repr(s) # '\xba\xba'
# 这里会先将GBK编码的str解码为unicode再编码为UTF-8写入
#f.write(s) #默认编码为ascii时,这会报解码错误。
f.close()
3. 关于BOM头
有些软件在保存UTF-8编码的时候,会在文件最开始的地方插入不可见的字符BOM(0xEF 0xBB 0xBF,即BOM),这些不可见字符无法被识别,encode的时候会报错,例如:(utf-8转为gbk)
UnicodeEncodeError:'gbk' codec can't encode character u'\ufeff' in position 0: illegal multibyte sequence
遇到这种情况可以利用codecs模块:(test.txt以utf-8保存)
import codecs
content = open('test.txt', 'r').read()
filehandle.close()
if content[:3] == codecs.BOM_UTF8: # 如果存在BOM头则去掉
content = content[3:] print content.decode('utf-8').encode('gbk')
python 之编码问题详解的更多相关文章
- python之sys模块详解
python之sys模块详解 sys模块功能多,我们这里介绍一些比较实用的功能,相信你会喜欢的,和我一起走进python的模块吧! sys模块的常见函数列表 sys.argv: 实现从程序外部向程序传 ...
- Python数据类型及其方法详解
Python数据类型及其方法详解 我们在学习编程语言的时候,都会遇到数据类型,这种看着很基础也不显眼的东西,却是很重要,本文介绍了python的数据类型,并就每种数据类型的方法作出了详细的描述,可供知 ...
- python之OS模块详解
python之OS模块详解 ^_^,步入第二个模块世界----->OS 常见函数列表 os.sep:取代操作系统特定的路径分隔符 os.name:指示你正在使用的工作平台.比如对于Windows ...
- python中threading模块详解(一)
python中threading模块详解(一) 来源 http://blog.chinaunix.net/uid-27571599-id-3484048.html threading提供了一个比thr ...
- python引用和对象详解
python引用和对象详解 @[马克飞象] python中变量名和对象是分离的 例子 1: a = 1 这是一个简单的赋值语句,整数 1 为一个对象,a 是一个引用,利用赋值语句,引用a指向了对象1. ...
- Python中time模块详解
Python中time模块详解 在平常的代码中,我们常常需要与时间打交道.在Python中,与时间处理有关的模块就包括:time,datetime以及calendar.这篇文章,主要讲解time模块. ...
- Python 列表(List)操作方法详解
Python 列表(List)操作方法详解 这篇文章主要介绍了Python中列表(List)的详解操作方法,包含创建.访问.更新.删除.其它操作等,需要的朋友可以参考下 列表是Python中最基本 ...
- Python模块调用方式详解
Python模块调用方式详解 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 模块,用一砣代码实现了某个功能的代码集合. 类似于函数式编程和面向过程编程,函数式编程则完成一个功能,其 ...
- python之模块datetime详解
# -*- coding: utf-8 -*- #python 27 #xiaodeng #python之模块datetime详解 import datetime #data=datetime.dat ...
随机推荐
- Dom之表单提交与默认行为
一.button提交表单 <!DOCTYPE html> <html lang="en"> <head> <meta charset=&q ...
- 查看SqlServer的内存使用情况
上一篇提到动态T-SQL会产生较多的执行计划,这些执行计划会占用多少内存呢?今天从徐海蔚的书中找到了答案.动态视图不仅可以查到执行计划的缓存,数据表的页面缓存也可以查到,将SQL整理一下,做个标记. ...
- ASP.NET MV3 部署网站 报"Could not load file or assembly ' System.Web.Helpers “ 错的解决方法
转自:http://www.cnblogs.com/taven/archive/2011/08/14/2138077.html 国内很多网站空间都只支持.NET 2.0 和 .NET 3.0 3.5, ...
- Android Studio--学习系列(1)
<?xml version="1.0" encoding="utf-8"?> <manifest xmlns:android="ht ...
- [mysql] linux 下mysql 5.7.12 安装
1.下载mysql wget http://dev.mysql.com/get/Downloads/MySQL-5.7/mysql-5.7.12-1.el6.x86_64.rpm-bundle.tar ...
- App开发者必备的运营、原型、UI设计工具整理
移动应用开发者们,Attention please!在接下来的内容里,我们将介绍一些能够提高你们的应用的知名度和品质水平的工具. 仔细看看,下面这些工具你们都知道吗,用过吗?如果你还不知道,或许可以尝 ...
- 如何添加WebService调用时的用户认证
场景: 当把发布好的WebService地址或WSDL提供给调用方时,需要对方先进行身份的认证通过后才允许接口的进步访问.而不是公开的谁都可以调用. 解决: 1.在IIS中设置对应网站的目录访问权限. ...
- transport tablespace将一个表空间下的数据移到另一个表空间
http://blog.csdn.net/macliukaijie/article/details/8308643 1.创建两个表空间 SQL> create tablespace test1 ...
- linux内存文件系统之指南
内存文件系统使用及示例:ramdisk, ramfs, tmpfs 第一部分在Linux中可以将一部分内存mount为分区来使用,通常称之为RamDisk. RamDisk有三种实现方式: 第一种就是 ...
- JavaScript权威指南 第七章 数组
主要介绍一下数组方法 1.Join() Array.join()方法将数组中所有元素都转换为字符串并连接在一起,返回最后生成的字符串. 可以指定一个可选的字符串在生成的字符串中来分隔数组的各个元素.默 ...