标准动作

  • 在脚本第一行指定编码格式:
# coding:utf-8
  • 将默认的ascii字符流处理方式变为utf-8:
import sys
sys.getdefaultencoding()
'ascii'
reload(sys)
sys.setdefaultencoding('utf-8')

常见字符编码知识

ascii编码

是最早使用、最常见的一种字符编码,包含了128个字符(英文字母、数字、符号、控制字符等),也是下面讲到的所有编码的公共集合。

ISO8859-1编码

西欧字符集编码。

gb2312/gbk/gb18030之间的关系

这是简体中文的三种编码,从左到右包含的字符范围依次增大,左边是右边的子集。

big5编码

繁体中文编码。

unicode/utf-8/utf-16/utf-32之间的关系

  • unicode是一个字符集,表示包含了哪些字符——包含了世界上所有字符。

  • 而utf-8/utf-16/utf-32是字符编码,表示用哪种方式表示unicode字符集,是对unicode字符集的具体编码实现方式。

  • 最常用的是utf-8

获取字符串的编码格式

from chardet import detect
detect('abc')
{'confidence': 1.0, 'encoding': 'ascii', 'language': ''}
detect(r'abc')
{'confidence': 1.0, 'encoding': 'ascii', 'language': ''}

注:detect的参数不能是unicode字符串,否则会报错。

str和unicode对象

str和unicode都是python内置的两种字符串类,并且有着同样的父类:basestring

type('123')
str
type(u'123')
unicode
str.__bases__
(basestring,)
unicode.__bases__
(basestring,)
basestring.__bases__
(object,)

用好unicode这个桥梁

有时候并不知道一个字符串的编码是什么(比如从某个文件中读取的内容),这时候如何把这个文件的字符编码转为需要的编码呢(比如utf-8)?

答案是:借助unicode为桥梁。

比如:

with open('content.txt','r') as fin:
content = fin.read()
# 这里先把文件内容decode成utf-8编码(中间桥梁),再encode成gbk编码(目标编码)
target = content.decode('utf-8').encode('gbk')

把转义的中文unicode字符串转为中文

s = '\u6211'
type(s)
str
print s
\u6211
print s.decode('unicode-escape').encode('utf-8')

把各种字符都统一成unicode来处理

from __future__ import unicode_literals
type('123')
unicode
type(u'123')
unicode

解决matplotlib图表中的中文乱码问题

按照matplotlib默认的字符编码,在图表中中文不能正常显示,会显示为方框,如下:

import matplotlib.pyplot as plt
x = [1,2,3]
y = [4,6,8]
plt.plot(x,y)
plt.title(u'数据')
plt.show()

解决方法:

plt.rcParams['font.sans-serif'] = ['SimHei']  # 指定默认字体
plt.rcParams['axes.unicode_minus'] = False # 解决负号显示为方框的问题
plt.title(u'数据')
plt.plot(x,y)
plt.show()

随机推荐

  1. SVN版本库的备份、还原、移植(初级篇、中级篇和高级篇)

    版本库数据的移植:svnadmin dump.svnadmin load 导出: $svnlook youngest myrepos //查看到目前为止最新的版本号 $svnadmin dump my ...

  2. Collection 和 Collections的区别?

    Collection 和 Collections的区别? 解答:Collection是java.util下的接口,它是各种集合的父接口,继承于它的接口主要有Set 和List:Collections是 ...

  3. 【BZOJ】2014: [Usaco2010 Feb]Chocolate Buying(贪心)

    http://www.lydsy.com/JudgeOnline/problem.php?id=2014 这应该是显然的贪心吧,先排序,然后按花费取 #include <cstdio> # ...

  4. XmLHttpRequst下载Excel

    //得到浏览器版本 myJqHelp.getBrowser = function () { var ua = window.navigator.userAgent; var isIE = !!wind ...

  5. mysql小技巧记录

    1.在mysql场景中,每一行都是用分号(:)作为结束的. 2.在php场景中,最后的分号(:)可以省略掉. 如: <? $sql = "select * from tem" ...

  6. 【Ubuntu】Windows硬盘安装Ubuntu14.04

    参考:http://diybbs.zol.com.cn/1/33925_1981.html  http://www.cnblogs.com/allenjin/archive/2011/11/26/22 ...

  7. Python_selenium之获取页面上的全部邮箱

    Python_selenium之获取页面上的全部邮箱 一.思路拆分 获取网页(这里以百度的“联系我们”为例),网址http://home.baidu.com/contact.html 获取页面的全部内 ...

  8. springside4

    https://github.com/springside/springside4/wiki/Design Design 1. Web MVC Framwork: SpringMVC3.0 Restf ...

  9. iOS-UISearchBar去掉边线

    解决办法: UISearchBar 去除边线 属性search.searchBarStyle = minimal 即可

  10. Servlet及相关类和接口

    上一篇介绍了在Web项目中web.xml文件的配置信息,本篇主要介绍里面非常重要的配置——Servlet配置,重点介绍与Servlet相关的几个接口和类,包括Servlet接口.ServletConf ...