$ 专治各种python字符编码问题疑难杂症
标准动作
- 在脚本第一行指定编码格式:
# coding:utf-8
- 将默认的ascii字符流处理方式变为utf-8:
import sys
sys.getdefaultencoding()
'ascii'
reload(sys)
sys.setdefaultencoding('utf-8')
常见字符编码知识
ascii编码
是最早使用、最常见的一种字符编码,包含了128个字符(英文字母、数字、符号、控制字符等),也是下面讲到的所有编码的公共集合。
ISO8859-1编码
西欧字符集编码。
gb2312/gbk/gb18030之间的关系
这是简体中文的三种编码,从左到右包含的字符范围依次增大,左边是右边的子集。
big5编码
繁体中文编码。
unicode/utf-8/utf-16/utf-32之间的关系
unicode是一个字符集,表示包含了哪些字符——包含了世界上所有字符。
而utf-8/utf-16/utf-32是字符编码,表示用哪种方式表示unicode字符集,是对unicode字符集的具体编码实现方式。
最常用的是utf-8
获取字符串的编码格式
from chardet import detect
detect('abc')
{'confidence': 1.0, 'encoding': 'ascii', 'language': ''}
detect(r'abc')
{'confidence': 1.0, 'encoding': 'ascii', 'language': ''}
注:detect的参数不能是unicode字符串,否则会报错。
str和unicode对象
str和unicode都是python内置的两种字符串类,并且有着同样的父类:basestring
type('123')
str
type(u'123')
unicode
str.__bases__
(basestring,)
unicode.__bases__
(basestring,)
basestring.__bases__
(object,)
用好unicode这个桥梁
有时候并不知道一个字符串的编码是什么(比如从某个文件中读取的内容),这时候如何把这个文件的字符编码转为需要的编码呢(比如utf-8)?
答案是:借助unicode为桥梁。
比如:
with open('content.txt','r') as fin:
content = fin.read()
# 这里先把文件内容decode成utf-8编码(中间桥梁),再encode成gbk编码(目标编码)
target = content.decode('utf-8').encode('gbk')
把转义的中文unicode字符串转为中文
s = '\u6211'
type(s)
str
print s
\u6211
print s.decode('unicode-escape').encode('utf-8')
我
把各种字符都统一成unicode来处理
from __future__ import unicode_literals
type('123')
unicode
type(u'123')
unicode
解决matplotlib图表中的中文乱码问题
按照matplotlib默认的字符编码,在图表中中文不能正常显示,会显示为方框,如下:
import matplotlib.pyplot as plt
x = [1,2,3]
y = [4,6,8]
plt.plot(x,y)
plt.title(u'数据')
plt.show()

解决方法:
plt.rcParams['font.sans-serif'] = ['SimHei'] # 指定默认字体
plt.rcParams['axes.unicode_minus'] = False # 解决负号显示为方框的问题
plt.title(u'数据')
plt.plot(x,y)
plt.show()

随机推荐
- html 调用ActiveX
html网页调用ActiveX控件时,要获取到ActiveX的ClassID,这个ClassID是注册到系统里的,而不是工程中的uuid,(下图为uuid). 正确的是在注册表的HKEY_CLASSE ...
- Mathematica之基本操作
1.清楚所有变量 Clear["Global`*"];
- 如何用MathType编辑这三个符号
MathType是一款专门的公式编辑器,用来编辑数学物理等公式,很多期刊杂志的排版都会用到它.用MathType编辑公式的时候,完全不用考虑学习和上手的过程,打开就可以编辑出你的公式,所以这个工具对于 ...
- 记一次Project插件开发
一.开发背景 最近在使用微软的Office Project 2010 进行项目管理,看到排的满满的计划任务,一个个地被执行完毕,还是很有成就感的.其实,不光是在工作中可以使用Project进行项目进度 ...
- Oracle数据库 number 长度与 Short Integer Long BigDecimal 对应关系
转自:https://blog.csdn.net/edward9145/article/details/21398657 Oracle数据库 number 长度与 Short Integer Long ...
- 《JAVA多线程编程核心技术》 笔记:第一章
一.基本概念理解:1.1.进程和线程的理解1.2.同步和异步的理解(阻塞模式和非阻塞模式)1.3 线程间共享变量和不共享变量二.多线程的实现方式和构造方法:2.1 实现方式:2个2.2 构造方法:8个 ...
- Java IO异常处理方式
public class IOException{ // 获取系统默认的行分隔符 private static final String LINE_SEPARATOR = System.getProp ...
- Visualizing wave interference using FireMonkey(很美)
Visualizing wave interference using FireMonkey By: Anders Ohlsson Abstract: This article discusses ...
- tomcat和jboss的区别
1. Tomcat是Apache鼎力支持的Java Web应用服务器(注:servlet容器),由于它优秀的稳定性以及丰富的文档资料,广泛的使用人群,从而在开源领域受到最广泛的青睐. 2. Jboss ...
- 事件对象event之e.targtet || e.srcElement
p.onclick = function (event) { var e = event || window.event, target = e.target ? e.target : e.srcEl ...