$ 专治各种python字符编码问题疑难杂症
标准动作
- 在脚本第一行指定编码格式:
# coding:utf-8
- 将默认的ascii字符流处理方式变为utf-8:
import sys
sys.getdefaultencoding()
'ascii'
reload(sys)
sys.setdefaultencoding('utf-8')
常见字符编码知识
ascii编码
是最早使用、最常见的一种字符编码,包含了128个字符(英文字母、数字、符号、控制字符等),也是下面讲到的所有编码的公共集合。
ISO8859-1编码
西欧字符集编码。
gb2312/gbk/gb18030之间的关系
这是简体中文的三种编码,从左到右包含的字符范围依次增大,左边是右边的子集。
big5编码
繁体中文编码。
unicode/utf-8/utf-16/utf-32之间的关系
unicode是一个字符集,表示包含了哪些字符——包含了世界上所有字符。
而utf-8/utf-16/utf-32是字符编码,表示用哪种方式表示unicode字符集,是对unicode字符集的具体编码实现方式。
最常用的是utf-8
获取字符串的编码格式
from chardet import detect
detect('abc')
{'confidence': 1.0, 'encoding': 'ascii', 'language': ''}
detect(r'abc')
{'confidence': 1.0, 'encoding': 'ascii', 'language': ''}
注:detect的参数不能是unicode字符串,否则会报错。
str和unicode对象
str和unicode都是python内置的两种字符串类,并且有着同样的父类:basestring
type('123')
str
type(u'123')
unicode
str.__bases__
(basestring,)
unicode.__bases__
(basestring,)
basestring.__bases__
(object,)
用好unicode这个桥梁
有时候并不知道一个字符串的编码是什么(比如从某个文件中读取的内容),这时候如何把这个文件的字符编码转为需要的编码呢(比如utf-8)?
答案是:借助unicode为桥梁。
比如:
with open('content.txt','r') as fin:
content = fin.read()
# 这里先把文件内容decode成utf-8编码(中间桥梁),再encode成gbk编码(目标编码)
target = content.decode('utf-8').encode('gbk')
把转义的中文unicode字符串转为中文
s = '\u6211'
type(s)
str
print s
\u6211
print s.decode('unicode-escape').encode('utf-8')
我
把各种字符都统一成unicode来处理
from __future__ import unicode_literals
type('123')
unicode
type(u'123')
unicode
解决matplotlib图表中的中文乱码问题
按照matplotlib默认的字符编码,在图表中中文不能正常显示,会显示为方框,如下:
import matplotlib.pyplot as plt
x = [1,2,3]
y = [4,6,8]
plt.plot(x,y)
plt.title(u'数据')
plt.show()

解决方法:
plt.rcParams['font.sans-serif'] = ['SimHei'] # 指定默认字体
plt.rcParams['axes.unicode_minus'] = False # 解决负号显示为方框的问题
plt.title(u'数据')
plt.plot(x,y)
plt.show()

随机推荐
- HDU-1095-A+B for Input-Output Practice (VII)(多一个空格?)
A+B for Input-Output Practice (VII) Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 65536/32 ...
- VUE:使用vue-cli脚手架无法安装npm install axios 的巨坑
使用命令 npm install axios 安装axios可能会报错,无法引用, 这个时候使用淘宝的镜像cnpm安装就可以了 cnpm install axios 如果没有安装cnpm,执行以下命令 ...
- Java反射基础(二)
获取域 1. 通过反射API可以获取到类中公开的静态域和对象中的实例域.得到表示域的java.lang.reflect.Field类的对象之后,就可以获取和设置域的值. 与获取构造方法类似,Cla ...
- Codeforces Round #372 (Div. 1) B. Complete The Graph
题目链接:传送门 题目大意:给你一副无向图,边有权值,初始权值>=0,若权值==0,则需要把它变为一个正整数(不超过1e18),现在问你有没有一种方法, 使图中的边权值都变为正整数的时候,从 S ...
- 时间查询缺少部分数据 mvc 解决方案
前情提要: 在c# mvc EF模式下 普通的列表展示页面,采用form提交的,后台视同request对象接收,如果涉及到时间搜索的情况,经常会搞错,现在明确一下怎么做. 一:Request /// ...
- mysql的增量备份与全备的脚本
mysql全量备份.增量备份.开启mysql的logbin日志功能.在/etc/my.cnf文件中加入以下代码: [mysqld]log-bin = "/home/mysql/logbin. ...
- 【BZOJ2212】[Poi2011]Tree Rotations 线段树合并
[BZOJ2212][Poi2011]Tree Rotations Description Byteasar the gardener is growing a rare tree called Ro ...
- cocos2d-X学习之主要类介绍:摄像机(CCCamera)
在cocos2d-x中,每个节点(CCNode)都需要用到,即当节点发生旋转.缩放和位置变化等时,都需要覆盖CCCamera,然后这个节点通过CCCamera重新渲染. 类结构: 其主要函数如下: c ...
- jquery刷新页面指定部位
做好好几次了,经常忘记格式,这次记下来 $("#baseInfo").load("/KnowledgeLib/Personalization/QuestionUpdate ...
- Storm-源码分析-Topology Submit-Executor-mk-threads
对于executor thread是整个storm最为核心的代码, 因为在这个thread里面真正完成了大部分工作, 而其他的如supervisor,worker都是封装调用. 对于executor的 ...