标准动作

  • 在脚本第一行指定编码格式:
# coding:utf-8
  • 将默认的ascii字符流处理方式变为utf-8:
import sys
sys.getdefaultencoding()
'ascii'
reload(sys)
sys.setdefaultencoding('utf-8')

常见字符编码知识

ascii编码

是最早使用、最常见的一种字符编码,包含了128个字符(英文字母、数字、符号、控制字符等),也是下面讲到的所有编码的公共集合。

ISO8859-1编码

西欧字符集编码。

gb2312/gbk/gb18030之间的关系

这是简体中文的三种编码,从左到右包含的字符范围依次增大,左边是右边的子集。

big5编码

繁体中文编码。

unicode/utf-8/utf-16/utf-32之间的关系

  • unicode是一个字符集,表示包含了哪些字符——包含了世界上所有字符。

  • 而utf-8/utf-16/utf-32是字符编码,表示用哪种方式表示unicode字符集,是对unicode字符集的具体编码实现方式。

  • 最常用的是utf-8

获取字符串的编码格式

from chardet import detect
detect('abc')
{'confidence': 1.0, 'encoding': 'ascii', 'language': ''}
detect(r'abc')
{'confidence': 1.0, 'encoding': 'ascii', 'language': ''}

注:detect的参数不能是unicode字符串,否则会报错。

str和unicode对象

str和unicode都是python内置的两种字符串类,并且有着同样的父类:basestring

type('123')
str
type(u'123')
unicode
str.__bases__
(basestring,)
unicode.__bases__
(basestring,)
basestring.__bases__
(object,)

用好unicode这个桥梁

有时候并不知道一个字符串的编码是什么(比如从某个文件中读取的内容),这时候如何把这个文件的字符编码转为需要的编码呢(比如utf-8)?

答案是:借助unicode为桥梁。

比如:

with open('content.txt','r') as fin:
content = fin.read()
# 这里先把文件内容decode成utf-8编码(中间桥梁),再encode成gbk编码(目标编码)
target = content.decode('utf-8').encode('gbk')

把转义的中文unicode字符串转为中文

s = '\u6211'
type(s)
str
print s
\u6211
print s.decode('unicode-escape').encode('utf-8')

把各种字符都统一成unicode来处理

from __future__ import unicode_literals
type('123')
unicode
type(u'123')
unicode

解决matplotlib图表中的中文乱码问题

按照matplotlib默认的字符编码,在图表中中文不能正常显示,会显示为方框,如下:

import matplotlib.pyplot as plt
x = [1,2,3]
y = [4,6,8]
plt.plot(x,y)
plt.title(u'数据')
plt.show()

解决方法:

plt.rcParams['font.sans-serif'] = ['SimHei']  # 指定默认字体
plt.rcParams['axes.unicode_minus'] = False # 解决负号显示为方框的问题
plt.title(u'数据')
plt.plot(x,y)
plt.show()

随机推荐

  1. HDU-1095-A+B for Input-Output Practice (VII)(多一个空格?)

    A+B for Input-Output Practice (VII) Time Limit: 2000/1000 MS (Java/Others)    Memory Limit: 65536/32 ...

  2. VUE:使用vue-cli脚手架无法安装npm install axios 的巨坑

    使用命令 npm install axios 安装axios可能会报错,无法引用, 这个时候使用淘宝的镜像cnpm安装就可以了 cnpm install axios 如果没有安装cnpm,执行以下命令 ...

  3. Java反射基础(二)

    获取域   1. 通过反射API可以获取到类中公开的静态域和对象中的实例域.得到表示域的java.lang.reflect.Field类的对象之后,就可以获取和设置域的值. 与获取构造方法类似,Cla ...

  4. Codeforces Round #372 (Div. 1) B. Complete The Graph

    题目链接:传送门 题目大意:给你一副无向图,边有权值,初始权值>=0,若权值==0,则需要把它变为一个正整数(不超过1e18),现在问你有没有一种方法, 使图中的边权值都变为正整数的时候,从 S ...

  5. 时间查询缺少部分数据 mvc 解决方案

    前情提要: 在c# mvc EF模式下 普通的列表展示页面,采用form提交的,后台视同request对象接收,如果涉及到时间搜索的情况,经常会搞错,现在明确一下怎么做. 一:Request /// ...

  6. mysql的增量备份与全备的脚本

    mysql全量备份.增量备份.开启mysql的logbin日志功能.在/etc/my.cnf文件中加入以下代码: [mysqld]log-bin = "/home/mysql/logbin. ...

  7. 【BZOJ2212】[Poi2011]Tree Rotations 线段树合并

    [BZOJ2212][Poi2011]Tree Rotations Description Byteasar the gardener is growing a rare tree called Ro ...

  8. cocos2d-X学习之主要类介绍:摄像机(CCCamera)

    在cocos2d-x中,每个节点(CCNode)都需要用到,即当节点发生旋转.缩放和位置变化等时,都需要覆盖CCCamera,然后这个节点通过CCCamera重新渲染. 类结构: 其主要函数如下: c ...

  9. jquery刷新页面指定部位

    做好好几次了,经常忘记格式,这次记下来 $("#baseInfo").load("/KnowledgeLib/Personalization/QuestionUpdate ...

  10. Storm-源码分析-Topology Submit-Executor-mk-threads

    对于executor thread是整个storm最为核心的代码, 因为在这个thread里面真正完成了大部分工作, 而其他的如supervisor,worker都是封装调用. 对于executor的 ...