Python-2.7 : 编码问题及encode与decode

普通的字符串在py2.7中都是以ASCII编码的，例如str=“abc”，若含有中文则会以gbk或者gb2312编码（GB2312是中国规定的汉字编码，也可以说是简体中文的字符集编码;GBK 是 GB2312的扩展 ,除了兼容GB2312外，它还能显示繁体中文，还有日文的假名）

但在字符串前加u，例如str=u“abc”，则可以将字符串定义成Unicode编码

系统自带的编码查看可通过 sys.getdefaultencoding() 获得，若要修改默认编码需要先 reload(sys) ，因为初始化后会删除 sys.setdefaultencoding 这个方法，我们需要重新载入，之后使用 sys.setdefaultencoding('utf-8') 即可修改

编辑py文件时在头部加上# -*- coding: utf-8 -*- 可以使这个py文件以utf-8编码，里面可以包含中文

decode的作用是将其他编码的字符串转换成unicode编码，如str1.decode('gb2312')，表示将gb2312编码的字符串转换成unicode编码

encode的作用是将unicode编码转换成其他编码的字符串，如str2.encode('gb2312')，表示将unicode编码的字符串转换成gb2312编码，

若原字符串不是unicode编码而直接encode，则以系统默认编码进行解码，再encode，即 str2.encode('gb2312') == str2.decode(sys.getdefaultencoding()).encode('gb2312')

如果是在utf-8的文件中，字符串就是utf-8编码，如果是在gb2312的文件中，则其编码为gb2312。这种情况下，要进行编码转换，都需要先用 decode方法将其转换成unicode编码，再使用encode方法将其转换成其他编码。通常，在没有指定特定的编码方式时，都是使用的系统默认编码创建的代码文件。

isinstance(str,unicode)可以判断一个字符串是否为unicode编码，是则返回True，不是返回False

如果直接解码一些包含特殊字符的编码，可能会抛出异常，可以用以下方法解决：

s.decode("utf-8", "ignore") 忽略其中有异常的编码，仅显示有效的编码
s.decode("utf-8", "replace") 替换其中异常的编码，这个相对来可能一眼就知道那些字符编码出问题了，但是会把原来的编码搞乱，多用于测试，不是很实用

可以看到把gbk编码解码后要正确显示中文不能用utf-8来encode，还是只能用gbk或gbk2312，推测打开一些 txt 或 word 时的乱码应该就是把gbk的编码用utf-8显示了

各种编码常见编码参考：http://blog.csdn.net/shijing_0214/article/details/50908144

一篇比我写的好多了的博客：http://www.cnblogs.com/franknihao/p/6557559.html

Python-2.7 : 编码问题及encode与decode的更多相关文章

Python字符串的编码与解码(encode与decode)
首先要搞清楚,字符串在Python内部的表示是unicode编码,因此,在做编码转换时,通常需要以unicode作为中间编码,即先将其他编码的字符串解码(decode)成unicode,再从unico ...
【python】python新手必碰到的问题---encode与decode，中文乱码[转]
转自:http://blog.csdn.net/a921800467b/article/details/8579510 为什么会报错“UnicodeEncodeError:'ascii' codec ...
[转]python新手必碰到的问题---encode与decode，中文乱码--转载
edu.codepub.com/2009/1029/17037.php 这个问题在python3.0里已经解决了. 这有篇很好的文章,可以明白这个问题: 为什么会报错“UnicodeEncodeErr ...
python day- 6 is 和 ==的区别 encode 和 decode
1.is 和 == 的区别. == 是由来判断左右两边的内容是否相等. is 是用来判断内存地址是否相同. 引进 id ( )函数小数据池: 对于字符串 ,数字 ,bool 值进行 id()计 ...
编码格式（UTF-8 与 ANSI）各种编码解码（encode、decode）
Windows:默认为 ANSI,记事本程序另存为处,可以设置其他编码格式: Ubuntu:默认为 UTF-8 1. ANSI ANSI 编码表示英文字符时用一个字节,表示中文用两个或四个字节 -- ...
Python中的编码问题（encoding与decode、str与bytes）
1 引言在文件读写及字符操作时,我们经常会出现下面这几种错误: TypeError: write() argument must be str, not bytes AttributeError: ...
python基础系列教程——Python中的编码问题，中文乱码问题
python基础系列教程——Python中的编码问题,中文乱码问题如果不声明编码,则中文会报错,即使是注释也会报错. # -*- coding: UTF-8 -*- 或者 #coding=utf-8 ...
Python编码介绍——encode和decode
在 python 源代码文件中,如果你有用到非ASCII字符,则需要在文件头部进行字符编码的声明,声明如下: # code: UTF-8 因为python 只检查 #.coding 和编码字符串,所以 ...
python编码问题之\"encode\"&\"decode\"
python encode decode 编码 decode的作用是将其他编码的字符串转换成unicode编码,如str1.decode('gb2312'),表示将gb2312编码的字符串str1转换 ...

随机推荐

linux学习笔记-conky配置开机启动方法
我的邮箱地址:zytrenren@163.com欢迎大家交流学习纠错! 一.常用桌面的配置方法创建启动文件并加入以下配置 ~/.config/autostart/conky.desktop [Des ...
loadrunner 场景设计-添加Windows Resources计数器
场景设计-添加Windows Resources计数器 by:授客 QQ:1033553122 目的监控要测试的windows服务器的资源使用情况步骤 1.添加视图,方法双击.拖动左侧的Windo ...
Handler消息处理机制详解
之前一直只知道handler如何使用,不知道其中的工作原理,趁着新版本提测阶段比较空闲,及时做一个总结. 先看一下Google官方文档关于handler的解释: A Handler allows yo ...
js取得background属性url的值--移动端【踩坑】
获取一个图片的地址(该图片的路径是写在css的background-img属性中的),一般实现方式: var topimg = $(".topbg").css("back ...
关注的Elasticsearch大牛博客
1.http://wangnan.tech/ 2.https://elasticsearch.cn/people/wood 3.https://www.jianshu.com/u/244399b1d7 ...
使用VSTS的Git进行版本控制（六）——拉取请求
使用VSTS的Git进行版本控制(六)--拉取请求在将代码合并到主干之前,拉取请求让团队对特性分支的更改提供反馈.审阅人可以通过建议修改留下评论,并投票批准或拒绝代码. 任务1:在Visual St ...
基于TensorFlow进行TensorBoard可视化
# -*- coding: utf-8 -*- """ Created on Thu Nov 1 17:51:28 2018 @author: zhen "&q ...
[20171101]修改oracle口令安全问题.txt
[20171101]修改oracle口令安全问题.txt --//等保的问题,做一些关于修改oracle口令方面的测试. 1.oracle修改口令一般如下方式: alter user scott id ...
python第四十三天--第三模块考核
面向对象: 概念:类,实例化,对象,实例属性: 公有属性:在类中定义成员属性:在方法中定义私有属性:在方法中使用 __属性定义限制外部访问方法: 普通方法类方法: @classmeth ...
Django电商项目---完成登录验证和用户中心(个人信息)day3
登录验证的实现背景说明: 用户在商品界面选择商品后,在点击购物车或者结算订单之前需要完成用户的登录验证,这里用装饰器来完成创建装饰器类: df_user/user_decorator.py ...

Python-2.7 : 编码问题及encode与decode

Python-2.7 : 编码问题及encode与decode的更多相关文章

随机推荐

热门专题