python编码问题分析

本文首先简要介绍编码转换的基本原理，然后针对字符串处理、文件读写的两个实例，具体分析编码问题的处理方式。

1、编码转换的基本原理

我们知道，只有在面对中文、日文等编码字符（以下均以中文字符为例）时，才会有编码转换问题；而英文字符串是不存在编码转换问题的，因为转来转去都不会变化。

那么分别在什么情况下编码和解码？看下面两个例子就清楚了：

1）编码：Unicode（中文字符）-->String（字符串），当需要把中文字转换为字符串时，用编码encode。

u'中国'  #Unicode

Out[1]: u'\u4e2d\u56fd'

type(u'中国')

<type 'unicode'>

u'中国'.encode('utf-8') #编码

Out[2]: '\xe4\xb8\xad\xe5\x9b\xbd' # String

type('\xe4\xb8\xad\xe5\x9b\xbd')

<type 'str'>

2）解码：String（字符串） --> Unicode（中文字符），当需要把字符串转换回中文字时，用解码decode。

'\xe4\xb8\xad\xe5\x9b\xbd'.decode('utf-8') #解码

Out[5]: u'\u4e2d\u56fd'

print u'\u4e2d\u56fd' # Unicode

中国

2、将列表中的数字、字符串、Unicode都转换为string，如何处理？

假设待处理列表为：lst = [1, 'abc', u'中国']，如果使用for循环和str()函数，会导致报错，从以下报错信息中可以发现：其实str()函数在尝试对u'中国'进行ascii编码，这当然行不通；正确的方法是单独用encode()处理Unicode字符。举例如下

错误的处理方法：

for i in lst:

   print str(i) #错误的处理方法

#报错：UnicodeEncodeError:'ascii' codec can't encode characters in position 0-1: ordinal not inrange(128)

正确的处理方法：

for i in lst:

   if isinstance(i, unicode): #单独处理unicode字符

       print i.encode('utf-8')

   else: #其余的情况用str()函数处理

        print str(i)

#1

#abc

#中国

3、将编码为A的数据，输出到编码为B的文件，如何处理？

举例说明：假设源数据所采用编码为utf-8，希望将源数据保存到编码为gbk的文件。

基本思路：先将utf-8格式源数据decode()回unicode字符（python底层默认编码），注意源文件编码为utf-8，所以decode()中的参数应为utf-8；然后将源文件输出到编码为gbk的文件，注意输出到文件的过程是：将文件内容encode成为我们需要的gbk字符串。

代码如下：

content = u'中国'.encode('utf-8') #演示用：生成utf-8偏码的源数据

content = content.decode('utf-8') #使用utf-8格式解码，得到unicode字符

#源数据保存到编码为gbk的文件，相当于content.encode('gbk')后保存到文件。

path = './'

with codecs.open(path, 'wb', encoding ='gbk', errors='ignore') as f:

       f.write(content)

python编码问题分析的更多相关文章

BASE64编码原理分析脚本实现及逆向案例
在互联网中的每一刻,你可能都在享受着Base64带来的便捷,但对于Base64的基础原理你又了解多少?今天小编带大家了解一下Base64编码原理分析脚本实现及逆向案例的相关内容. 01编码由来数 ...
说说Python编码规范
前言已有近两个月没有发表过文章了,前段时间外甥和女儿过来这边渡暑假,平常晚上和周末时间都陪着她们了,趁这个周末有空,再抽空再把这块拾起来. 这么久没写了,再次拿起键盘,想想,发表些什 ...
Python 编码规范(Google)
Python 编码规范(Google) https://blog.csdn.net/q469587851/article/details/54096093 Python 风格规范(Google) 本项 ...
Python 编码为什么那么蛋疼？
据说,每个做 Python 开发的都被字符编码的问题搞晕过,最常见的错误就是 UnicodeEncodeError.UnicodeDecodeError,你好像知道怎么解决,遗憾的是,错误又出现在其它 ...
Python编码(encode)和解码(Decode)常见的两个错误
项目地址:https://git.io/pytips 0x07 和 0x08 分别介绍了 Python 中的字符串类型(str)和字节类型(byte),以及 Python 编码中最常见也是最顽固的两个 ...
(转载) 浅谈python编码处理
最近业务中需要用 Python 写一些脚本.尽管脚本的交互只是命令行 + 日志输出,但是为了让界面友好些,我还是决定用中文输出日志信息. 很快,我就遇到了异常: UnicodeEncodeError: ...
Python 编码简单说
先说说什么是编码. 编码(encoding)就是把一个字符映射到计算机底层使用的二进制码.编码方案(encoding scheme)规定了字符串是如何编码的. python编码,其实就是对python ...
Python之路3【知识点】白话Python编码和文件操作
Python文件头部模板先说个小知识点:如何在创建文件的时候自动添加文件的头部信息! 通过:file--settings 每次都通过file--setings打开设置页面太麻烦了!可以通过:View ...
python编码规范
python编码规范文件及目录规范文件保存为 utf-8 格式. 程序首行必须为编码声明:# -*- coding:utf-8 -*- 文件名全部小写. 代码风格空格设置用空格符替换TAB符. ...

随机推荐

排座椅（洛谷P1056）
题目描述上课的时候总会有一些同学和前后左右的人交头接耳,这是令小学班主任十分头疼的一件事情.不过,班主任小雪发现了一些有趣的现象,当同学们的座次确定下来之后,只有有限的D对同学上课时会交头接耳. 同 ...
远程桌面连接报错：出现身份验证错误，要求函数不受支持，由于CredSSP加密Oracle修正。
远程桌面连接错误: 解决方法: 1.在运行中输入gpedit.msc,启动本地组策略编辑器. 2.定位到计算机—管理模板—系统—凭据分配 3.点凭据分配—加密Oracle修正. 4.加密Oracle修 ...
shiro中JSP标签
Shiro提供了JSTL标签用于在JSP/GSP页面进行权限控制,如根据登录用户显示相应的页面按钮. 导入标签库 <%@taglib prefix="shiro" uri=& ...
mybatis使用@param("xxx")注解传参和不使用的区别
public interface SystemParameterMapper { int deleteByPrimaryKey(Integer id); int insert(SystemParame ...
Java虚拟机JVM简单理解
Java虚拟机JVM的作用: Java源文件(.java)通过编译器编译成.class文件,.class文件通过JVM中的解释器解释成特定机器上的机器代码,从而实现Java语言的跨平台. JVM的体系 ...
poj2117-tarjin求割点
http://poj.org/problem?id=2117 求移除一个点以及与它相邻边后,剩下的图中最大的联通子图的数量是多少. 跑一遍tarjin统计下拆除某个点剩下的子图数量即可.注意给出的图不 ...
Python---字典常用方法总结
字典是一种key-value的数据类型,字典里必须写Key和value,字典的优点是取数方便和速度快.字典的特性: 1.字典是无序的,因为它没有下标,用key来当索引,所以是无序的 2.字典的key必 ...
java旅程（二）基本语法
java变量: 数值型整数类型(byte,short,int,long)浮点类型(float,double) 字符型 char 基本数据类型 ...
RCNN 目标识别基本原理
RCNN- 将CNN引入目标检测的开山之作 from:https://zhuanlan.zhihu.com/p/23006190 前面一直在写传统机器学习.从本篇开始写一写深度学习的内容. 可能需要 ...
js 获取数组重复的元素
//获取数组重复的元素 function refrain(arr) { var tmp = []; if(Array.isArray(arr)) { arr.concat().sort().sort( ...

python编码问题分析

python编码问题分析的更多相关文章

随机推荐

热门专题