python编码问题分析
本文首先简要介绍编码转换的基本原理,然后针对字符串处理、文件读写的两个实例,具体分析编码问题的处理方式。
1、编码转换的基本原理
我们知道,只有在面对中文、日文等编码字符(以下均以中文字符为例)时,才会有编码转换问题;而英文字符串是不存在编码转换问题的,因为转来转去都不会变化。
那么分别在什么情况下编码和解码?看下面两个例子就清楚了:
1)编码:Unicode(中文字符)-->String(字符串),当需要把中文字转换为字符串时,用编码encode。
u'中国'  #Unicode
Out[1]: u'\u4e2d\u56fd'
type(u'中国')
<type 'unicode'>
u'中国'.encode('utf-8') #编码
Out[2]: '\xe4\xb8\xad\xe5\x9b\xbd' # String
type('\xe4\xb8\xad\xe5\x9b\xbd')
<type 'str'>2)解码:String(字符串) --> Unicode(中文字符),当需要把字符串转换回中文字时,用解码decode。
'\xe4\xb8\xad\xe5\x9b\xbd'.decode('utf-8') #解码
Out[5]: u'\u4e2d\u56fd'
print u'\u4e2d\u56fd' # Unicode
中国2、将列表中的数字、字符串、Unicode都转换为string,如何处理?
假设待处理列表为:lst = [1, 'abc', u'中国'],如果使用for循环和str()函数,会导致报错,从以下报错信息中可以发现:其实str()函数在尝试对u'中国'进行ascii编码,这当然行不通;正确的方法是单独用encode()处理Unicode字符。举例如下
错误的处理方法:
for i in lst:
   print str(i) #错误的处理方法
#报错:UnicodeEncodeError:'ascii' codec can't encode characters in position 0-1: ordinal not inrange(128)正确的处理方法:
for i in lst:
   if isinstance(i, unicode): #单独处理unicode字符
       print i.encode('utf-8')
   else: #其余的情况用str()函数处理
        print str(i)
#1
#abc
#中国3、将编码为A的数据,输出到编码为B的文件,如何处理?
举例说明:假设源数据所采用编码为utf-8,希望将源数据保存到编码为gbk的文件。
基本思路:先将utf-8格式源数据decode()回unicode字符(python底层默认编码),注意源文件编码为utf-8,所以decode()中的参数应为utf-8;然后将源文件输出到编码为gbk的文件,注意输出到文件的过程是:将文件内容encode成为我们需要的gbk字符串。
代码如下:
content = u'中国'.encode('utf-8') #演示用:生成utf-8偏码的源数据
content = content.decode('utf-8') #使用utf-8格式解码,得到unicode字符
#源数据保存到编码为gbk的文件,相当于content.encode('gbk')后保存到文件。
path = './'
with codecs.open(path, 'wb', encoding ='gbk', errors='ignore') as f:
       f.write(content) python编码问题分析的更多相关文章
- BASE64编码原理分析脚本实现及逆向案例
		在互联网中的每一刻,你可能都在享受着Base64带来的便捷,但对于Base64的基础原理你又了解多少?今天小编带大家了解一下Base64编码原理分析脚本实现及逆向案例的相关内容. 01编码由来 数 ... 
- 说说Python编码规范
		前言 已有近两个月没有发表过文章了,前段时间外甥和女儿过来这边渡暑假,平常晚上和周末时间都陪着她们了,趁这个周末有空,再抽空再把这块拾起来. 这么久没写了,再次拿起键盘,想想,发表些什 ... 
- Python 编码规范(Google)
		Python 编码规范(Google) https://blog.csdn.net/q469587851/article/details/54096093 Python 风格规范(Google) 本项 ... 
- Python 编码为什么那么蛋疼?
		据说,每个做 Python 开发的都被字符编码的问题搞晕过,最常见的错误就是 UnicodeEncodeError.UnicodeDecodeError,你好像知道怎么解决,遗憾的是,错误又出现在其它 ... 
- Python编码(encode)和解码(Decode)常见的两个错误
		项目地址:https://git.io/pytips 0x07 和 0x08 分别介绍了 Python 中的字符串类型(str)和字节类型(byte),以及 Python 编码中最常见也是最顽固的两个 ... 
- (转载) 浅谈python编码处理
		最近业务中需要用 Python 写一些脚本.尽管脚本的交互只是命令行 + 日志输出,但是为了让界面友好些,我还是决定用中文输出日志信息. 很快,我就遇到了异常: UnicodeEncodeError: ... 
- Python 编码简单说
		先说说什么是编码. 编码(encoding)就是把一个字符映射到计算机底层使用的二进制码.编码方案(encoding scheme)规定了字符串是如何编码的. python编码,其实就是对python ... 
- Python之路3【知识点】白话Python编码和文件操作
		Python文件头部模板 先说个小知识点:如何在创建文件的时候自动添加文件的头部信息! 通过:file--settings 每次都通过file--setings打开设置页面太麻烦了!可以通过:View ... 
- python编码规范
		python编码规范 文件及目录规范 文件保存为 utf-8 格式. 程序首行必须为编码声明:# -*- coding:utf-8 -*- 文件名全部小写. 代码风格 空格 设置用空格符替换TAB符. ... 
随机推荐
- bzoj2300#2300. [HAOI2011]防线修建
			题解:带删点的维护凸包,1.删点2.查询凸包周长 题解:倒着做就成了带加点的维护凸包,加点时维护一下周长就没了 //#pragma GCC optimize(2) //#pragma GCC opti ... 
- stl中常用的排序算法
			#include"iostream" #include"vector" using namespace std; #include"string&qu ... 
- c++中利用localtime_s函数格式化输出当地日期与时间
			Visual C++ 6.0开发环境中显示当地日期与时间主要通过localtime()函数来实现,该函数的原型在time.h头文件中,其语法格式如下: struct tm *localtime(xon ... 
- WebSphere概要文件的创建与删除
			一.创建单server服务器 /was/bin/manageprofiles.sh -create -profileName server1 \ -profilePath /was/profiles/ ... 
- Spring Cloud之路:(七)SpringBoot+Shiro实现登录认证和权限管理
			版权声明:本文为博主原创文章,未经博主允许不得转载. https://blog.csdn.net/sage_wang/article/details/79592269一.Shiro介绍1.Shiro是 ... 
- Java多线程中对CountDownLatch的使用
			CountDownLatch是一个非常实用的多线程控制工具类,称之为“倒计时器”,它允许一个或多个线程一直等待,直到其他线程的操作执行完后再执行.用给定的计数初始化CountDownLatch,其含义 ... 
- 利用VisualVm和JMX远程监控Java进程
			自Java 6开始,Java程序启动时都会在JVM内部启动一个JMX agent,JMX agent会启动一个MBean server组件,把MBeans(Java平台标准的MBean + 你自己创建 ... 
- IDEA教程之导入maven项目
			通过从网上的开源项目下载源码,一般都是maven管理的项目,此类项目可以通过导入快捷运行项目,如图为下载的一个项目: 2 打开IDEA,点击第二个选项“Import Porject”,然后选择源码根目 ... 
- Date和 Calendar
			import java.text.ParseException; import java.text.SimpleDateFormat; import java.util.Calendar; impor ... 
- OOP ⑴
			1.面向对象 类和对象的关系 类是我们在生活中,对身边的一系列事物,进行的不自觉的分类! 只是脑海中的一个印象! 在现实生活中,不存在! 存在的是我们这个印象的具体反映! 对象:用来描述客观事物的一个 ... 
