解决python2.x文件读写编码问题

转自: https://xrlin.github.io/解决python2.x文件读写编码问题/

python2.X版本在处理中文文件读写时经常会遇到乱码或者是UnicodeError错误，正如下面的程序所示:

#coding=utf-8

# test.txt是一个以gbk2312编码（简体中文windows系统中的默认文本编码）的文本文件

# 文本写入

with open('test.txt', 'a') as f:

  f.write('test') # 正常写入

  f.write('测试') # 正常写入,乱码

  f.write（u’测试') # 写入错误，触发UnicodeEncodeError异常

# 文本读取

with open('test.txt') as f:

  for line in f:

    print line, type(line)  # 输出test娴嬭瘯, <type 'str'>

由于脚本源文件中的字符为utf-8编码，而文本文档中的字符为gb2312编码，所以以str类型字符串直接写入文件，此时str字符串的编码与文件编码不同，导致乱码。直接str类型参数传递给write方法容易导致乱码问题，直接传递Unicode类型字符串作为write的参数，会导致UnicodeEncodeError错误，这是因为python2在写入unicode字符串时会自动尝试转码为ascii编码，而ascii编码并不能处理中文。知道了问题的根源，首先想到的解决方法就是对源字符串按照文件进行编码，保证编码正确。

# 解决方法1

with open('test.txt', 'w') as f:

  f.write('测试'.decode('utf-8').encode('gb2312'))

  f.write(u'测试‘.ecode('gb2312')

如果是str类型的字符串，需要使用decode(因为我在脚本中设定#coding=utf8,所以使用decode(‘utf-8’))将其改变为python内部使用的Unicde编码然后使用encode转换成对应的编码类型。

读写操作都需要进行编码转换是个容易导致错误而且烦人的问题，python中提供了codecs这个内置自然语言处理模块方便我们进行不同编码语言的处理，codecs模块的open方法可以指定encoding参数设定文件的编码格式，以后codecs会自动处理文件的读写编码问题，读取的字符串和写入时的字符串参数统一使用python的Unicode类型。使用codecs的open方法代替原来的open方法发可以摆脱烦人的文件编码问题。

with codecs.open('test.txt', 'w', encoding='utf-8') as f:

  f.write(u'测试')

with codecs.open('text.txt', encoding='utf-8') as f:

  for line in f:

   print line, type(line) # output： 测试<type 'unicode'>

解决python2.x文件读写编码问题的更多相关文章

【原创】python中文编码问题深入分析（三）：python2.7文件读写中文编码问题
上一篇文章介绍和分析了python2.7中使用print遇到的中文编码问题的原因和解决方案,本篇主要介绍一下python2.7中执行文件读写可能遇到的编码问题. 1.文件读取假如我们读取一个文件,文 ...
XML文件读写编码不是UTF-8的问题
FileWriter和FileReader在写.读文件时,使用系统当前默认的编码方式. 在中文win下encoding基本是GB2312,在英文win下基本是ISO-8859-1.所以要创建一个UTF ...
python 文件读写编码
第六篇.文件处理之python2和3字符编码的区别
目录 python2和3字符编码的区别一.字符编码应用之python python2和3字符编码的区别一.字符编码应用之python 1执行python的三个阶段 python test.py 执 ...
解决Python2中文ascii编码的方法
在YiiChina签到的时候,经常会看到有人在说说里面发群主是最帅的,yii 是 PHP 最好的框架,没有之一,就想到使用一言,在每天签到的时候也发一句话同时使用方糖将内容推送到微信,防止有什么不对 ...
Java文件读写操作指定编码方式防乱码
读文件:BufferedReader 从字符输入流中读取文本,缓冲各个字符,从而提供字符.数组和行的高效读取. 可以指定缓冲区的大小,或者可使用默认的大小.大多数情况下,默认值就足够大了. 通常,Re ...
Python之文件读写
本节内容: I/O操作概述文件读写实现原理与操作步骤文件打开模式 Python文件操作步骤示例 Python文件读取相关方法文件读写与字符编码一.I/O操作概述 I/O在计算机中是指Input ...
解决Python2.7的UnicodeEncodeError:'ascii' codec can't encode characters in position 0-78: ordinal not in range(128)异常错误
解决Python2.7的UnicodeEncodeError: 'ascii' codec can't encode异常错误大家都知道,在使用python进行网络爬虫时,最头疼的就是转码问题,下面是 ...
【转】Python之文件读写
[转]Python之文件读写本节内容: I/O操作概述文件读写实现原理与操作步骤文件打开模式 Python文件操作步骤示例 Python文件读取相关方法文件读写与字符编码一.I/O操作概述 ...

随机推荐

python变量内存地址释放与加速并行计算多线程
1.导入numba和gc包进行并行计算和内存释放代码如下很容易的: #coding:utf-8 import time from numba import jit, prange, vectoriz ...
7 SQL优化技术
7.1 改变访问结构 7.2 修改SQL语句 SELECT deptno FROM dept WHERE deptno NOT IN (SELECT deptno FROM emp); SELEC ...
imperva 网管替换
事情是这样的某某银行的imperva DAM审计设备出现蜂鸣的响声.经检查电源没有问题,怀疑是硬盘坏了 . 然后我就去底层查看运行命令 :impctl platform storage raid ...
C++ 之Boost 实用工具类及简单使用
本文将介绍几个 Boost 实用工具类,包括 tuple.static_assert.pool.random 和 program_options等等.需要对标准 STL 具备一定的了解才能充分理解本文 ...
linux音频alsa-uda134x驱动分析之二（时钟)
Audio Clocking音频时钟============== This text describes the audio clocking terms in ASoC and digital au ...
iframe内部刷新后跳转锚点
开发过程中需要在iframe内容页中点击刷新按钮刷新页面并跳转至页面底部,编写js函数在url后面加上锚点名称#mao,但发现并未达到预期效果,通过测试发现锚点只有在第一次访问页面的时候才会生效,所有 ...
在JAVA中记录日志的十个小建议
JAVA日志管理既是一门科学,又是一门艺术.科学的部分是指了解写日志的工具以及其API,而选择日志的格式,消息的格式,日志记录的内容,哪种消息对应于哪一种日志级别,则完全是基于经验.从过去的实践证明, ...
Extjs6设置Store、Ajax、form的请求方式（GET、POST）
Extjs6 设置Store.Ajax.form的请求方式(GET.POST) Ajax请求和Form的submit方法设置请求方式和原来一样,使用method : 'POST'设置 // 表单提交 ...
洛谷P1725 琪露诺
传送门啦本人第一个单调队列优化 $ dp $,不鼓励鼓励? 琪露诺这个题,$ dp $ 还是挺好想的对不,但是暴力 $ dp $ 的话会 $ TLE $ ,所以我们考虑用单调队列优化. 原题中说她只 ...
thinkphp5 url传参
url('index/blog/read',['id'=>5,'name'=>'thinkphp']); 手册https://www.kancloud.cn/manual/thinkphp ...

解决python2.x文件读写编码问题

转自: https://xrlin.github.io/解决python2.x文件读写编码问题/

解决python2.x文件读写编码问题的更多相关文章

随机推荐

热门专题