python读文件出现中文乱码

更新：

一个解释更详细和全面的博文：https://www.cnblogs.com/zhangqigao/p/6496172.html

最近开始处理中文文本，读取文件有时候会出现乱码。原因：编码和解码方式不一样。

所以，解决这个问题的方法就是正确地解码，问题拆解为：1、弄清楚待查看文件的编码方式；2、解码。

即：

1、查看文件编码方式：

import chardet

fobj=open(fname,'r')

data=fobj.read()

print chardet.detect(data)['encoding']

2、编码类型转换

python默认使用unicode字符集，默认编码方式utf-8.

str.decode('gbk')    #将gbk编码的字符串转换成unicode编码

str.encode('gbk')    #将unicode编码的字符串转换成gbk编码

附录A：

windows文件默认编码方式与地域有关：微软为了适应世界上不同地区用户的文化背景和生活习惯，在Windows中设计了区域（Locale）设置的功能。每个Locale代表了某个国家或地区的一组设定，包括字符集，数字、货币、时间和日期的格式等。Windows用一个4字节32位二进制值给Locale编号，记作LCID（Locale ID）。它的高16位表示字符的排序方法，一般为0。在它的低16位中，低10位代表某种语言，高4位指定该语言适用的地区。如中文在中国大陆地区和台湾地区有简体和繁体的区分，它们的低10位相同而高4位不同。

Linux文件的默认编码方式可以在终端执行locale命令，查看输出结果中 LC_CTYPE 对应的内容。

附录B：

1981，中国国家标准总局发布GB2312字符集（16位）。

1993 ，国际标准组织发布unicode 1.1字符集（unicode字符集有多个编码方式，分别是UTF-8，UTF-16，UTF-32和UTF-7。）。

中国国家标准总局发布GB13000.1-93字符集（16位）。扩充GB2312字符集=>GBK(guo biao kuo)字符集（16位）。

就包含字符来说： GBK = GB2312 +繁体中文+1981年之后简化的简体中文

就包含的中文字符而言：GBK= Unicode 1.1 + GB13000.1-93

python读文件出现中文乱码的更多相关文章

Python 生成的页面中文乱码问题
第一保证程序源文件里的中文的编码格式,如我们把源文件的编码设置成utf8的. reload(sys) sys.setdefaultencoding('utf-8') 第二, 告诉浏览器,我们须要 ...
springBoot使用@Value标签读取*.properties文件的中文乱码问题
上次我碰到获取properties文件中的中文出现乱码问题. 查了下资料,原来properties默认的字符编码格式为asci码,所以我们要对字符编码进行转换成UTF-8格式原先代码:@Proper ...
python3 库pandas写入csv格式文件出现中文乱码问题解决方法
python3 库pandas写入csv格式文件出现中文乱码问题解决方法解决方案: 问题是使用pandas的DataFrame的to_csv方法实现csv文件输出,但是遇到中文乱码问题,已验证的正确 ...
windows bat文件运行中文乱码
windows bat文件运行中文乱码 CreationTime--2018年7月17日08点51分 Author:Marydon 1.情景展示运行bat文件,里面的中文提示显示乱码 2.问题剖 ...
python向数据库插入中文乱码问题
1.python向数据库插入中文乱码问题直接手动insert into 中文不乱码,但是用程序跑起来就乱码. conn =MySQLdb.connect(host="127.0.0.1& ...
PHP创建文件命名中文乱码解决的方法
PHP创建文件命名中文乱码解决的方法 <pre>iconv('utf-8', 'gbk', $dir); </pre> 因为系统环境是gbk 所以里面的字符也要gbk 编码一致 ...
python读文件判断是否已到EOF
python读文件判断是否已到EOF,也即结尾,一般其它语言都是以EOF直接来判断的,比如 if ( fp.read(chunk_size) == EOF), 但python到结尾后是返回空字符串的, ...
python读文件出现错误解决方法
python读文件经常会出现 UnicodeDecodeError: 'gbk' codec can't decode byte 0xbd in position 764: illegal multi ...
解决 Ubuntu 下 gedit编辑器打开文件出现中文乱码问题
解决 Ubuntu 中 gedit编辑器打开文件出现中文乱码问题 1. 问题分析在 windows 系统下,.txt 文件默认编码方式为 gb18030 格式的中文编码,而 gedit 默认的编码方 ...

随机推荐

ios 视图的旋转及应用
有时候,需要做出如下图所示的效果,这就需要用到视图的旋转了 1.首先将旋转的值由角度转换为弧度: #define degreesToRadinas(x) (M_PI * (x)/180.0) 注:M_ ...
VueJS渐进式JS框架中文学习
官方网站:http://vuejs.org/ GitHub:https://github.com/vuejs/vue 中文学习地址:https://cn.vuejs.org/
rtems 4.11 时钟驱动（arm, beagle）
根据bsp_howto手册,时钟驱动的框架主要在 c/src/lib/libbsp/shared/Clockdrv_shell.h 文件中实现时钟初始化时钟驱动初始化函数为 Clock_initi ...
android7.x Launcher3源代码解析（3）---workspace和allapps载入流程
Launcher系列目录: 一.android7.x Launcher3源代码解析(1)-启动流程二.android7.x Launcher3源代码解析(2)-框架结构三.android7.x L ...
centOS解决乱码问题
问题描述:输入javac出现乱码,部分字符不能显示解决方法 echo 'export LANG=en_US.UTF-8' >> ~/.bashrc
【PyCharm编辑器】之报：Spellchecker inspection helps locate typos and misspelling in your code, comments and literals, and fix them in one click.问题
如上图,输入一个单词时会出现波浪线,报:Spellchecker inspection helps locate typos and misspelling in your code, comment ...
【SQLServer2008】之改变主键当为null时也不会报错，可以入数据库。
在SqlServer红框中设置主键,右键会有添加主键选项,并且设置不能为null. 当我们插入主键数据如果为null时,会插不进去,这时候我们需要修改一下,如下图: “标识规范”中选择“是”,就可以了 ...
go的timer定时器实现
示例如下: package main import ( "fmt" "time" ) func testTimer1() { go func() { fmt.P ...
erlang中判断进程是否存活
一个参数的方法是已知Pid判断进程是否存活.两个参数的方法是已知节点和Pid或进程名判断进程是否存活. is_process_alive(Pid) when is_pid(Pid)->rpc:c ...
npm ERR! fatal: unable to connect to github.com
https://blog.csdn.net/baidu_30809315/article/details/86520093 git config --global url."https:// ...

python读文件出现中文乱码

python读文件出现中文乱码的更多相关文章

随机推荐

热门专题