Python读取UTF-8编码文件并使用命令行执行时输出结果的问题

最近参加了由CCF举办的数据挖掘比赛，主办方提供了csv格式的数据文件，由于中文显示乱码的问题，我先用txt文本编辑器将编码改为utf-8格式，但是在读取文件并输出读取结果时发生了问题，代码如下：

 # -*- coding:utf-8 -*-

 __author__ = 'Jz'

 csvPath = 'D:/coding_file/python_file/Big Data/trainUTF8.csv'

 try:

     csv = open(csvPath, 'r')

     lines = csv.readlines()

     for line in lines:

         print line.decode('utf-8').encode('GBK')

 except IOError, ioe:

     if hasattr(e, 'reason'):

         print '文件打开失败，失败原因：' + e.reason

运行结果如下：

显然根据结果来看问题具体出现在print line.decode('utf-8').encode('GBK')这里，按理说应该是没有问题的，那么问题到底出现在哪里？

后来搜索了很多相关资料，解决了问题，总结如下：Windows系统的txt文件在使用utf-8编码保存时会默认在文件开头插入三个不可见字符，称为BOM头，这个BOM头在python的codecs库中已经定义为常量。Windows根据BOM头来判断txt文件是否为utf-8编码，所以在读取文件时必须将BOM头去除或者忽略，否则python在decode和encode时会出现错误。

解决方法：

 # -*- coding:utf-8 -*-

 __author__ = 'Jz'

 import codecs

 csvPath = 'D:/coding_file/python_file/Big Data/trainUTF8.csv'

 try:

     csv = open(csvPath, 'r')

     lines = csv.readlines()

     for line in lines:

         print line.decode('utf-8').encode('gbk', 'ignore')

 except IOError, ioe:

     if hasattr(e, 'reason'):

         print '文件打开失败，失败原因：' + e.reason

ignore参数表示忽略其中有异常的编码，仅显示有效的编码

Python读取UTF-8编码文件并使用命令行执行时输出结果的问题的更多相关文章

Python Linux 命令行执行脚本输出重定向print到日志文件
reference: https://unix.stackexchange.com/questions/182537/write-python-stdout-to-file-immediately ...
python读取txt批量创建文件
python读取txt批量创建文件 pythonbatchfile 前几天有个小问题, 需要批量建立很多文件夹,, 所以手动写了个小的脚本, 后续可以直接使用读取目录文件, 然后直接创建相应的文件 ...
Python命令行执行.py文件提示ModuleNotFoundError：No module named 'XXX'解决办法
原因:在命令行执行.py文件找不到包是因为我们没有把项目路径保存,可以通过sys.path.append()保存项目路径,执行后就能成功. ############################## ...
MAC与windows下打开当前文件路径的命令行(终端)
MAC 下文件夹与终端: 1.打开当前路径的终端窗口方法: ①直接拖动要打开的文件夹到终端 ②打开finder的服务偏好设置, 勾选"新建位于文件夹位置的终端"选项, 以后可以在文 ...
mysql命令行执行外部文件
mysql命令行执行外部文件
在Linux命令行执行python命令
在Linux的命令行执行python的某些命令: [root@centos7 ~]# echo "import sys ;print(sys.path)"|python3.6 [' ...
编码用命令行执行的C语言词语统计程序
需求介绍程序处理用户需求的模式为: wc.exe [parameter][filename] 在[parameter]中,用户通过输入参数与程序交互,需实现的功能如下: 1.基本功能支持 -c ...
用deamon打开ISO文件，提示命令行错误！！
用deamon打开ISO文件,提示命令行错误!! 解决方法:(没有关联iso文件)重新卸载deamon,再重新安装,在关联iso文件处打对勾,安装完成后即可用
python读取并写入mat文件
用matlab生成一个示例mat文件: clear;clc matrix1 = magic(5); matrix2 = magic(6); save matData.mat 用python3读取并写入 ...

随机推荐

CSS Table（表格）
CSS Table(表格) 一.表格边框 border 指定CSS表格边框,使用border属性. 下面的例子指定了一个表格的Th和TD元素的黑色边框: table, th, td { border: ...
nginx windows版本 1024限制
Windows版本因为文件访问句柄数被限制为1024了,当访问量大时就会无法响应. 会有如下错误提示:maximum number of descriptors supported by select ...
center os7.2 apache+php+mysql环境配置并设置https访问
本人阿里云购买的center os7.2系统,小程序只支持https,因此需要配置https 安装apache yum -y install httpd systemctl start httpd a ...
python3执行js之pyexecjs
执行js的三种方法:1.阅读js代码,将之转成python2.找到js代码,用python第三方库执行相关代码 python2-pyv8 python3-pyexecjs3.用selenium驱动浏览 ...
【读书笔记】《深入浅出nodejs》第五章内存控制
海量请求+长时间运行 -> 内存控制 -> 一切资源高效循环利用 1. V8的垃圾回收机制与内存限制在Node中通过JavaScript使用内存时,只能使用部分内存(64位系统下约1.4 ...
Flutter中集成Font Awesome
1.添加引用在 pubspec.yaml文件中,加入 font awesome的引用 dependencies: flutter: sdk: flutter # The following adds ...
oracle的分表详解 -----表分区
此文从以下几个方面来整理关于分区表的概念及操作: 1.表空间及分区表的概念 2.表分区的具体作用 3.表分区的优缺点 4.表分区的几种类 ...
数据结构（十一）B树
之前的二叉排序树,平衡二叉树都是基于二叉树的实现,但是在搜索过程中,效率和树的深度有关,所以就想到把二叉树改为多叉树,B树和B+树都基于多叉树的实现多路查找树 B树定义应用场景 B+树 ...
python 贪婪和非贪婪模式
这样的正则表达式: r'\*(.+)\*' 如果想要匹配*something*这样的一个串按道理说是没问题的但是如果文本是*this* is *something* 那么我们的正则表达式就会采取贪 ...
Android DB那些事-数据库加密
说到数据库加密,目前最好且唯一的方案就是SqlCipher对sqlite3整体加密,微信也用的它.开源,且支持很多平台. 单就Android来说,集成不算太麻烦,1个jar包,3个so库,1个zip. ...

Python读取UTF-8编码文件并使用命令行执行时输出结果的问题

Python读取UTF-8编码文件并使用命令行执行时输出结果的问题的更多相关文章

随机推荐

热门专题