中文的csv文件的编码改成utf-8的方法

直奔主题：把包含中文的csv文件的编码改成utf-8的方法：

https://stackoverflow.com/questions/191359/how-to-convert-a-file-to-utf-8-in-python

啰嗦几句：

在用pandas读取hive导出的csv文件时，经常会遇到类似UnicodeDecodeError: 'gbk' codec can't decode byte 0xa3 in position 12这样的问题，这种问题是因为导出的csv文件包含中文，且这些中文的编码不是gbk，直接用excel打开这些文件还会出现乱码，但用记事本打开这些csv则正常显示，然后用记事本另存为UTF-8之后，用excel打开也能够正常显示，并且用pandas读取时指明encoding='utf-8'也能正常读取了。如果读取批量的csv时，或者csv的行数达到数百万时，就不能通过记事本另存为来更改encoding了，那应该怎么做来保证pandas能正常读取这些csv呢？

1.读取时不加encoding参数，则默认使用gbk编码来读取数据源文件，即默认数据源文件的编码为gbk：

import pandas as pd

df=pd.read_csv(data_source_file)

2.如果源文件的中文不是gbk编码，则可能会报错:

UnicodeDecodeError: 'gbk' codec can't decode byte 0xa3 in position 12

那么可以试试utf-8编码：

df=pd.read_csv(data_source_file,encoding='utf-8')

如果仍然报错，提示utf-8也不行：

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xa3 in position 12

那么说明文件中的中文编码不是utf-8，这时我们就要确定源文件的中文到底使用哪一种编码。

3.常见的中文编码包括：utf-8,gbk,gb2312,gb18030,cp935,big5等，我们可以逐一试过去，确定之后再修改read_csv()的encoding参数值即可。

4.如果只需要读取一个csv文件，逐个试的方法是可行的，但是如果需要循环读取多个csv文件，而每个csv文件的编码都可能不一样，那么最好还是先把所有这些csv统一转为utf-8，再集中进行读取，转换文件的编码格式需要用到python自带的codecs模块（见 https://stackoverflow.com/questions/191359/how-to-convert-a-file-to-utf-8-in-python），它的作用等同于我们用记事本打开再另存为utf-8编码格式，能够确保成功修改文件的编码格式。其他方法，例如 Python使用三种方法批量修改记事本文件编码格式只是简单的str.decode('gbk').encode('utf-8')再写回到文件，或者这种都是不行的，依旧会报错。

5. 修改csv文件为utf-8的有效代码：

import codecs

def handleEncoding(original_file,newfile):

    #newfile=original_file[0:original_file.rfind(.)]+'_copy.csv'

    f=open(original_file,'rb+')

    content=f.read()#读取文件内容，content为bytes类型，而非string类型

    source_encoding='utf-8'

    #####确定encoding类型

    try:

        content.decode('utf-8').encode('utf-8')

        source_encoding='utf-8'

    except:

        try:

            content.decode('gbk').encode('utf-8')

            source_encoding='gbk'

        except:

            try:

                content.decode('gb2312').encode('utf-8')

                source_encoding='gb2312'

            except:

                try:

                    content.decode('gb18030').encode('utf-8')

                    source_encoding='gb18030'

                except:

                    try:

                        content.decode('big5').encode('utf-8')

                        source_encoding='gb18030'

                    except:

                        content.decode('cp936').encode('utf-8')

                        source_encoding='cp936'

    f.close()

    #####按照确定的encoding读取文件内容，并另存为utf-8编码：

    block_size=4096

    with codecs.open(original_file,'r',source_encoding) as f:

        with codecs.open(newfile,'w','utf-8') as f2:

            while True:

                content=f.read(block_size)

                if not content:

                    break

                f2.write(content)

把csv的中文转换为utf-8之后，则可以用

df=pd.read(csvfile,encoding='utf-8')

来读取。

6. 读取文件的时候，如果编码不对，会报decode error，需要在open(file,'r',encoding='source_file_encoding')中设置正确的encoding；

而写文件（例如逐行读取源文件，并把中文标点符号替换为英文标点，再另存为新文件）的时候，如果编码不对则会报encod error（需要在

open( file,'w',encoding='targe_file_encoding'）

中设置encoding，且该encoding必须和数据的来源一致（若读取数据之后，做了encoding的转换，则写入的encoding必须与转换后的encoding相同。）

中文的csv文件的编码改成utf-8的方法的更多相关文章

如何改变CSV文件的编码
通常我.csv文件的编码都不是我们想要的,比如我要把他保存为Utf-8格式的,好让我可以导入数据库,不乱码工具/原料电脑,.csv文件方法/步骤1首先,将.csv文件保存一下.然后鼠标右击打开方式记 ...
将Ubuntu主文件夹里的中文文件夹名称改成英文
方法一: 首先修改现有主文件夹下各文件夹名称: Desktop. Documents. Download. Music. Pictures. Public. Templates. Videos …… ...
eclipse 编码改成utf-8
Eclipse的编码格式是系统默认修改为utf-8,点击Apply and Close 然后项目的编码格式会统一默认utf-8 当然也可以选择other,改成GBK.
C#读取csv文件使用字符串拼接成XML
phone.csv zhangsan1, zhangsan2, zhangsan3, static void Main(string[] args) { //XML //XML就是一个文件,用来存储数 ...
UG如何把语言改成中文，UG如何把界面语言改成中文
1 高级系统设置,高级,新建一个用户变量(变量名为lang,变量值为chs) 2 高级系统设置,高级,环境变量,系统变量中,查看变量名为UGII_LANG的值是否为simpl_chinese,如果 ...
【SQL Server数据迁移】把csv文件中的数据导入SQL Server的方法
[sql] view plaincopy --1.修改系统参数 --修改高级参数 sp_configure 'show advanced options',1 go --允许即席分布式查询 sp_co ...
mysql导入导出数据中文乱码解决方法小结(1、navicat导入问题已解决，创建连接后修改连接属性，选择高级->将使用Mysql字符集复选框去掉，下拉框选择GBK->导入sql文件OK;2、phpmyadmin显示乱码的问题也解决，两步：1.将sql文件以utf8的字符集编码另存，2.将文件中sql语句中的字段字符集编码改成utf8,导入OK)
当向 MySQL 数据库插入一条带有中文的数据形如 insert into employee values(null,'张三','female','1995-10-08','2015-11-12',' ...
将eclipse的编码改成UTF-8，默认是GBK
第一步.在菜单栏选择“window“----preference----General-----Workspace 选中Workspace 在右边窗口中找到Text file encoding ...
将 sql 数据库编码改成 Chinese_PRC_CS_AS
use master go ) drop procedure [dbo].[p_killspid] GO create proc p_killspid ) --要关闭进程的数据库名 as ) ) de ...

随机推荐

andorid jar/库源码解析之okhttp3
目录:andorid jar/库源码解析 Okhttp3: 作用: 用于网络编程(http,https)的快速开发. 栗子: // okHttpClient定义成全局静态,或者单例,不然重复new可能 ...
Jmeter的简单使用
前言对于jmeter的使用有很多内容,本章节只是简单介绍jmeter的两个方面的内容:一个是使用jmeter模拟postman发送http请求,一个是使用jmete进行压力测试. 更多的内容请参考官 ...
L - A Heap of Heaps CodeForces - 538F 主席树
L - A Heap of Heaps CodeForces - 538F 这个是一个还比较裸的静态主席树. 这个题目的意思是把这个数组变成k叉树,然后问构成的树的子树小于等于它的父节点的对数有多少. ...
2249: Altruistic Amphibians 01背包的应用 + lh的简单图论图转树求lca
第一个写了两个比较简单的数论题目,就是整除理论的两个题目,第一个题目比较蠢,第二个稍微要动一点脑筋 Codeforces Round #347 (Div. 2) – A. Complicated G ...
Java 8 CompletableFuture思考
Java 8 CompletableFuture思考最近一直在用响应式编程写Java代码,用的框架大概上有WebFlux(Spring).R2dbc.Akka...一些响应式的框架. 全都是Java ...
vue 如何实现 Input 输入框模糊查询方法
原理:原生js的indexOf() 方法,该方法将从头到尾地检索数组,看它是否含有对应的元素.开始检索的位置在数组 start 处或数组的开头(没有指定 start 参数时).如果找到一个 item, ...
calc less 下不起作用
在 less中不能使用css3 calc属性不能 css3 新增长度计算属性可以根据不同单位计算宽度 .test{ width: calc(100% - 150px); } 但是当我们在less中使 ...
spring boot构建restful服务
使用spring boot快速构建出restful服务 JPA实现REST 创建spring boot项目,在项目文件pom.xml中添加以下依赖: <dependency> <gr ...
wangeditor在移动端的web应用
废话不多说,直接上代码前端(前端多说一句,在初始使用阶段,不知道是怎么回事,复制在看云上的文档的配置参数时,一直有错误,后台获取不到$_file,整整一上午,下午上网搜了一下别人的上传图片代码才好用 ...
shiro 实现自定义权限规则校验
<span style="font-family: Arial, Helvetica, sans-serif;">在系统中使用shiro进行权限管理,当用户访问没有权限 ...

中文的csv文件的编码改成utf-8的方法

中文的csv文件的编码改成utf-8的方法的更多相关文章

随机推荐

热门专题