使用 Pandas 的 to_excel() 方法来将多个 csv 文件合并到一个 xlsx 的不同 sheets 内

这几天在用 Python3 研究一个爬虫，最后一个需求是把爬下来的20+个csv文件整合到一个excel表里的不同sheets。

初版的核心代码如下：

 while year <= 2018:

     csvPath = sys.path[0] + '/result/%d.csv' % year

     excelPath = sys.path[0] + '/result.xlsx'

     csvReader = pandas.read_csv(csvPath, encoding='utf_8_sig')

     excelWriter = pandas.ExcelWriter(excelPath)

     print("正在将 %d 年的 %d 条数据转换为 xlsx..." % (year, countThis))

     csvReader.to_excel(excelWriter, sheet_name=str(year))

     year = year + 1

奇怪的是使用这个方法，每次to_excel之后，result.xlsx中都只会存储一年的数据，只会存在一个sheet，之前的所有数据都会被覆盖。

通过查询官方文档（pandas.DataFrame.to_excel）和一个github上跨越了5年的issue（Allow ExcelWriter() to add sheets to existing workbook）得知pandas库的ExcelWriter缺失了一个mode='a'的append模式，所以在这种情况下每次to_excel()都会直接新建一个文件写入而无视之前的数据。

解决方案是使用openpyxl engine来打开ExcelWriter，用openpyxl的load_workbook方法将之前已经存在的数据加载进ExcelWriter.book里。修改后的核心代码如下：

 # 依赖 openpyxl 库

 from openpyxl import load_workbook

 while year <= 2018:

     csvPath = sys.path[0] + '/result/%d.csv' % year

     excelPath = sys.path[0] + '/result.xlsx'

     csvReader = pandas.read_csv(csvPath, encoding='utf_8_sig')

     # 增加 engine='openpyxl' 一栏

     excelWriter = pandas.ExcelWriter(excelPath, engine='openpyxl'）

     # 使用 openpyxl 来把现有数据传递给excelWriter，使其在写入的时候保留原本数据

     book = load_workbook(excelPath)

     excelWriter.book = book

     print("正在将 %d 年的 %d 条数据转换为 xlsx..." % (year, countThis))

     csvReader.to_excel(excelWriter, sheet_name=str(year))

     excelWriter.save()

如此存储的excel文件里就会有多个sheets了，每个sheets里都存储着一个csv里的全部数据。

需要注意的是这样做的效率非常低，因为这并不是真正的追加模式，而是在每一次创建ExcelWriter对象之后，先将现有的数据全部传入ExcelWriter，再将新的数据连同旧的数据一同写入一个新的文件并覆盖。这就导致程序作了许多重复而无用的工作，所以我在处理这个任务的时候。最后的几个10+m的csv文件的平均耗时都在300s以上，如果还有后续任务的话，这个数字会一直增长下去。得到一个80m的xlsx总表耗费了接近一个小时的时间，这对于一些更大的任务来说是难以接受的。所以如果你需要处理的任务比较巨大，你可以脱离pandas库而使用xlrd和xlwt里的方法，会使运行效率优雅不少。（也许直接使用excel的vba宏也是个不错的选择？）

来源：https://billc.io/2019/04/pandas-append-excel/

使用 Pandas 的 to_excel() 方法来将多个 csv 文件合并到一个 xlsx 的不同 sheets 内的更多相关文章

php中读取文件内容的几种方法。（file_get_contents：将文件内容读入一个字符串）
php中读取文件内容的几种方法.(file_get_contents:将文件内容读入一个字符串) 一.总结 php中读取文件内容的几种方法(file_get_contents:将文件内容读入一个字符串 ...
怎样把网站js文件合并成一个?几种方法可以实现
我们在建网站时经常会用js特效代码以使页面更美观,比如js幻灯片代码.js下拉菜单等,但是网页特效一多,如果js文件没有合并的话会降低网站的性能,这时我们就要考虑合并js文件了,ytkah总结了以下几 ...
python 通过使用pandas的实现的Excel的批量转换CSV文件的处理
---恢复内容开始--- 最近同事在处理文件导入的时候需要把一批文件换成CSV的格式,但是直觉修改后缀是不生效的,而且xlsx和xls的文件没法直接换成CVS的文件,所以找了一下方式,并且自己实现了p ...
Python openpyxl、pandas操作Excel方法简介与具体实例
本篇重点讲解windows系统下 Python3.5中第三方excel操作库-openpyxl: 其实Python第三方库有很多可以操作Excel,如:xlrd,xlwt,xlwings甚至注明的数据 ...
Pandas：to_excel时如何不覆盖之前的Excel表、ExcelWriter类
如果只是想把一个DataFrame保存为单独的一个Excel文件,那么直接写: data.to_excel('xxx.excel','sheet1',index=False) 但是这样做,只会保存为单 ...
pandas的Categorical方法
对于数据样本的标签,如果我们事先不知道这个样本有多少类别,那么可以对数据集的类别列进行统计,这时我们用pandas的Categorical方法就非常快的实现. 1.说明: 你的数据最好是一个serie ...
详解pandas的read_csv方法
楔子使用pandas做数据处理的第一步就是读取数据,数据源可以来自于各种地方,csv文件便是其中之一.而读取csv文件,pandas也提供了非常强力的支持,参数有四五十个.这些参数中,有的很容易被忽 ...
Pandas 基础(4) - 读/写 Excel 和 CSV 文件
这一节将分别介绍读/写 Excel 和 CSV 文件的各种方式: - 读入 CSV 文件首先是准备一个 csv 文件, 这里我用的是 stock_data.csv, 文件我已上传, 大家可以直接下载 ...
pandas处理excel文件和csv文件
一.csv文件 csv以纯文本形式存储表格数据 pd.read_csv('文件名'),可添加参数engine='python',encoding='gbk' 一般来说,windows系统的默认编码为g ...

随机推荐

considerate|considerable|content|Contact|Consult|deceived|
ADJ-GRADED 替人着想的;体贴的Someone who is considerate pays attention to the needs, wishes, or feelings of o ...
Java IO: 网络
原文链接作者: Jakob Jenkov 译者: 李璟(jlee381344197@gmail.com) 校对:方腾飞 Java中网络的内容或多或少的超出了Java IO的范畴.关于Java网络更多 ...
piranha(注意iptables和selinux的问题)
piranha是红帽官方提供的一套工具,安装和配置都非常简单,可以快速部署. piranha方案原理结构描述: piranha方案是基于lvs基础上设计的一套负载均衡高可用解决方案 LVS运行在一对有 ...
使用JavaServer Faces技术的Web模块：hello1 example
该hello1应用程序是一个Web模块,它使用JavaServer Faces技术来显示问候语和响应.您可以使用文本编辑器查看应用程序文件,也可以使用NetBeans IDE. 此应用程序的源代码位于 ...
SWUST OJ Delete Numbers(0700)
Delete Numbers(0700) Time limit(ms): 1000 Memory limit(kb): 65535 Submission: 1731 Accepted: 373 D ...
python socketserver 实现 ftp功能
需求: 用户加密认证允许同时多用户登录每个用户有自己的家目录 ,且只能访问自己的家目录对用户进行磁盘配额,每个用户的可用空间不同允许用户在ftp server上随意切换目录允许用户查看当前目 ...
Day learn,day up
前言忽略我这个中文式英语的标题. 身为一个记性不咋地的前端渣渣,觉得平时看的一些文章太散了,特开此文作为一种记录,可谓好记性不如烂笔头,也算是逼自己要经常学习.文章的日期为最后更新时间,题目顺序不分 ...
神经网络的Python实现（一）了解神经网络
网络上深度学习相关博客教程质量参差不齐,很多细节很少有文章提到,所以本着夯实深度学习基础的想法写下此系列博文. 本文会从神经网络的概述.不同框架的公式推导和对应的基于numpy的Python代码实现等 ...
先搞清楚这些问题，简历上再写你熟悉Java！
原创声明本文作者:黄小斜转载请务必在文章开头注明出处和作者. 系列文章介绍本文是<五分钟学Java>系列文章的一篇本系列文章主要围绕Java程序员必须掌握的核心技能,结合我个人三年 ...
7-6 jmu_python_最大公约数&最小公倍数 (10 分)
本题要求从键盘输入两个整数(以逗号间隔),编程求出这两个数的最大公约数和最小公倍数提示:求最大公约数可用辗转相除法,最小公倍数用两数的积除以最大公约数输入格式: 在一行中输入两个整数,以逗号间隔 ...

使用 Pandas 的 to_excel() 方法来将多个 csv 文件合并到一个 xlsx 的不同 sheets 内

使用 Pandas 的 to_excel() 方法来将多个 csv 文件合并到一个 xlsx 的不同 sheets 内的更多相关文章

随机推荐

热门专题