#Python 利用pandas 合并csv/xlsx文件

上次我们分享了利用powerquery来合并文件进行数据分析，但是Pq有一部分局限性，在现实工作中，我们往往需要合并多个文件去处理数据，

如果面对20个甚至更多的文件，pq中的每一步的步骤都会去读取每个文件，运行速度会十分慢，那么有没有简单的解决方法吗？

答案是：可以考虑合并成一个文件后来处理。

我们用py来合并文件后，输出一个大的csv表，然后利用Py或者pq进行处理，这样就可以大量节省时间，提高效率，今天我们就分享，py合并文件板块。

第一步：导入pandas，和os库

 import pandas as pd

 import os

第二步：设置路径

路径 = r'C:\Users\Administrator\Desktop\test/'#合并文件所在的文件路径，最后一个反斜杠不能被转义所以必须反斜杠，下次更换合并地址的话，直接更改就好，同样需要注意最后的反斜杠号

目的路径=r'C:/Users/Administrator/Desktop/合并230115.csv'#存放地址

第三步：合并文件，这里先用for循环配合os.listdir获取了指定文件夹的全部文件路径，然后用concat合并了文件

路径 = r'C:\Users\Administrator\Desktop\test/'

合并表 = pd.DataFrame()

for 文件名 in os.listdir(路径):

    表格 = pd.read_csv(路径+文件名,encoding='gbk')

    合并表 = pd.concat([合并表,表格])

print(合并表)

第四步：将合并好的文件输出到指定路径

合并表.to_csv(目的路径)

来到这里，就完成了全部操作，本文的变量是中文变量，不影响使用，目的是便于新手（博主也是新手）学习，能更快的用到工作中。

我是simone，期待下次的分享。（下次会分享pandas中的透视表功能，可以配合今天的文章，来处理合并文件，直接输出有些数据分析的结果）

#Python 利用pandas 合并csv/xlsx文件的更多相关文章

用Python的pandas框架操作Excel文件中的数据教程
用Python的pandas框架操作Excel文件中的数据教程本文的目的,是向您展示如何使用pandas 来执行一些常见的Excel任务.有些例子比较琐碎,但我觉得展示这些简单的东西与那些你可以在其 ...
Python利用pandas处理Excel数据的应用
Python利用pandas处理Excel数据的应用最近迷上了高效处理数据的pandas,其实这个是用来做数据分析的,如果你是做大数据分析和测试的,那么这个是非常的有用的!!但是其实我们平时在做 ...
python3 库pandas写入csv格式文件出现中文乱码问题解决方法
python3 库pandas写入csv格式文件出现中文乱码问题解决方法解决方案: 问题是使用pandas的DataFrame的to_csv方法实现csv文件输出,但是遇到中文乱码问题,已验证的正确 ...
pandas玩转excel-> (2)如何利用pandas读取excel数据文件
import pandas as pd #将excel文件读到内存中,形成dataframe,并命名为peoplepeople=pd.read_excel('D:/python结果/task2/Peo ...
Python之Pandas操作csv文件dataframe
# -*- coding: utf-8 -*- # author:baoshan import pandas as pd def main(): aqi_data = pd.read_csv('chi ...
利用pandas生成csv文件
# -*- coding:UTF-8 -*- import json from collections import OrderedDict with open('dns_status.json',' ...
python用pandas遍历csv文件
import pandas as pd df = pd.read_csv('a.csv') for index, row in df.iterrows(): x, y = row['X'], row[ ...
pandas dataframe 读取 xlsx 文件
refer to: https://medium.com/@kasiarachuta/reading-and-writingexcel-files-in-python-pandas-8f0da449c ...
pandas玩转excel-> (1)如何利用pandas创建excel数据文件
#在Anaconda3 的Spyder中 #定义pandas模块为pd import pandas as pd #创建一个新的DataFrame对象,定义这个对象中有两个字段:ID和Name, ...
Pandas——读取csv,txt文件
""" 读取csv文件该文本中的分割符既有空格又有制表符(‘/t’),sep参数用‘/s+’,可以匹配任何空格. """ import p ...

随机推荐

为什么对1e9 + 7取模
在刷题的时候,很多题目答案都要求结果对1e9 + 7取模刚开始我非常不理解,为什么要取模,取模难道结果不会变吗? 答案是结果会变,但因为原本需要得出的答案可能超出int64的范围,比如他叫你计算50 ...
loadrunner写webservice接口
先用soupUI调试 fiddler抓包然后再写: web_custom_request("createSoapOrder", "URL=http:/ ...
DB2生成UUID， CONCAT (HEX (RAND ()), HEX (RAND ())) 排坑
DB2中没有提供生成UUID的方法,一般我们常用的是CONCAT (HEX (RAND ()), HEX (RAND ())) 来生成UUID,但是大量生成的时候会产生重复数据,导致我们的唯一索引报错 ...
flask动态csv接口——编码问题
@xxx_blueprint.route("/file", methods=["GET"]) def group_trend(): def generate() ...
binder机制分析
1. binder基本概念 1.1 特点 1)binder 是一种基于C/S通信模式的IPC(Inter_Process Communication). 2)在传输过程中近需要一次copy,为发送添加 ...
JDK8：Lambda表达式操作List集合
JDK8的流对list的处理提供了很大的方便,特别是做报表的时候才能真正体现出来这个功能的强大:结合日常使用过程,有两个体会:一个是减少了数据库连接,最忌讳在循环中进行数据查询,特别是嵌套多层循环的时 ...
AttributeError: module 'torchvision' has no attribute 'transforms'
代码:maskrcnn-benchmark Python 3.6.13 |Anaconda, Inc Traceback (most recent call last): File "too ...
K8S 性能优化 - OS sysctl 调优
前言 K8S 性能优化系列文章,本文为第一篇:OS sysctl 性能优化参数最佳实践. 参数一览 sysctl 调优参数一览 # Kubernetes Settings vm.max_map_cou ...
小心golang中的无类型常量
对于无类型常量,可能大家是第一次听说,但这篇我就不放进拾遗系列里了. 因为虽然名字很陌生,但我们每天都在用,每天都有无数潜在的坑被埋下.包括我本人也犯过同样的错误,当时代码已经合并并发布了,当我意识到 ...
什么是Redis持久化，如何理解？
其实redis就是一种高级的以键值对形式存储数据的数据库,而它的好处就是他可以支持数据的持久化,其实redis之所以会有这样的优点,主要是因为,redis的数据都是存放在内存中的,如果不配置持久化,那 ...