Python 批量合并csv文件

一、批量合并csv文件《方法1》

import pandas as pd

import glob

import os

# 获取所有CSV文件的路径

file_paths = glob.glob("C:\\Users\\Admin\\Desktop\\数据核对\\*.csv")

# 使用glob.glob函数获取指定目录下所有以.csv为扩展名的文件路径，并将结果存储在file_paths列表中

print(file_paths)  # 打印出这些文件路径供你检查

# 创建一个空的 DataFrame

df = pd.DataFrame()

# 创建一个空的DataFrame，用于存储合并后的数据

# 逐个读取每个CSV文件，并将其添加到DataFrame中

for file_path in file_paths:

    # 读取CSV文件并添加文件名为一列

    temp_df = pd.read_csv(file_path, encoding='gbk')

    # 使用pd.read_csv函数读取CSV文件，encoding参数指定了文件的编码格式，这里使用GBK编码

    file_name = os.path.basename(file_path)

    print(file_name)

    # 使用os.path.basename函数获取文件名（包含扩展名）

    temp_df['file_name'] = file_name

    # 将文件名作为新的一列添加到temp_df中

    df = df.append(temp_df, ignore_index=True)

    # 使用df.append函数将temp_df合并到主DataFrame df中，ignore_index=True表示重新设置行索引

# 将DataFrame写入新的CSV文件中

df.to_csv("C:\\Users\\Admin\\Desktop\\合并数据.csv", index=False)

# 使用df.to_csv函数将合并后的数据保存为新的CSV文件，index=False表示不保存行索引

二、批量合并csv文件多文件编码格式《方法2》

import pandas as pd

import glob

import os

# 使用glob.glob函数获取指定目录下所有以.csv为扩展名的文件路径，并将结果存储在file_paths列表中

file_paths = glob.glob("C:\\Users\\Admin\\Desktop\\数据核对\\*.csv")

# 创建一个空的DataFrame，用于存储合并后的数据

df = pd.DataFrame()

# 循环遍历每个CSV文件，并将其添加到DataFrame中

for file_path in file_paths:

    # 尝试使用不同的编码格式读取CSV文件，直到成功为止

    for encoding in ['utf-8', 'gbk', 'gb2312', 'utf-16', 'iso-8859-1']:

        try:

            # 使用pd.read_csv函数读取CSV文件，encoding参数指定了文件的编码格式

            temp_df = pd.read_csv(file_path, encoding=encoding)

            break  # 如果成功读取，则跳出循环

        except UnicodeDecodeError:  # 如果出现编码错误，则捕获该错误，并继续尝试下一个编码格式

            continue

    else:  # 如果没有任何编码格式成功读取CSV文件，则打印一条错误消息，并继续处理下一个文件

        print(f"无法读取CSV文件：{file_path}")

        continue

    # 使用os.path.basename函数获取文件名（包含扩展名）

    file_name = os.path.basename(file_path)

    # 将文件名作为新的一列添加到DataFrame中

    temp_df['file_name'] = file_name

    # 使用df.append函数将temp_df合并到主DataFrame df中，ignore_index=True表示重新设置行索引

    df = df.append(temp_df, ignore_index=True)

# 使用df.to_csv函数将合并后的数据保存为新的CSV文件，index=False表示不保存行索引

df.to_csv("C:\\Users\\Admin\\Desktop\\合并数据.csv", index=False)

三、批量合并csv文件《方法3》

import os

import pandas as pd

# 指定包含CSV文件的文件夹路径

folder_path = "C:\\Users\\Admin\\Desktop\\数据核对"

# 获取文件夹中的所有CSV文件

csv_files = [file for file in os.listdir(folder_path) if file.endswith('.csv')]

print(csv_files)  # 打印出找到的CSV文件列表

# 创建一个空的DataFrame来存储合并后的数据

merged_data = pd.DataFrame()

# 遍历所有CSV文件并合并它们

for file in csv_files:

    file_path = os.path.join(folder_path, file)

    # 读取CSV文件，使用GBK编码（GBK是一种常见的中文字符编码）

    df = pd.read_csv(file_path, encoding='GBK')

    # 添加一个新的列，用于标识数据来自哪个CSV文件

    df['SourceFile'] = file

    # 合并数据，将当前CSV文件的数据追加到已合并的数据中

    merged_data = merged_data.append(df, ignore_index=True)

# 将合并后的数据保存为一个新的CSV文件，指定index=False以避免保存索引列

merged_data.to_csv("C:\\Users\\Admin\\Desktop\\合并数据.csv", index=False)

# 打印完成消息

print('CSV文件合并完成并保存为合并数据.csv')

四、合并多种不同编码格式的csv文件

import os

import pandas as pd

import chardet

def merge_csv_files(folder_path,output_path):

    # 获取文件夹中的所有CSV文件

    csv_files = [file for file in os.listdir(folder_path) if file.endswith('.csv')]

    print(csv_files)

    # 创建一个空的DataFrame来存储合并后的数据

    merged_data = pd.DataFrame()

    # 遍历所有CSV文件并合并它们

    for file in csv_files:

        file_path = os.path.join(folder_path, file)

        # 使用 chardet.detect 函数检测文件编码格式

        with open(file_path, 'rb') as f:

            result = chardet.detect(f.read())

        encoding = result['encoding']

        # 读取CSV文件，指定检测到的编码格式

        df = pd.read_csv(file_path, encoding=encoding)

        if "YYFX_OrderList" in file_path:

            df.insert(12, 'NewColumnName', df.iloc[:, 11])

        # 添加一个新的列，用于标识数据来自哪个CSV文件

        df['SourceFile'] = file

        # 合并数据，将当前CSV文件的数据追加到已合并的数据中

        merged_data = merged_data.append(df, ignore_index=True)

    # 将合并后的数据保存为一个新的CSV文件，指定index=False以避免保存索引列

    merged_data.to_csv(output_path, index=False)

    print("已将所有CSV文件合并为一个文件：合并数据.csv")

folder_path = "C:\\Users\\Admin\\Desktop\\数据核对"

output_path = "C:\\Users\\Admin\\Desktop\\数据核对\\数据汇总.csv"

merge_csv_files(folder_path,output_path)

Python 批量合并csv文件的更多相关文章

使用Python批量合并PDF文件(带书签功能)
网上找了几个合并pdf的软件,发现不是很好用,一般都没有添加书签的功能. 又去找了下python合并pdf的脚本,发现也没有添加书签的功能的. 于是自己动手编写了一个小工具,使用了PyPDF2. 下面 ...
Python批量处理CSV文件
#encoding: utf-8 __author__ = 'DELL' import csv import glob import datetime import sys import os rel ...
Python批量合并处理B站视频
最近想学习后端,又不想花钱,怎么办呢?于是在手机端B站(哔哩哔哩)上面找到了满意的免费视频教程,但是手机端看起来很不方便啊.于是,我通过在手机端缓存下来后,导入到了电脑端,但是我后面了发现两个问题: ...
python在处理CSV文件时，字符串和列表写入的区别
概述 Python在处理CSV文件时,如果writerow的对象是<type 'unicode'>字符串时,写入到CSV文件时将会出现一个字符占一个单元格的情况: 但是将字符串转换为列表类 ...
使用ffmpeg批量合并flv文件
title: 使用ffmpeg批量合并flv文件 toc: false date: 2018-10-14 16:08:19 categories: methods tags: ffmpeg flv 使 ...
python批量处理压缩文件
python批量处理压缩文件博客小序:在数据的处理中,下载的数据很有可能是许多个压缩文件,自己一个一个解压较为麻烦,最近几日自己在处理一次下载的数据时,遇到大量的压缩数据需要处理,于是利用pytho ...
python批量运行py文件
import os path="E:\\python" #批量的py文件路径 for root,dirs,files in os.walk(path): #进入文件夹目录 for ...
python中操作csv文件
python中操作csv文件读取csv improt csv f = csv.reader(open("文件路径","r")) for i in f: pri ...
Python：使用pymssql批量插入csv文件到数据库测试
并行进程怎么使用? import os import sys import time def processFunc(i): time.sleep(10-i) print i if __name__= ...
python脚本-excel批量转换为csv文件
pandas和SQL数据分析实战视频教程 https://study.163.com/course/courseMain.htm?courseId=1006383008&share=2& ...

随机推荐

选课洛谷P2014
传送门 \(\Large \textbf{问题描述}\) 大学里实行学分.每门课程都有一定的学分,学生只要选修了这门课并考核通过就能获得相应的学分.学生最后的学分是他选修的各门课的学分的总和. 每个学 ...
【学习笔记】 - 基础数据结构：Link-Cut Tree
发现树剖代码太长了,给我恶心坏了学个代码短点的能写树剖题的数据结构吧前置知识平衡树splay 树链剖分简介以及优缺点介绍 Link-Cut Tree,也就是LCT,一般用于解决动态树问题 Li ...
本地启动RocketMQ未映射主机名产生的超时问题
问题描述参考RocketMQ官方文档在本地启动一个验证环境的时候遇到超时报错问题. 本地环境OS:CentOS Linux release 8.5.2111 首先,进入到RocketMQ安装目录,如 ...
如何避免Git合并远程分支时出现可读性差的日志
问题及现象当某一分支(假设为main)的本地仓库和远程仓库都基于同一个提交进行了修改,并分别创建了新的提交时,在本地执行git push origin main会提示先要执行git pull合并远程 ...
node版本管理工具nvm的安装及使用
一.什么是nvm nvm是一个node版本管理工具. 由于不同项目依赖的node版本可能不同,所以在维护多个项目时通常需要使用不同的node版本,这时候用nvm来切换不同的node版本就很方便. 官方 ...
go词法作用域陷进
问题 // 创建一些目录,再将目录删除 // 错误写法 var rmdirs []func() for _, dir := range tempDirs() { os.MkdirAll(dir, 07 ...
virtualenvwrapper管理虚拟环境
安装 pip install virtualenvwrapper-win 基本使用 1.创建虚拟环境 mkvirtualenv my_env 使用这个命令,就会在你c盘的当前用户下创建一个Env的文件 ...
如何在矩池云上安装语音识别模型 Whisper
如何在矩池云上安装语音识别模型 Whisper Whisper 是 OpenAI 近期开源的一个语音识别的模型,研究人员基于 680,000 小时的标记音频数据进行训练,它同时也是一个多任务模型,可以 ...
React时间转换为具体的年月日上午下午
export default class index extends Component { constructor() { super(); this.state = { date: new Dat ...
npm模块全局安装后无法使用解决方案
好家伙 npm模块全局安装后无法使用估计是少配了环境变量 1.使用命令: npm config get prefix 找到全局包的安装位置 2.随后我们右键"我的电脑"打 ...

Python 批量合并csv文件

一、批量合并csv文件《方法1》

二、批量合并csv文件 多文件编码格式《方法2》

三、批量合并csv文件《方法3》

四、合并多种不同编码格式的csv文件

Python 批量合并csv文件的更多相关文章

随机推荐

热门专题

二、批量合并csv文件多文件编码格式《方法2》