使用Python拆分数据量大的CSV文件（亲测有效）

转载：https://www.cnblogs.com/FYZHANG/p/11629075.html

一次就运行成功了，感谢博主分享

#!/usr/bin/env python3

# -*- coding:utf-8 -*-

# @FileName :Test.py

# @Software PyCharm

import os

import pandas as pd

# filename为文件路径，file_num为拆分后的文件行数

# 根据是否有表头执行不同程序，默认有表头的

def Data_split(filename,file_num,header=True):

    if header:

        # 设置每个文件需要有的行数,初始化为1000W

        chunksize=10000

        data1=pd.read_table(filename,chunksize=chunksize,sep=',',encoding='gbk')

        # print(data1)

        # num表示总行数

        num=0

        for chunk in data1:

            num+=len(chunk)

        # print(num)

        # chunksize表示每个文件需要分配到的行数

        chunksize=round(num/file_num+1)

        # print(chunksize)

        # 分离文件名与扩展名os.path.split(filename)

        head,tail=os.path.split(filename)

        data2=pd.read_table(filename,chunksize=chunksize,sep=',',encoding='gbk')

        i=0

        for chunk in data2:

            chunk.to_csv('{0}_{1}{2}'.format(head,i,tail),header=None,index=False)

            print('保存第{0}个数据'.format(i))

            i+=1

    else:

        # 获得每个文件需要的行数

        chunksize=10000

        data1=pd.read_table(filename,chunksize=chunksize,header=None,sep=',')

        num=0

        for chunk in data1:

            num+=len(chunk)

            chunksize=round(num/file_num+1)

            head,tail=os.path.split(filename)

            data2=pd.read_table(filename,chunksize=chunksize,header=None,sep=',')

            i=0

            for chunk in data2:

                chunk.to_csv('{0}_{1}{2}'.format(head,i,tail),header=None,index=False)

                print('保存第{0}个数据'.format(i))

                i+=1

filename='文件路径'

#num为拆分为的文件个数

Data_split(filename,num,header=True)

可能因为版本的原因，运行时会提示 read_csv，

最后一行代码，filename处填上你自己想要拆分的文件地址，num填想要拆分成多少个文件

使用Python拆分数据量大的CSV文件（亲测有效）的更多相关文章

用Python对体积较大的CSV文件进行比较的经验
用Python对体积较大的CSV文件进行比较的经验 » 进化的测试 | 进化的测试用Python对体积较大的CSV文件进行比较的经验 python Add comments 八 032010 ...
使用POI导出EXCEL工具类并解决导出数据量大的问题
POI导出工具类工作中常常会遇到一些图表需要导出的功能,在这里自己写了一个工具类方便以后使用(使用POI实现). 项目依赖 <dependency> <groupId>org ...
关于dedecms数据量大以后生成目录缓慢的问题解决
四月份的时候博客被封.我不知情.因为一直很忙,没有来得及看.前两天来看以后,发现居然被封,吓傻了我. 赶紧找原因,原来是转载了某个人的博文,被他举报了,然后就被封了. 觉得很伤心,毕竟这个博客陪伴了我 ...
分布式系统中我们会对一些数据量大的业务进行分拆，分布式系统中唯一主键ID的生成问题
分布式全局唯一ID生成策略 https://www.cnblogs.com/vandusty/p/11462585.html 一.背景分布式系统中我们会对一些数据量大的业务进行分拆,如:用户表,订 ...
Thinkphp解决phpExcel导出数据量大导致内存溢出
工作需要导出几万的数据量.操作比较频繁.之前数据在七八千是数据导出很慢.phpExcel是方便但是性能一般.现在改为使用csv导出数据:可以缓解内存压力,一次导出两三万是没问题的.当然服务器内存给力, ...
DataTable 数据量大时，导致内存溢出的解决方案
/// <summary> /// 分解数据表 /// </summary> /// <param name="originalTab">需要分 ...
python之小应用：读取csv文件并处理01数据串
目的:读取csv文件内容,把0和1的数据串取出来,统计出现1的连续次数和各次数出现的频率次数先读取csv文件内容: import csv def csv_read(file): list = [] ...
Python开发【模块】：CSV文件数据可视化
CSV模块 1.CSV文件格式要在文本文件中存储数据,最简单的方式是讲数据作为一系列逗号分隔的值(CSV)写入文件,这样的文件成为CSV文件,如下: AKDT,Max TemperatureF,Me ...
[大数据技术]Kettle从CSV文件读取清洗后到MySQL中文乱码问题
首先要知道CSV文件的编码格式然后在文件输入编码选择编码格式, 第二步,在每个转换或者作业的DB连接中选择选项,并添加如下内容: 中文乱码问题得到解决

随机推荐

Gson的序列化和反序列化-待更新
反序列化为List List<Person> persons =gson.fromJson(json, new TypeToken<List<Person>>() ...
运用tensorflow写的第一个神经网络
因为实训课要用LSTM+attention机制在钢材领域做一个关系抽取.作为仅仅只学过一点深度学习网络的小白在b站上学习了RNN,LSTM的一些理论知识. 但只懂得一些理论知识是无法完成关系抽取的任务 ...
洛谷 P5686 [CSP-SJX2019]和积和
传送门思路应用多个前缀和推出式子即可 \(30pts\): 首先如果暴力算的话很简单,直接套三层循环就好了(真的是三层!!最后两个\(sigma\)一起算就好了) \[\sum_{l = 1}^{ ...
Codeforces Round #602 (Div. 2, based on Technocup 2020 Elimination Round 3) E. Arson In Berland Forest 二分前缀和
E. Arson In Berland Forest The Berland Forest can be represented as an infinite cell plane. Every ce ...
CF1263F Economic Difficulties（DP）
拿小号打了这场,然而做到这里时少看了条件,最后 10min 才发现,没有 AK,身败名裂-- 赛后看就是 sb 题-- (好像这题也不值 2500 吧?) 首先注意到一条很重要的条件:对于每棵树,都存 ...
Protractor - 怎样运行
前一篇设置好了Protractor基本运行环境,那怎样运行Protractor呢? 要运行我们的测试脚本,至少需要配置好两个文件: ---Package.json ---conf.js Package ...
如何将Javaweb工程的访问协议由http改为https及通过域名访问?
将javaweb工程的http访问协议更改为https,需要做一下几部操作: 通过jre生成证书调整tomcat的配置调整工程的web.xm配置具体详细过程如下: 一.生成证书打开cmd切换到 ...
2019_JAVA面试题_真实总结
来自刚被某互联网公司录取的朋友的分享. 整理的面试题1: 1.Java里面有哪几种基础数据类型, 2.Char为何是两个字节, 3.Object有哪些方法 4.final修饰变量,函数,类的作用, 5 ...
一文告诉你，Kafka在性能优化方面做了哪些举措！
很多粉丝私信问我Kafka在性能优化方面做了哪些举措,对于相关问题的答案其实我早就写过了,就是没有系统的整理一篇,最近思考着花点时间来整理一下,下次再有粉丝问我相关的问题我就可以潇洒的甩个链接了.这个 ...
RabbitMQ的安装与使用（Centos7，linux版本）
1.主流的消息中间件简单介绍哦. 1).ActiveMQ是Apache出品,最流行的,能力强劲的开源消息总线,并且它一个完全支持jms(java message service)规范的消息中间件.其丰 ...

使用Python拆分数据量大的CSV文件（亲测有效）

使用Python拆分数据量大的CSV文件（亲测有效）的更多相关文章

随机推荐

热门专题