pandas处理csv，分组统计

需求： /tmp/demo/data下有10个csv文件，按col0和col1分组分别统计col2和col3总和并计算col2和col3的商

# encoding:utf-8

import pandas

import os

data_root = '/tmp/demo/data/'

all_csv =  '/tmp/demo/all.csv'

result_csv = '/tmp/demo/result.csv'


#-----------------------------------------------

# 将所有的文件合并到一个总和文件all_csv中

# 如果已经存在总和文件则删除总和文件防止历史干扰

if os.path.exists(all_csv):

    os.remove(all_csv)

# 获取所有的csv文件

data_list = [data_root+_ for _ in os.listdir(data_root)]

# 把第一个文件写到汇总文件，并包含表头

all_head = pandas.read_csv(data_list[0])

all_head.to_csv(all_csv,encoding="utf_8_sig",index=False)

# 把剩余的文件合并到汇总文件，不包含表头

for i in range(1, len(data_list)):

    all_i = pandas.read_csv(data_list[i])

    all_i.to_csv(all_csv,encoding="utf_8_sig",index=False, header=False, mode='a+')

# 读取汇总文件

all_all = pandas.read_csv(all_csv, encoding="utf-8")

# 按"col0","col1"列分组统计col2 col3的总和

res = all_all.groupby(["col0","col1"]).agg({"col2":sum, "col3":sum}).reset_index()

# 添加一列col4(col2/col3)

res.insert(3,"col4",res["col2"]/res["col3"])

print(res)

# 把结果写进结果文件

res.to_csv(result_csv, encoding="utf_8_sig",index=False)

pandas处理csv，分组统计的更多相关文章

04. Pandas 3| 数值计算与统计、合并连接去重分组透视表文件读取
1.数值计算和统计基础常用数学.统计方法数值计算和统计基础基本参数:axis.skipna df.mean(axis=1,skipna=False) -->> axis=1是按行来 ...
pandas应用之分组因子暴露和分位数分析
pandas应用之分组因子暴露和分位数分析首先感谢原书作者Mes McKinney和batteryhp网友的博文, 俺在此基础上继续探索python的神奇功能. 用A股的实际数据, 以书里的代码为蓝 ...
pandas学习(数据分组与分组运算、离散化处理、数据合并)
pandas学习(数据分组与分组运算.离散化处理.数据合并) 目录数据分组与分组运算离散化处理数据合并数据分组与分组运算 GroupBy技术:实现数据的分组,和分组运算,作用类似于数据透视表 ...
pandas学习(常用数学统计方法总结、读取或保存数据、缺省值和异常值处理)
pandas学习(常用数学统计方法总结.读取或保存数据.缺省值和异常值处理) 目录常用数学统计方法总结读取或保存数据缺省值和异常值处理常用数学统计方法总结 count 计算非NA值的数量 de ...
pandas之groupby分组与pivot_table透视表
zhuanzi: https://blog.csdn.net/qq_33689414/article/details/78973267 pandas之groupby分组与pivot_table透视表 ...
Linq to SQL 语法查询(链接查询，子查询 & in操作 & join，分组统计等)
Linq to SQL 语法查询(链接查询,子查询 & in操作 & join,分组统计等) 子查询描述:查询订单数超过5的顾客信息查询句法: var 子查询 = from c i ...
Dev用于界面按选中列进行分组统计数据源(实用技巧)
如果有用U8的可以明白这个功能就是模仿他的统计功能.我不过是把他造成通用的与适应于DEV的. (效率为6000条数据分组统计时间为3秒左右分组列过多5秒.1000条以下0.几秒,500条下0.00几秒 ...
DataTable、List使用groupby进行分组和分组统计；List、DataTable查询筛选方法
DataTable分组统计: .用两层循环计算,前提条件是数据已经按分组的列排好序的. DataTable dt = new DataTable(); dt.Columns.AddRange(new ...
每日学习心得：CustomValidator验证控件验证用户输入的字符长度、Linq 多字段分组统计、ASP.NET后台弹出confirm对话框，然后点击确定，执行一段代码
2013-9-15 1. CustomValidator验证控件验证用户输入的字符长度在实际的开发中通常会遇到验证用户输入的字符长度的问题,通常的情况下,可以写一个js的脚本或者函数,在ASP ...

随机推荐

5种PHP生成图片验证码实例
5种PHP生成图片验证码实例,包括数字验证码.数字+字母验证码.中文验证码.仿google验证码和算术验证码,PHP生成验证码的原理:通过GD库,生成一张带验证码的图片,并将验证码保存在Session ...
【01】HTML_day01_01-前言&WEB标准
typora-copy-images-to: media 第01阶段.前端基础.认识WEB 基础班学习目标目标: 能根据psd文件,用HTML+CSS 布局出符合W3C规范的网页. 网站首页列表页 ...
Mac 下如何判断 WIFI 的极限传输速度还有信号强度？
每当你加入一个无线网络后,按住Option键并点击屏幕右上角的Wi-Fi图标,就会发现除了平常的各种网络外,还出现了关于网络连接技术细节的列表. 比如说,如果想知道信号强度的信息,则需要尤其关注列表中 ...
luogu P3384 【模板】重链剖分
参考https://www.cnblogs.com/wushengyang/p/10808505.html,感谢 #include<iostream> #include<algori ...
SSH自动断开后重连的解决方案
注:本文出自博主 Chloneda:个人博客 | 博客园 | Github | Gitee | 知乎本文源链接:https://www.cnblogs.com/chloneda/p/ssh-conn ...
c#XML的基本使用
创建XML文档 static void Main(string[] args) { //1.引入命名空间 //2.创建XML文档对象 XmlDocument xmldoc = new XmlDocum ...
数据库MySQL中关于“多表关联更新”的那些事
在常见的sql中,我们经常在查询中进行多表关联查询,用的比较熟练.今天在开发中遇到一个实际业务场景是多表关联更新,一时不知所措.本着多学习的态度,没有直接写java代码去实现,终于把多表关联更新的sq ...
Java连载86-List集合详解
一.List集合 1.List集合存储元素的特点: (1)有序(List集合中存储有下标):存进去是这样的顺序,取出来还是按照这个顺序取出. (2)可重复 2.深入ListJ集合 ArrayLis ...
洛谷【P5004 专心OI - 跳房子】题解
题目链接 https://www.luogu.org/problem/P5004 洛谷 P5004 专心OI - 跳房子 Imakf有一天参加了PINO 2017 PJ组,他突然看见最后一道题他十分 ...
使用touch操作图片
功能: 1.图片放大缩小 2.图片移动 3.图片上做点标记 PS 1.后端程序员不容易,且行且珍惜 2.代码不想封装,累 js代码 /**************************calc pi ...

pandas处理csv，分组统计

pandas处理csv，分组统计的更多相关文章

随机推荐

热门专题