DataFrame分组和聚合

一、分组

1、语法

grouped= df.groupby(by='columns name')

# grouped是一个DataFrameGroupBy对象，是可迭代的(遍历)

# grouped中的每一个元素都是一个元祖

# 元祖： (索引(分组的值), 分组之后的DataFrame)

2、取值

grouped.count()                 # 获取分组中非NaN的数量

grouped.count()[['M']]          # 获取M列索引的值， 注意 [['M']] 结果的type是DataFrame

grouped.count()['M']            # 获取M列索引的值， 注意 ['M'] 结果的type是Series

3、多个分组

# 多个分组

grouped= df.groupby(by=['columns_name1', 'columns_name2'])

# 获取分组后的某一部分数据

grouped = df1.groupby(by=['O', 'N'])

grouped.count()['M']

或

grouped['M'].count()

# 对某几列数据进行分组

grouped = df1['M'].groupby(by=[df1['O'], df1['N']])     # Series

# 或

grouped = df1[['M']].groupby(by=[df1['O'], df1['N']])     # DataFrame

grouped.count()

二、聚合
DataFrameGroupBy对象的聚合方法

函数名         说明

count         分组中非NA的数量

sum           非NA值的和

mean          非NA值的平均值

median        非NA值的中位数

std、var       标准差、方差

min、max       非NA值中的最小值、最大值

DataFrame分组和聚合的更多相关文章

pd.qcut, pd.cut, df.groupby()等在分组和聚合方面的应用
pd.qcut, pd.cut, df.groupby()等在分组和聚合方面的应用量化交易里, 需要进行大量的分组和统计, 以方便自己处优势的位置/机会. 比如对股价进行趋势分析, 波动性分析, 量 ...
pandas分组和聚合
Pandas分组与聚合分组 (groupby) 对数据集进行分组,然后对每组进行统计分析 SQL能够对数据进行过滤,分组聚合 pandas能利用groupby进行更加复杂的分组运算分组运算过程:s ...
mysql 分组和聚合函数
mysql 分组和聚合函数 Mysql 聚集函数有5个: 1.COUNT() 记录个数(count(1),count(*)统计表中行数,count(列名)统计列中非null数) 2.MAX() 最大值 ...
MongoDB学习（使用分组、聚合和映射-归并）
使用分组.聚合和映射-归并 MongoDB的强大功能之一,是直接在服务器对文档的值进行复杂的操作,而不用先发文档发送到客户端在进行处理. 结果分组对大型数据集进行查询操作时,通常会根据文档的字段值对 ...
70 多表查询的分组F 聚合 Q 查询
聚合查询和分组查询聚合 aggregate()是QuerySet 的一个终止子句,意思是说,它返回一个包含一些键值对的字典.键的名称是聚合值的标识符,值是计算出来的聚合值.键的名称是按照字段和聚合函 ...
FreeSql （二十三）分组、聚合
IFreeSql fsql = new FreeSql.FreeSqlBuilder() .UseConnectionString(FreeSql.DataType.MySql, "Data ...
Python Dataframe 分组排序和 Modin
Python Dataframe 分组排序和 Modin 1.按照其中一列进行排序在dataframe中,按照其中的一列排序:比如q值倒排 (1)rank方法 data['new_rank'] = ...
Series和Dataframe分组时使用groupby函数的区别
1. Dataframe分组用groupby("列名")或者groupby(["列名1","列名2"]) import pandas as ...
20-2 orm分组和聚合以及在项目中执行的一些方法
一 orm分组和聚合参考:https://www.cnblogs.com/liwenzhou/p/8660826.html 1 表结构: # 第一张表 class Employee1(models ...

随机推荐

P1044 最大值最小化
题目描述在印刷术发明之前,复制一本书是一个很困难的工作,工作量很大,而且需要大家的积极配合来抄写一本书,团队合作能力很重要.当时都是通过招募抄写员来进行书本的录入和复制工作的, 假设现在要抄写 \( ...
【50.40%】【BZOJ 4553】[Tjoi2016&Heoi2016]序列
Time Limit: 20 Sec Memory Limit: 128 MB Submit: 371 Solved: 187 [Submit][Status][Discuss] Descript ...
java.lang.IllegalArgumentException: attempt to create saveOrUpdate event with null entity
今天想把ssh整合的代码跑起来,控制台就一直在报错,搞了半天!!! Hibernate: select computer0_.computerId as computer1_0_, computer0 ...
Yet Another Array Queries Problem CodeForces - 863D (暴力/思维）
You are given an array a of size n, and q queries to it. There are queries of two types: 1 li ri — p ...
mangoDB 储存 id为objectid
微软软件开发技术二十年回顾-API篇(转)
二. API篇随着Windows操作系统开始占据主导地位,开发Windows平台下的应用程序成为人们的需要.当然,这也为传统的DOS程序员提供了一种新的编程方法-一种不受设备限制并由事件驱动的编程方 ...
由“Sysnative”引发的思考
在64位的Windows系统中,有个非常神秘的文件夹“Sysnative”,你无法通过Explorer去访问它,甚至你都无法找到它,但它却扮演了一个非常重要的角色.下面我们就来聊聊它. 32位和64位 ...
$AT2292\ Division\ into\ Two$ $dp$
正解:$dp$ 解题报告: 传送门$QwQ$ 不妨令$A\geq B$,于是先$sort$然后预处理判下如果有三个元素两两差都小于$B$的就直接$GG$了. 然后考虑对集合$X$进行$dp$,剩下的数 ...
共识网络BFT-SMaRt：理论与实践
目录 BFT-SMaRt 简介分布式计数器服务功能描述组网配置启动节点常见问题计数服务容错服务 BFT-SMaRt 理论 BFT-SMR 典型模式 SMR 状态机复制 VP-Consen ...
2019年终总结&小半年流媒体服务器开发经验总结
目录 2019年终总结&小半年流媒体服务器开发经验总结 19年开发小结流媒体服务框架设计登录服开发 ffmpeg音视频服务开发音视频控制流媒体服务开发小结 rtp处理视频的合成&am ...

DataFrame分组和聚合

DataFrame分组和聚合的更多相关文章

随机推荐

热门专题