pandas 取 groupby 后每个分组的前 N 行

原始数据如下：

（图是从 excel 截的，最左1行不是数据，是 excel 自带的行号，为了方便说明截进来的）

除去首行是标题外，有效数据为 28行 x 4列

目前的需求是根据 partition 分组，然后取每组的前 2 行，如果不考虑排序，代码如下：

（把head()里面的数字改成 n 就可以取 n 行）

import pandas as pd

esp_df = pd.read_excel('excel文件路径', sheet_name='Sheet名')

esp_df.groupby(['partition', 'create_time', 'last_modified_time']).mean().reset_index(drop=False).groupby('partition').head(2)

结果如下：

分别说明如下：

groupby：分组，这里是根据数据中的 3 列来一起分组，因为我们并不需要做聚合运算，所以这么取可以保留原始数据不变。原始数据只有 4 列，这里 groupby 了 3 列，只剩下 size（其实把 size 放进去一起 groupby 也没问题）
mean：求平均值，但是在这里没用，因为上一步的 groupby 取了前面的 3 列，在本例中，前 3 列并在一起就能得到一个唯一的一行，所以这里其实也只是每一行数据自己求平均数，结果等于它本身。同理，这里替代成求和函数 sum() 也是一样的。但是不能省略，因为**省略后它就是一个 DataFrameGroupBy 类型的变量，不是 DataFrame，而 DataFrameGroupBy 是没有后面的 reset_index 方法的
reset_index：重置索引，groupby 之后，结果集的索引就变成了 groupby 里面的 key，这个 reset_index 把这个索引重新退回为数据。

举例说明，在应用 reset_index 之前，即使用 mean() 之后的数据是这样的：

可以看到左边的 3 列，也就是 groupby key 的 partition、create_time、last_modified_time 是加粗了的，说明此时这 3 列都是索引；而且 partition 因为有相同的行，还被合并了。显然这不是我们想要的。reset_index 把它们重新放回到数据列里

参数中的 drop 作用是是否保留（重置前）的索引

数据就又回来了，索引变成了原来默认的（0123...）

groupby：再次根据 partition 分组
head: 取每个分组的前 n 行

如果要排序

本例中，如果要先根据 partition 分组，然后再根据 size 倒序（从大到小）再取前 2 行，则代码如下：

esp_df.groupby(['partition']).apply(lambda x: x.sort_values(["size"], ascending = False)).reset_index(drop=True).groupby('partition').head(2)

结果如下：

pandas 取 groupby 后每个分组的前 N 行的更多相关文章

第十三节：pandas之groupby（）分组
1.Series()对象分组 1.1.单级索引 1.2.多级索引 2.DataFrame()对象分组 3.获取一个分组,遍历分组,filter过滤.
pandas之groupby分组与pivot_table透视
一.groupby 类似excel的数据透视表,一般是按照行进行分组,使用方法如下. df.groupby(by=None, axis=0, level=None, as_index=True, so ...
sql-实现select取行号、分组后在分组内排序、每个分组中的前n条数据
表结构设计: 实现select取行号 sql局部变量的2种方式 set @name='cm3333f'; select @id:=1; 区别:set 可以用=号赋值,而select 不行,必须使用:= ...
pandas获取groupby分组里最大值所在的行,获取第一个等操作
pandas获取groupby分组里最大值所在的行 10/May 2016 python pandas pandas获取groupby分组里最大值所在的行如下面这个DataFrame,按照Mt分组, ...
Pandas之groupby分组
释义 groupby用来分组,调用groupby 之后返回pandas.core.groupby.generic.DataFrameGroupBy,其实就是由一个个格式为(key, 分组后的dataf ...
sql server 分组，取每组的前几行数据
sql中group by后,获取每组中的前N行数据,目前我知道的有2种方法比如有个成绩表: 里面有字段学生ID,科目,成绩.我现在想取每个科目的头三名. 1. 子查询 select * from ...
mysql分组取最大(最小、最新、前N条)条记录
在数据库开发过程中,我们要为每种类型的数据取出前几条记录,或者是取最新.最小.最大等等,这个该如何实现呢,本文章向大家介绍如何实现mysql分组取最大(最小.最新.前N条)条记录.需要的可以参考一下. ...
pandas之groupby分组与pivot_table透视表
zhuanzi: https://blog.csdn.net/qq_33689414/article/details/78973267 pandas之groupby分组与pivot_table透视表 ...
Pandas系列（九）-分组聚合详解
目录 1. 将对象分割成组 1.1 关闭排序 1.2 选择列 1.3 遍历分组 1.4 选择一个组 2. 聚合 2.1 一次应用多个聚合操作 2.2 对DataFrame列应用不同的聚合操作 3. t ...

随机推荐

WAMP 2.5 无法访问局域网的解决方法
打开Apache配置文件 httpd.conf (该文件在wamp\bin\apache\apache2.4.9\conf) DocumentRoot "d:/wamp/www/" ...
Django——Ajax发送请求验证用户名是否被注册
场景: 用户注册的时候,输入用户名之后,Ajax发送请求到后端,后端验证该用户名是否已经被注册,然后返回到注册页面提示用户. 1.模型: from django.db import models cl ...
Django的模板文件的路径设置
TEMPLATES = [ { 'BACKEND': 'django.template.backends.django.DjangoTemplates', 'DIRS': [], 'APP_DIRS' ...
Python入门学习之：10分钟1500访问量
看效果: 不扯没用的,直接上代码: # author : sunzd # date : 2019/9/01 # position : beijing from fake_useragent impor ...
centos7关于防火墙的一些操作
防火墙相关 # 检查防火墙状态 systemctl status firewalld # 开启防火墙 systemctl start firewalld # 关闭防火墙 systemctl stop ...
React项目中应用TypeScript
一.前言单独的使用typescript 并不会导致学习成本很高,但是绝大部分前端开发者的项目都是依赖于框架的例如和vue.react 这些框架结合使用的时候,会有一定的门槛使用 TypeScri ...
golang 注释 exported function xxx should have comment or be unexported
0x00 问题 exported function xxx should have comment or be unexported. 0x01 解决 https://golang.org/s/sty ...
集合Collection ----List集合
Collection集合体系的特点: set系列集合:添加的元素是无序,不重复,无索引的 ----HashSet: 无序,不重复,无索引 ----LinkedHashSet: 有序,不重复,无索引 ...
HCNP Routing&Switching之路由控制、路由策略和IP-Prefix List
前文我们了解了IS-IS路由聚合和认证相关话题,回顾请参考https://www.cnblogs.com/qiuhom-1874/p/15306645.html:今天我们来聊一聊路由控制技术中的路由策 ...
一起学习PHP中GD库的使用（一）
又到了一个大家非常熟悉的库了,对于图像图形的处理来说,GD 库是 PHPer 们绕不过去的一道坎.从很早很早的 CMS 或者 Discuz 时代,各类开源软件在安装的时候就会明确地指出 GD 库是它们 ...

pandas 取 groupby 后每个分组的前 N 行

如果要排序

pandas 取 groupby 后每个分组的前 N 行的更多相关文章

随机推荐

热门专题