Pandas 分组聚合：分组、分组对象操作

1、概述

1.1 group语法

df.groupby(self, by=None, axis=0, level=None,

           as_index: bool=True, sort: bool=True,

           group_keys: bool=True,

           squeeze: bool=False,

           observed: bool=False, dropna=True)

其中 by 为分组字段，由于是第一个参数可以省略，可以按列表给多个。会返回一个groupby_generic.DataFrameGroupBy对象，如果不给定聚合方法，不会返回 DataFrame。

1.2 DateFrame应用分组

  #按team进行分组，并求和

  df.groupby('team').sum()

  #对不同列进行不同的聚合计算，对分组对象使用agg，传入函数字典

  #对分组后的同一列进行不同运算

  df.groupby('team').agg({'Q1':['sum','max'],'Q2':['count','mean']})

1.3 Series应用分组

如果给groupby的by参数传入一个Series，此series与分组数据的索引对齐后，按series的值进行分组

  df.groupby(by=df.team).sum()

  df.Q1.groupby(df.team).sum()

2、分组

df.groupby()会生成一个分组对象，把这个对象的各个字段按照一定的聚合方法输出

下面介绍，分组对象 and 分组对象的方法有哪些

2.1 分组对象

2.2 按标签分组

按某一列/多列进行分组

如果是多列，会按照这几个列的排列组合的去重，进行分组，并且get_group()时要传入元组

  grouped = df.groupby('team')

  grouped.get_group('A')

  grouped = df.groupby(['team','name'])

  grouped.get_group(('A','Ack'))

2.3 表达式

将数据分为ture 和 false两组

  grouped = df.groupby(lambda x: x>60)

  grouped.sum()

  df.groupby(lambda x: 'Q' in x,axis=1).sum() #按列名是否包含字母Q，分成两列 ‘name’和‘team’不包含被分到了一起

  # 按索引的奇偶行分组

  df.groupby(df.index%2==0).sum()

2.4 函数分组

:satr:by参数可以调用一个函数，通过函数计算返回一个分组依据

  #按姓名首字母为元音or辅音分组

  def first_letter(name):

      if name[0].lower() in 'aeiou':

          return 'yuan yin'

      return 'fu yin'

  df.set_index('name').groupby(first_letter).sum()

2.5 多种方法混合

by参数传一个list

df.groupby(['team',df.name.apply(first_letter)]).sum()

3、分组对象操作

3.1 选择分组

3.2 迭代分组

  for name, item in grouped:

      print(name)

      print(item)

3.3 选择列

  #选择分组后各组的某一列，像df那样选择即可

  grouped.Q1.sum()

  #选择多列

  grouped['Q1','Q2'].sum()

3.4 应用函数apply

分组对象调用apply，是传入一个df，返回经过函数计算后的df，s，或者标量，再把数据组合

  #将Q1的数据*2

  grouped.apply(lambda x:x.Q1*2)

  '''

  ```

  team

  A     2     114

        7      18

        9     154

        16    126

        17    182

             ...

  E     80    184

        82      8

        90     76

        98     22

        99     42

  Name: Q1, Length: 100, dtype: int64

  ```

  '''

  #见分组中的一列输出为列表

  grouped.apply(lambda x:x.Q1.to_list())

  '''

  ```

  team

  A    [57, 9, 77, 63, 91, 60, 44, 30, 52, 86, 28, 64...

  B    [61, 17, 9, 80, 89, 57, 9, 97, 2, 66, 18, 21, ...

  C    [36, 93, 24, 83, 51, 80, 50, 91, 90, 1, 29, 69...

  D    [65, 64, 79, 80, 62, 15, 24, 57, 50, 79, 5, 14...

  E    [89, 48, 97, 74, 71, 35, 67, 88, 48, 8, 8, 12,...

  dtype: object

  ```

  '''

  #实现每组成绩前三

  def get_head(df):

      df['sum']=df.sum(1)

      df = df.sort_values('sum',ascending = False)

      return df.head(3)

  df.set_index('name').groupby('team').apply(get_head)

  #传入一个series，隐射系列不同的聚合统计方法

  def f_mi(x):

      d = []

      d.append(x['Q1'].sum())

      d.append(x['Q2'].max())

      d.append(x['Q3'].mean())

      d.append(x['Q4']*x['Q4'].sum())

      return pd.Series(d,index=[['Q1','Q2','Q3','Q4'],['sum','max','mean','prodsum']])

  df.groupby('team').apply(f_mi)

3.5 管道方法pipe

类似于df的管道方法

将同组的所有数据应用在方法中，返回的是经过函数处理的返回数据格式

  #每组最大值和最小值之和

  grouped.pipe(lambda x:x.max()+x.min())

  #下面使用自定义函数，经过计算，返回一个Series

  #A/B组平均值的差值

  def get_mean(df):

      return df.get_group('A').mean()-df.get_group('B').mean()

  grouped.pipe(get_mean)

  '''

  ```

  Q1    18.387701

  Q2   -17.775401

  Q3    -3.165775

  Q4    -5.577540

  dtype: float64

  ```

  '''

3.6 转换方法transform

:satr:transform（）类似于agg，但transform会返回与原始数据相同形状的DateFrame

会将原来数据的值一一替换成统计后的值

例如：按组计算平均成绩，那么返回的新的df中每个学生的成绩就是它所在组的平均成绩

  #将所有数据替换成分组中的平均成绩

  grouped.transform('mean')

  #可以用它进行按组筛选

  #Q1成绩大于60的组的所有成员

  df[grouped.transform('mean').Q1>60]

3.7 筛选方法filter

使用filter（）对组作为整体进行筛选，满足条件，整个组会被显示传入它调用的函数的默认变量是每个分组的DateFrame，经过计算，最终返回一个布尔值，为真的DateFrame全部显示

  #按团队分组，每组的每个季度成绩为本季度的的平均分

  #全年的成绩为这个季度的平均分的平均费

  #最终筛选出团队中分数高于51的所有成员

  def get_score(df):

      score = 51

      return df.mean().mean() > score

  df.groupby('team').filter(get_score)

  # Q1成绩至少有一个大于97的组

  grouped.filter(lambda x:(x.Q1>97).any())

  #所有成员平均成绩大于60的组

  grouped.filter(lambda x: (x.mean()>30).all())

4、参考文献

《深入浅出Pandas》