groupby分组操作详解

在数据分析中，经常会遇到这样的情况：根据某一列（或多列）标签把数据划分为不同的组别，然后再对其进行数据分析。比如，某网站对注册用户的性别或者年龄等进行分组，从而研究出网站用户的画像（特点）。在 Pandas 中，要完成数据的分组操作，需要使用 groupby() 函数，它和 SQL 的GROUP BY操作非常相似。

在划分出来的组（group）上应用一些统计函数，从而达到数据分析的目的，比如对分组数据进行聚合、转换，或者过滤。这个过程主要包含以下三步：

拆分（Spliting）：表示对数据进行分组；
应用（Applying）：对分组数据应用聚合函数，进行相应计算；
合并（Combining）：最后汇总计算结果。

下面对 groupby() 函数的应用过程进行具体的讲解。

创建DataFrame对象

首先我们创建一个 DataFrame 对象，下面数据描述了某班学生，计算机选修课的考试成绩：

import pandas as pd

import numpy as np

data = {'Name': ['John', 'Helen', 'Sona', 'Ella'],    'score': [82, 98, 91, 87],    'option_course': ['C#','Python','Java','C']}

df = pd.DataFrame(data)

print(df)

输出结果：

    Name  score   option_course

0   John     82            C#

1  Helen     98        Python

2   Sona     91          Java

3   Ella     87             C

创建groupby分组对象

使用 groupby() 可以沿着任意轴分组。您可以把分组时指定的键（key）作为每组的组名，方法如下所示：

df.groupby("key")
df.groupby("key",axis=1)
df.groupby(["key1","key2"])

通过上述方法对 DataFrame 对象进行分组操作：

import pandas as pd

import numpy as np

data = {'Name': ['John', 'Helen', 'Sona', 'Ella'],   'score': [82, 98, 91, 87],   'option_course': ['C#','Python','Java','C']}

df = pd.DataFrame(data)

print(df)

#生成分组groupby对象

print(df.groupby('score'))

输出结果：

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x0000021DE9A89640>

查看分组结果

1) groups查看分组结果

通过调用groups属性查看分组结果：

import pandas as pd

import numpy as np

data = {'Name': ['John', 'Helen', 'Sona', 'Ella'],   'score': [82, 98, 91, 87],   'option_course': ['C#','Python','Java','C']}

df = pd.DataFrame(data)

#查看分组

print(df.groupby('score').groups)

输出结果：

{82: Int64Index([0], dtype='int64'),

87: Int64Index([3], dtype='int64'),

91: Int64Index([2], dtype='int64'),

98: Int64Index([1], dtype='int64')}

2) 多个列标签分组

当然也可以指定多个列标签进行分组，示例如下：

import pandas as pd

import numpy as np

data = {'Name': ['John', 'Helen', 'Sona', 'Ella'],   'score': [82, 98, 91, 87],   'option_course': ['C#','Python','Java','C']}

df = pd.DataFrame(data)

#查看分组

print(df.groupby(['Name','score']).groups)

输出结果：

{('Ella', 87): Int64Index([3], dtype='int64'),

('Helen', 98): Int64Index([1], dtype='int64'),

('John', 82): Int64Index([0], dtype='int64'),

('Sona', 91): Int64Index([2], dtype='int64')}

通过 get_group() 方法可以选择组内的具体数据项：

import pandas as pd

import numpy as np

data = {'Name': ['John', 'Helen', 'Sona', 'Ella'],   'score': [82, 98, 91, 87],   'option_course': ['C#','Python','Java','C']}

df = pd.DataFrame(data)

#根据score来分组

grouped=df.groupby('score')

#根据对应组的数据值，选择一个组

print(grouped.get_group(91))

输出结果：

   Name  score option_course

2  Sona     91          Java

遍历分组数据

通过以下方法来遍历分组数据，示例如下：

import pandas as pd

import numpy as np

data = {'Name': ['John', 'Helen', 'Sona', 'Ella'],   'score': [82, 98, 91, 87],   'option_course': ['C#','Python','Java','C']}

df = pd.DataFrame(data)

#查看分组

grouped=df.groupby('score')

for label, option_course in grouped:

	#其中key代表分组后字典的键，也就是score

	print(label)

	#字典对应的值选修的科目

	print(option_course)

输出结果：

82

   Name  score   option_course

0  John     82            C#

87

   Name  score   option_course

3  Ella     87             C

91

   Name  score   option_course

2  Sona     91          Java

98

    Name  score  option_course

1  Helen     98        Python

如上所示， groupby 对象的组名称与 score 中的的元素值一一对应。

应用聚合函数

当您在创建 groupby 对象时，通过 agg() 函数可以对分组对象应用多个聚合函数：

import pandas as pd

import numpy as np

data = {'name': ['John', 'Helen', 'Sona', 'Ella'],    'score': [82, 98, 91, 87],    'option_course': ['C#','Python','Java','C']}

df = pd.DataFrame(data)grouped=df.groupby('name')

#应用一个聚合函数求均值

print(grouped['score']).agg(np.mean)

输出结果：

name

Ella     87

Helen    98

John     82

Sona     91

Name: score, dtype: int64

当然，您也可以一次性应有多个聚合函数，示例如下：

import pandas as pd

import numpy as np

data = {'name': ['John', 'Helen', 'Sona', 'Ella'],   'score': [82, 98, 91, 87],   'option_course': ['C#','Python','Java','C']}

df = pd.DataFrame(data)

grouped=df.groupby('name')

print(grouped['score'].agg([np.size,np.mean,np.std]))

输出结果：

       size  mean  std

name

Ella      1    87  NaN

Helen     1    98  NaN

John      1    82  NaN

Sona      1    91  NaN

组的转换操作

在组的行或列上可以执行转换操作，最终会返回一个与组大小相同的索引对象。示例如下：

import pandas as pd

import numpy as np

df = pd.DataFrame({'种类':['水果','水果','水果','蔬菜','蔬菜','肉类','肉类'],

                   '产地':['朝鲜','中国','缅甸','中国','菲律宾','韩国','中国'],

                   '水果':['橘子','苹果','哈密瓜','番茄','椰子','鱼肉','牛肉'],

                   '数量':[3,5,5,3,2,15,9],

                   '价格':[2,5,12,3,4,18,20]})

#分组求均值，水果、蔬菜、肉类#对可执行计算的数值列求均值

print(df.groupby('种类').transform(np.mean))

#transform()直接应用demean，实现去均值操作

demean = lambda arr:arr-arr.mean()

print(df.groupby('种类').transform(demean))

#自定义函数# 返回分组的前n行数据

def get_rows(df,n):

    #从1到n行的所有列

    return df.iloc[:n,:]

#分组后的组名作为行索引

print(df.groupby('种类').apply(get_rows,n=1))

输出结果：

      数量         价格

0   4.333333   6.333333

1   4.333333   6.333333

2   4.333333   6.333333

3   2.500000   3.500000

4   2.500000   3.500000

5  12.000000  19.000000

6  12.000000  19.000000

      数量        价格

0 -1.333333 -4.333333

1  0.666667 -1.333333

2  0.666667  5.666667

3  0.500000 -0.500000

4 -0.500000  0.500000

5  3.000000 -1.000000

6 -3.000000  1.000000

      种类  产地  水果  数量  价格

种类

水果 0  水果  朝鲜  橘子   3   2

肉类 5  肉类  韩国  鱼肉  15  18

蔬菜 3  蔬菜  中国  番茄   3   3

组的数据过滤操作

通过 filter() 函数可以实现数据的筛选，该函数根据定义的条件过滤数据并返回一个新的数据集。

下面，筛选出参加比赛超过两次的球队（包含两次）：

import pandas as pd

import numpy as np

data = {'Team': ['Riders', 'Riders', 'Devils', 'Devils', 'Kings',   'kings', 'Kings', 'Kings', 'Riders', 'Royals', 'Royals', 'Riders'],

        'Rank': [1, 2, 2, 3, 3,4 ,1 ,1,2 , 4,1,2],

        'Year': [2014,2015,2014,2015,2014,2015,2016,2017,2016,2014,2015,2017],

        'Points':[874,789,863,663,741,802,756,788,694,701,812,698]}

df = pd.DataFrame(data)

#定义lambda函数来筛选数据

print (df.groupby('Team').filter(lambda x: len(x) >= 2))

输出结果：

      Team  Rank  Year  Points

0   Riders     1  2014     874

1   Riders     2  2015     789

4    Kings     3  2014     741

6    Kings     1  2016     756

7    Kings     1  2017     788

8   Riders     2  2016     694

11  Riders     2  2017     698

Pandas分组聚合的更多相关文章

Pandas 分组聚合
# 导入相关库 import numpy as np import pandas as pd 创建数据 index = pd.Index(data=["Tom", "Bo ...
Python Pandas分组聚合
Pycharm 鼠标移动到函数上,CTRL+Q可以快速查看文档,CTR+P可以看基本的参数. apply(),applymap()和map() apply()和applymap()是DataFrame ...
Pandas 分组聚合：分组、分组对象操作
1.概述 1.1 group语法 df.groupby(self, by=None, axis=0, level=None, as_index: bool=True, sort: bool=True, ...
pandas分组聚合案例
美国2012年总统候选人政治献金数据分析导入包 import numpy as np import pandas as pd from pandas import Series,DataFrame ...
DataAnalysis-Pandas分组聚合
title: Pandas分组聚合 tags: 数据分析 python categories: DataAnalysis toc: true date: 2020-02-10 16:28:49 Des ...
pandas分组和聚合
Pandas分组与聚合分组 (groupby) 对数据集进行分组,然后对每组进行统计分析 SQL能够对数据进行过滤,分组聚合 pandas能利用groupby进行更加复杂的分组运算分组运算过程:s ...
Pandas分组运算（groupby）修炼
Pandas分组运算(groupby)修炼 Pandas的groupby()功能很强大,用好了可以方便的解决很多问题,在数据处理以及日常工作中经常能施展拳脚. 今天,我们一起来领略下groupby() ...
Atitit 数据存储的分组聚合 groupby的实现attilax总结
Atitit 数据存储的分组聚合 groupby的实现attilax总结 1. 聚合操作1 1.1. a.标量聚合流聚合1 1.2. b.哈希聚合2 1.3. 所有的最优计划的选择都是基于现有统计 ...
ORACLE字符串分组聚合函数（字符串连接聚合函数）
ORACLE字符串连接分组串聚函数 wmsys.wm_concat SQL代码: select grp, wmsys.wm_concat(str) grp, 'a1' str from dual un ...
SSRS 系列 - 使用带参数的 MDX 查询实现一个分组聚合功能的报表
SSRS 系列 - 使用带参数的 MDX 查询实现一个分组聚合功能的报表 SSRS 系列 - 使用带参数的 MDX 查询实现一个分组聚合功能的报表 2013-10-09 23:09 by BI Wor ...

随机推荐

java基础(3)--pulic class与class的区别
1.一个类前面的public是可有可无的2.如果一个类使用 public 修饰,则文件名必须与类名一致3.如果一个类前面没有使用public修饰,则文件名可以与类名不一致.当编译成功后会生成对应类名的 ...
Go 语言中 defer 使用时有哪些陷阱？
大家好,我是 frank ,「 Golang 语言开发栈」公众号作者. 01 介绍 defer 的使用方式是在其后紧跟一个函数调用或方法调用,确保在其所在的函数体返回之前执行其调用的函数或方法. 在 ...
ORA-65140: 无效的通用配置文件名称
1.问题 CREATE PROFILE PM_Profile LIMIT SESSIONS_PER_USER 100 PASSWORD_LIFE_TIME 90; 在创建概要文件时,报错:ORA-65 ...
使用Docker部署java项目时遇到的几个错误
0.简介本文主要是在学习黑马程序员Docker快速入门到项目部署过程中, 对遇到的问题进行了相关的总结梳理 1.本地已存在mysql服务占用3306端口问题当我使用docker run -d - ...
css - 使用 figure 和 figcaption 快速实现图片加文字的垂直方向的布局 ( 不支持ie9以下版本 )
一,属性介绍 1. 浏览器支持注释:Internet Explorer 8 以及更早的版本不支持 <figure> 标签.Internet Explorer 9, Firefox, Op ...
Laravel - 路由的多层嵌套
Route::group(['prefix'=>'admin'],function(){ Route::get('/',function(){ return view('admin.articl ...
[转帖]在Linux中切换cmake版本
在Linux中切换cmake版本https://blog.whsir.com/post-6804.html 在Linux系统中,有时需要使用cmake进行程序编译,由于不同的Linux系统导致安装 ...
[转帖]MySQL: Convert decimal to binary
Last Update:2018-12-05 Source: Internet Author: User Tags decimal to binary mysql code Developer on ...
[转帖]《Linux性能优化实战》笔记（三）—— CPU 上下文切换（下）
上篇介绍了三种CPU 上下文切换以及它们可能造成的问题和原因,这一篇来看看在系统中如何发现CPU 上下文切换问题. 一. 查看上下文切换情况主要使用两个命令:vmstat以及之前用过的pidstat ...
[转帖]Jmeter中线程组和setUP线程组、tearDown线程组的区别
JMETER: setUP线程组:在测试任务ThreadGroup 运行前先被运行.通常用在运行测试任务前,做初始化工作.例如建立数据库连接初始分化工作.用户登录 tearDown线程组:在测试任务线 ...

Pandas分组聚合

groupby分组操作详解

创建DataFrame对象

创建groupby分组对象

查看分组结果

1) groups查看分组结果

2) 多个列标签分组

遍历分组数据

应用聚合函数

组的转换操作

组的数据过滤操作

Pandas分组聚合的更多相关文章

随机推荐

热门专题