Pandas分组统计函数：groupby、pivot

利用python的pandas库进行数据分组分析十分便捷，其中应用最多的方法包括：groupby、pivot_table及crosstab，以下分别进行介绍。

0、样例数据

df = DataFrame({'key1':['a','a','b','b','a'],'key2':['one','two','one','two','one'],'data1':np.random.randn(5),'data2':np.random.randn(5)})

df

#[Out]#       data1     data2 key1 key2

#[Out]# 0  0.439801  1.582861    a  one

#[Out]# 1 -1.388267 -0.603653    a  two

#[Out]# 2 -0.514400 -0.826736    b  one

#[Out]# 3 -1.487224 -0.192404    b  two

#[Out]# 4  2.169966  0.074715    a  one

1、分组groupby

Pandas中最为常用和有效的分组函数。

1）按列分组

注意以下使用groupby()函数生成的group1是一个中间分组变量，为GroupBy类型。

group1 = df.groupby('key1')

group1

#[Out]# <pandas.core.groupby.DataFrameGroupBy object at 0x0000000009CA5780>

既可依据单个列名’key1’进行为分组，也可依据多个列名['key1','key2']进行分组。

group2 = df.groupby(['key1','key2'])

group2

#[Out]# <pandas.core.groupby.DataFrameGroupBy object at 0x0000000009CB4128>

使用推导式[x for x in group1]可显示分组内容。

[x for x in group1]

#[Out]# [('a',       data1     data2 key1 key2

#[Out]#   0  0.439801  1.582861    a  one

#[Out]#   1 -1.388267 -0.603653    a  two

#[Out]#   4  2.169966  0.074715    a  one),

#[Out]#  ('b',       data1     data2 key1 key2

#[Out]#   2 -0.514400 -0.826736    b  one

#[Out]#   3 -1.487224 -0.192404    b  two)]

2）按分组统计

在分组group1、group2上应用size()、sum()、count()等统计函数，能分别统计分组数量、不同列的分组和、不同列的分组数量。

group1.size()

#[Out]# key1

#[Out]# a    3

#[Out]# b    2

#[Out]# dtype: int64

group1.sum()

#[Out]#          data1     data2

#[Out]# key1

#[Out]# a     1.221499  1.053922

#[Out]# b    -2.001624 -1.019140

group2.size()

#[Out]# key1  key2

#[Out]# a     one     2

#[Out]#       two     1

#[Out]# b     one     1

#[Out]#       two     1

#[Out]# dtype: int64

group2.count()

#[Out]#            data1  data2

#[Out]# key1 key2

#[Out]# a    one       2      2

#[Out]#      two       1      1

#[Out]# b    one       1      1

#[Out]#      two       1      1

3）应用agg()

对于分组的某一列或者多个列，应用agg(func)可以对分组后的数据应用func函数。例如：用group1['data1'].agg('mean')对分组后的’data1’列求均值。当然也可以推广到同时作用于多个列和使用多个函数上。

group1['data1'].agg('mean')

#[Out]# key1

#[Out]# a    0.407166

#[Out]# b   -1.000812

#[Out]# Name: data1, dtype: float64

group1['data1'].agg(['mean','sum'])

#[Out]#           mean       sum

#[Out]# key1

#[Out]# a     0.407166  1.221499

#[Out]# b    -1.000812 -2.001624

group1['data1','data2'].agg(['mean','sum'])

#[Out]#          data1               data2

#[Out]#           mean       sum      mean       sum

#[Out]# key1

#[Out]# a     0.407166  1.221499  0.351307  1.053922

#[Out]# b    -1.000812 -2.001624 -0.509570 -1.019140

4）应用apply()

apply()不同于agg()的地方在于：前者应用于dataframe的各个列，后者仅作用于指定的列。

df.groupby('key1').apply(mean)

#[Out]#          data1     data2

#[Out]# key1

#[Out]# a     0.407166  0.351307

#[Out]# b    -1.000812 -0.509570

df.groupby(['key1','key2']).apply(mean)

#[Out]#               data1     data2

#[Out]# key1 key2

#[Out]# a    one   1.304883  0.828788

#[Out]#      two  -1.388267 -0.603653

#[Out]# b    one  -0.514400 -0.826736

#[Out]#      two  -1.487224 -0.192404

2、透视表pivot_table

可以产生类似于excel数据透视表的结果，相当的直观。

1）分组统计

其中参数index指定“行”键，columns指定“列”键。

df

#[Out]#       data1     data2 key1 key2

#[Out]# 0  0.439801  1.582861    a  one

#[Out]# 1 -1.388267 -0.603653    a  two

#[Out]# 2 -0.514400 -0.826736    b  one

#[Out]# 3 -1.487224 -0.192404    b  two

#[Out]# 4  2.169966  0.074715    a  one

pd.pivot_table(df, index='key1', columns='key2')

#[Out]#          data1               data2

#[Out]# key2       one       two       one       two

#[Out]# key1

#[Out]# a     1.304883 -1.388267  0.828788 -0.603653

#[Out]# b    -0.514400 -1.487224 -0.826736 -0.192404

df.pivot_table(['data1'], index='key1',columns='key2')

#[Out]#          data1

#[Out]# key2       one       two

#[Out]# key1

#[Out]# a     1.304883 -1.388267

#[Out]# b    -0.514400 -1.487224

2）分项汇总

如果将参数margins设置为True，则可以得到分项总计数据。

df.pivot_table(index='key1',columns='key2', margins=True)

#[Out]#          data1                         data2

#[Out]# key2       one       two       All       one       two       All

#[Out]# key1

#[Out]# a     1.304883 -1.388267  0.407166  0.828788 -0.603653  0.351307

#[Out]# b    -0.514400 -1.487224 -1.000812 -0.826736 -0.192404 -0.509570

#[Out]# All   0.698455 -1.437746 -0.156025  0.276947 -0.398029  0.006956

3、交叉表crosstab

可以按照指定的行和列统计分组频数，用起来非常方便；当然同样的功能也可采用groupby实现。

pd.crosstab(df.key1,df.key2, margins=True)

#[Out]# key2  one  two  All

#[Out]# key1

#[Out]# a       2    1    3

#[Out]# b       1    1    2

#[Out]# All     3    2    5

很幸运能够有这么多好用的方法，大大简化了数据分组分析的过程。

Pandas分组统计函数：groupby、pivot_table及crosstab的更多相关文章

Pandas分组（GroupBy）
任何分组(groupby)操作都涉及原始对象的以下操作之一.它们是 - 分割对象应用一个函数结合的结果在许多情况下,我们将数据分成多个集合,并在每个子集上应用一些函数.在应用函数中,可以执行以下 ...
pandas分组统计：groupby，melt，pivot_table，crosstab的用法
groupby: 分组 melt: 宽表转长表 pivot_table: 长表转宽表,数据透视表 crosstab: 交叉表 / 列联表,主要用于分组频数统计 import numpy as np i ...
Pandas分组运算（groupby）修炼
Pandas分组运算(groupby)修炼 Pandas的groupby()功能很强大,用好了可以方便的解决很多问题,在数据处理以及日常工作中经常能施展拳脚. 今天,我们一起来领略下groupby() ...
pandas聚合和分组运算——GroupBy技术(1)
数据聚合与分组运算——GroupBy技术(1),有需要的朋友可以参考下. pandas提供了一个灵活高效的groupby功能,它使你能以一种自然的方式对数据集进行切片.切块.摘要等操作.根据一个或多个 ...
Python Pandas分组聚合
Pycharm 鼠标移动到函数上,CTRL+Q可以快速查看文档,CTR+P可以看基本的参数. apply(),applymap()和map() apply()和applymap()是DataFrame ...
数据分组分析—-groupby
数据分组分析—-groupby 代码功能: 对于综合表格data,基于title进行分组处理,并统计每一组的size,得到的是一个series序列,此序列可以放入索引中使用,index() impor ...
Pandas透视表（pivot_table）详解
介绍也许大多数人都有在Excel中使用数据透视表的经历,其实Pandas也提供了一个类似的功能,名为pivot_table.虽然pivot_table非常有用,但是我发现为了格式化输出我所需要的内容 ...
Pandas分组
GroupBy技术分组运算的过程可以用下面的流程图表示出来 import pandas as pd from pandas import Series import numpy as np df = ...
pandas分组和聚合
Pandas分组与聚合分组 (groupby) 对数据集进行分组,然后对每组进行统计分析 SQL能够对数据进行过滤,分组聚合 pandas能利用groupby进行更加复杂的分组运算分组运算过程:s ...

随机推荐

SWUST OJ (943)
顺序表插入操作的实现 #include<stdio.h> #include <stdlib.h> void InitList(int *&l, int n) { l = ...
redis 基本指令
redis-cli开启redis客户端 1. set key value // 设置key-value 2. get key // 获取key 3. delete key [] // 删除key 4. ...
【IDEA】【3】操作使用
前言: 1,显示工具栏及底部周边工具栏 2,修改项目名称 3,文件重命名 4,鼠标移动到方法上时进行提示注释 5,修改文件后自动重启 6,查看代码覆盖率正文: 1,显示工具栏及底部周边工具栏 Vie ...
opencv 中的mat类（非原创）
Mat最大的优势跟STL很相似,都是对内存进行动态的管理,不需要之前用户手动的管理内存,Mat这个类有两部分数据.一个是matrix header(矩阵头),这部分的大小是固定的,包含矩阵的大小,存储 ...
mysql的五种日期和时间类型【转载】
[mysql的五种日期和时间类型] mysql(5.5)所支持的日期时间类型有:DATETIME. TIMESTAMP.DATE.TIME.YEAR. 几种类型比较如下: 日期时间类型占用空间日期 ...
Linux下zoopkeeper的安装和启动
Linux下zoopkeeper的安装和启动 1.什么是zookeeper ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoo ...
noip2016组合数问题
题目描述组合数 Cnm 表示的是从 n 个物品中选出 m 个物品的方案数.举个例子,从 (1,2,3) 三个物品中选择两个物品可以有(1,2),(1,3),(2,3) 这三种选择方法.根据组合数的 ...
解决VS Code保存时候自动格式化
VS code 保存会自动格式化.以前都是alt+shift+F格式化的,现在一保存就格式化解决方式:找到你的VScode扩展,把JS-CS-HTML Formatter这个插件禁用就可以解决
matlab global persistent变量
global变量是全局的,在使用global变量的函数里需要用global声明所使用的变量. persistent类似global,不过仅对当前函数有作用,这样避免了外面的影响.当这个函数被clear ...
swap分区不足ubuntu休眠
安装uswsusp Ubuntu gnu/linux只需代码: sudo aptitude install uswsusp Arch gnu/linux系统代码: sudo pacman -S u ...

Pandas分组统计函数：groupby、pivot_table及crosstab

Pandas分组统计函数：groupby、pivot_table及crosstab的更多相关文章

随机推荐

热门专题