Pandas的数据分组-aggregate聚合

在对数据进行分组之后，可以对分组后的数据进行聚合处理统计。

agg函数，agg的形参是一个函数会对分组后每列都应用这个函数。

import pandas as pd

import numpy as np

idx = [101,101,101,102,102,102,103,103,103]

idx += [101,102,103]

name = ["apple","pearl","orange", "apple","pearl","orange","apple","pearl","orange"]

name += ["apple"] * 3

price = [1.0,2.0,3.0,4.00,5.0,6.0,7.0,8.0,9.0]

price += [4] * 3

df0 = pd.DataFrame({ "fruit": name, "price" : price, "supplier" :idx})

print "*" * 30

print df0

print "*" * 30

dg1 =  df0.groupby(["fruit", "supplier"])

for n, g in dg1:

    print "multiGroup on:", n, "\n|",g ,"|"

print "*" * 30

print dg1.agg(np.mean)

程序的执行结果：

******************************

     fruit  price  supplier

0    apple      1       101

1    pearl      2       101

2   orange      3       101

3    apple      4       102

4    pearl      5       102

5   orange      6       102

6    apple      7       103

7    pearl      8       103

8   orange      9       103

9    apple      4       101

10   apple      4       102

11   apple      4       103

******************************

multiGroup on: ('apple', 101)

|    fruit  price  supplier

0  apple      1       101

9  apple      4       101 |

...

multiGroup on: ('pearl', 103)

|    fruit  price  supplier

7  pearl      8       103 |

******************************

                 price

fruit  supplier

apple  101         2.5

       102         4.0

       103         5.5

orange 101         3.0

       102         6.0

       103         9.0

pearl  101         2.0

       102         5.0

       103         8.0

请注意水果apple的输出。

agg应用均值、求和、最大等示例。

import pandas as pd

import numpy as np

idx = [101,101,101,102,102,102,103,103,103]

idx += [101,102,103] * 3

name = ["apple","pearl","orange", "apple","pearl","orange","apple","pearl","orange"]

name += ["apple"] * 3 + ["pearl"] * 3 + ["orange"] * 3

price = [4.1,5.3,6.3,4.20,5.4,6.0,4.5,5.5,6.8]

price += [4] * 3 + [5] * 3 + [6] * 3

df0 = pd.DataFrame({ "fruit": name, "price" : price, "supplier" :idx})

print "*" * 30

print df0

print "*" * 30

dg1 =  df0.groupby(["fruit", "supplier"])

print dg1.agg(np.mean)

print "*" * 30

print dg1.agg([np.mean, np.std, np.min, np.sum])

程序执行结果：

******************************

     fruit  price  supplier

0    apple    4.1       101

...

17  orange    6.0       103

******************************

                 price

fruit  supplier

apple  101        4.05

       102        4.10

       103        4.25

orange 101        6.15

       102        6.00

       103        6.40

pearl  101        5.15

       102        5.20

       103        5.25

******************************

                price

                 mean       std amin   sum

fruit  supplier

apple  101       4.05  0.070711    4   8.1

       102       4.10  0.141421    4   8.2

       103       4.25  0.353553    4   8.5

orange 101       6.15  0.212132    6  12.3

       102       6.00  0.000000    6  12.0

       103       6.40  0.565685    6  12.8

pearl  101       5.15  0.212132    5  10.3

       102       5.20  0.282843    5  10.4

       103       5.25  0.353553    5  10.5

各列用不同的处理函数。需要在agg函数里以字典的形式给出，分组后的那列用那个函数处理。

import pandas as pd

import numpy as np

idx = [101,101,101,102,102,102,103,103,103]

idx += [101,102,103] * 3

name = ["apple","pearl","orange", "apple","pearl","orange","apple","pearl","orange"]

name += ["apple"] * 3 + ["pearl"] * 3 + ["orange"] * 3

price = [4.1,5.3,6.3,4.20,5.4,6.0,4.5,5.5,6.8]

price += [4] * 3 + [5] * 3 + [6] * 3

df0 = pd.DataFrame({ "fruit": name, "price" : price, "supplier" :idx})

print "*" * 30

print df0

print "*" * 30

dg1 =  df0.groupby(["fruit"])

print dg1.agg(np.mean)

print "*" * 30

print dg1.agg([np.mean, np.std, np.min, np.sum])

print "*" * 30

print dg1.agg({"price" : np.mean, "supplier" : np.max})

程序的执行结果：

******************************

     fruit  price  supplier

0    apple    4.1       101

1    pearl    5.3       101

2   orange    6.3       101

3    apple    4.2       102

4    pearl    5.4       102

5   orange    6.0       102

6    apple    4.5       103

7    pearl    5.5       103

8   orange    6.8       103

9    apple    4.0       101

10   apple    4.0       102

11   apple    4.0       103

12   pearl    5.0       101

13   pearl    5.0       102

14   pearl    5.0       103

15  orange    6.0       101

16  orange    6.0       102

17  orange    6.0       103

******************************

           price  supplier

fruit

apple   4.133333       102

orange  6.183333       102

pearl   5.200000       102

******************************

           price                      supplier

            mean       std amin   sum     mean       std amin  sum

fruit

apple   4.133333  0.196638    4  24.8      102  0.894427  101  612

orange  6.183333  0.325064    6  37.1      102  0.894427  101  612

pearl   5.200000  0.228035    5  31.2      102  0.894427  101  612

******************************

        supplier     price

fruit

apple        103  4.133333

orange       103  6.183333

pearl        103  5.200000

agg函数是对列而言的，如果打算对分组后列的数据进行处理可以使用tranform函数，见下一章。

Pandas的数据分组-aggregate聚合的更多相关文章

pandas学习(数据分组与分组运算、离散化处理、数据合并)
pandas学习(数据分组与分组运算.离散化处理.数据合并) 目录数据分组与分组运算离散化处理数据合并数据分组与分组运算 GroupBy技术:实现数据的分组,和分组运算,作用类似于数据透视表 ...
小白学 Python 数据分析（11）：Pandas （十）数据分组
人生苦短,我用 Python 前文传送门: 小白学 Python 数据分析(1):数据分析基础小白学 Python 数据分析(2):Pandas (一)概述小白学 Python 数据分析(3):P ...
pandas中数据聚合【重点】
数据聚合数据聚合是数据处理的最后一步,通常是要使每一个数组生成一个单一的数值. 数据分类处理: 分组:先把数据分为几组用函数处理:为不同组的数据应用不同的函数以转换数据合并:把不同组得到的结果合 ...
pandas分组和聚合
Pandas分组与聚合分组 (groupby) 对数据集进行分组,然后对每组进行统计分析 SQL能够对数据进行过滤,分组聚合 pandas能利用groupby进行更加复杂的分组运算分组运算过程:s ...
利用Python进行数据分析-Pandas(第五部分-数据规整：聚合、合并和重塑)
在许多应用中,数据可能分散在许多文件或数据库中,存储的形式也不利于分析.本部分关注可以聚合.合并.重塑数据的方法. 1.层次化索引层次化索引(hierarchical indexing)是panda ...
MySQL聚合函数与数据分组
我们最常需要的是汇总数据而不是把他们实际检索出来确定表中行数(或满足某个条件或包含某个特定值的行数) 确定表中行组的和找出表列(或所有行或特定列)的最大值,最小值和平均值聚集函数是运行在行组上, ...
python中pandas数据分析基础3（数据索引、数据分组与分组运算、数据离散化、数据合并）
//2019.07.19/20 python中pandas数据分析基础(数据重塑与轴向转化.数据分组与分组运算.离散化处理.多数据文件合并操作) 3.1 数据重塑与轴向转换1.层次化索引使得一个轴上拥 ...
pandas中的分组技术
目录 1 分组操作 1.1 按照列进行分组 1.2 按照字典进行分组 1.3 根据函数进行分组 1.4 按照list组合 1.5 按照索引级别进行分组 2 分组运算 2.1 agg 2 ...
MongoDB学习（使用分组、聚合和映射-归并）
使用分组.聚合和映射-归并 MongoDB的强大功能之一,是直接在服务器对文档的值进行复杂的操作,而不用先发文档发送到客户端在进行处理. 结果分组对大型数据集进行查询操作时,通常会根据文档的字段值对 ...

随机推荐

轮廓检测论文解读 | Richer Convolutional Features for Edge Detection | CVPR | 2017
有什么问题可以加作者微信讨论,cyx645016617 上千人的粉丝群已经成立,氛围超好.为大家提供一个遇到问题有可能得到答案的平台. 0 概述论文名称:"Richer Convoluti ...
babel 与 ast
什么是 babel Babel 是一个工具链,主要用于将 ECMAScript 2015+ 版本的代码转换为向后兼容的 JavaScript 语法,以便能够运行在当前和旧版本的浏览器或其他环境中. 什 ...
Unity射击游戏实例—物理碰撞的实现
前言: 这一篇章实现物理碰撞,就是游戏体碰撞减装甲,这几天想要试着做出兼具装甲与血量的模式,可自动回复的装甲与永久损伤的血量,在一些平台上找到了不少有意思的模型,有兴趣的可以自己找找模型替换一下. 射 ...
OSM地图本地发布-如何生成各省市矢量地图
目录 1.缘起 2.问题 3.分析 4.生成自定义地区矢量瓦片 4.1.启动docker 4.2.启动postGIS容器 4.3.设置不清理上次的结果 4.4.删除默认切图范围 4.5.修改切图层级和 ...
iOS常见遍历方法汇总
一.for循环 NSArray *iosArray = @[@"L", @"O", @"V", @"E", @" ...
学习一下 SpringCloud （二）-- 服务注册中心 Eureka、Zookeeper、Consul、Nacos
(1) 相关博文地址: 学习一下 SpringCloud (一)-- 从单体架构到微服务架构.代码拆分(maven 聚合): https://www.cnblogs.com/l-y-h/p/14105 ...
Cys_Control（六） MTreeView
说明:由于Cefsharp浏览器项目需要各类控件,故之后的一些定义控件样式会参照Edge浏览器深色主题样式开发一.查看TreeView原样式 1.通过Blend查看TreeView原有样式 < ...
IntelliJ IDEA错误：源值1.5已过时，将在未来所有版本中删除
参考:http://www.jianshu.com/p/451271c4de11
jQuery作业点击显示
代码如下: 里: 导入jQuery包: 里:内容水果苹果橘子梨子香蕉化妆品口红眼影腮红高光护肤品水乳霜精华
关于一台电脑使用多个GitHub账户管理代码的记录
@参考原文记录这个操作是因为需要将一些代码放出去到公共仓库上以便使用github pages线上预览今天页面的功能,但是碰到了一个很狗血的问题,虽然最后莫名其妙的解决了,但还是不知缘由,希望能在评论 ...

Pandas的数据分组-aggregate聚合

agg函数，agg的形参是一个函数会对分组后每列都应用这个函数。

程序的执行结果：

请注意水果apple的输出。

各列用不同的处理函数。需要在agg函数里以字典的形式给出，分组后的那列用那个函数处理。

程序的执行结果：

Pandas的数据分组-aggregate聚合的更多相关文章

随机推荐

热门专题