pandas分组group

Pandas对象可以分成任何对象。有多种方式来拆分对象，如 -

obj.groupby(‘key’)
obj.groupby([‘key1’,’key2’])
obj.groupby(key,axis=1)

现在来看看如何将分组对象应用于DataFrame对象

#!/usr/bin/env python

# -*- coding: utf-8 -*-

# @Time    : 2018/5/24 15:03

# @Author  : zhang chao

# @File    : s.py

import numpy as np

import pandas as pd

ipl_data = {'Team': ['Riders', 'Riders', 'Devils', 'Devils', 'Kings',

         'kings', 'Kings', 'Kings', 'Riders', 'Royals', 'Royals', 'Riders'],

         'Rank': [1, 2, 2, 3, 3,4 ,1 ,1,2 , 4,1,2],

         'Year': [2014,2015,2014,2015,2014,2015,2016,2017,2016,2014,2015,2017],

         'Points':[876,789,863,673,741,812,756,788,694,701,804,690]}

df = pd.DataFrame(ipl_data)

print (df)

print("=======================================")

print (df.groupby('Team'))

print("=======================================")

print (df.groupby('Team').groups)

print("=======================================")

print (df.groupby(['Team','Year']).groups)

#迭代遍历分组

print("迭代遍历分组:")

print("=======================================")

grouped = df.groupby('Year')

for name,group in grouped:

    print (name)

    print (group)

#使用get_group()方法，可以选择一个组

print("使用get_group()方法，可以选择一个组:")

print("=======================================")

grouped = df.groupby('Year')

print (grouped.get_group(2014))

print("=======================================")

grouped = df.groupby('Year')

print (grouped['Points'].agg(np.mean))

#另一种查看每个分组的大小的方法是应用size()函数

print("另一种查看每个分组的大小的方法是应用size()函数:")

print("=======================================")

grouped = df.groupby('Team')

print (grouped.agg(np.size))

#通过分组系列，还可以传递函数的列表或字典来进行聚合

print("通过分组系列，还可以传递函数的列表或字典来进行聚合:")

print("=======================================")

grouped = df.groupby('Team')

agg = grouped['Points'].agg([np.sum, np.mean, np.std])

print (agg)

#分组或列上的转换返回索引大小与被分组的索引相同的对象。因此，转换应该返回与组块大小相同的结果。

print("分组或列上的转换返回索引大小与被分组的索引相同的对象。因此，转换应该返回与组块大小相同的结果。:")

print("=======================================")

grouped = df.groupby('Team')

score = lambda x: (x - x.mean()) / x.std()*10

print (grouped.transform(score))

#过滤根据定义的标准过滤数据并返回数据的子集。filter()函数用于过滤数据

print("=======================================")

print("过滤根据定义的标准过滤数据并返回数据的子集。filter()函数用于过滤数据:")

df = pd.DataFrame(ipl_data)

filter = df.groupby('Team').filter(lambda x: len(x) >= 3)

print (filter)

print("=======================================")

D:\Download\python3\python3.exe D:/Download/pycharmworkspace/s.py

    Points  Rank    Team  Year

0      876     1  Riders  2014

1      789     2  Riders  2015

2      863     2  Devils  2014

3      673     3  Devils  2015

4      741     3   Kings  2014

5      812     4   kings  2015

6      756     1   Kings  2016

7      788     1   Kings  2017

8      694     2  Riders  2016

9      701     4  Royals  2014

10     804     1  Royals  2015

11     690     2  Riders  2017

=======================================

<pandas.core.groupby.DataFrameGroupBy object at 0x000000000D6317B8>

=======================================

{'Kings': Int64Index([4, 6, 7], dtype='int64'), 'Riders': Int64Index([0, 1, 8, 11], dtype='int64'), 'Devils': Int64Index([2, 3], dtype='int64'), 'Royals': Int64Index([9, 10], dtype='int64'), 'kings': Int64Index([5], dtype='int64')}

=======================================

{('Kings', 2017): Int64Index([7], dtype='int64'), ('Riders', 2015): Int64Index([1], dtype='int64'), ('Kings', 2016): Int64Index([6], dtype='int64'), ('Riders', 2014): Int64Index([0], dtype='int64'), ('Royals', 2015): Int64Index([10], dtype='int64'), ('Royals', 2014): Int64Index([9], dtype='int64'), ('kings', 2015): Int64Index([5], dtype='int64'), ('Kings', 2014): Int64Index([4], dtype='int64'), ('Riders', 2017): Int64Index([11], dtype='int64'), ('Devils', 2014): Int64Index([2], dtype='int64'), ('Riders', 2016): Int64Index([8], dtype='int64'), ('Devils', 2015): Int64Index([3], dtype='int64')}

迭代遍历分组:

=======================================

2014

   Points  Rank    Team  Year

0     876     1  Riders  2014

2     863     2  Devils  2014

4     741     3   Kings  2014

9     701     4  Royals  2014

2015

    Points  Rank    Team  Year

1      789     2  Riders  2015

3      673     3  Devils  2015

5      812     4   kings  2015

10     804     1  Royals  2015

2016

   Points  Rank    Team  Year

6     756     1   Kings  2016

8     694     2  Riders  2016

2017

    Points  Rank    Team  Year

7      788     1   Kings  2017

11     690     2  Riders  2017

使用get_group()方法，可以选择一个组:

=======================================

   Points  Rank    Team  Year

0     876     1  Riders  2014

2     863     2  Devils  2014

4     741     3   Kings  2014

9     701     4  Royals  2014

=======================================

Year

2014    795.25

2015    769.50

2016    725.00

2017    739.00

Name: Points, dtype: float64

另一种查看每个分组的大小的方法是应用size()函数:

=======================================

        Points  Rank  Year

Team

Devils       2     2     2

Kings        3     3     3

Riders       4     4     4

Royals       2     2     2

kings        1     1     1

通过分组系列，还可以传递函数的列表或字典来进行聚合:

=======================================

         sum        mean         std

Team

Devils  1536  768.000000  134.350288

Kings   2285  761.666667   24.006943

Riders  3049  762.250000   88.567771

Royals  1505  752.500000   72.831998

kings    812  812.000000         NaN

分组或列上的转换返回索引大小与被分组的索引相同的对象。因此，转换应该返回与组块大小相同的结果。:

=======================================

       Points       Rank       Year

0   12.843272 -15.000000 -11.618950

1    3.020286   5.000000  -3.872983

2    7.071068  -7.071068  -7.071068

3   -7.071068   7.071068   7.071068

4   -8.608621  11.547005 -10.910895

5         NaN        NaN        NaN

6   -2.360428  -5.773503   2.182179

7   10.969049  -5.773503   8.728716

8   -7.705963   5.000000   3.872983

9   -7.071068   7.071068  -7.071068

10   7.071068  -7.071068   7.071068

11  -8.157595   5.000000  11.618950

=======================================

过滤根据定义的标准过滤数据并返回数据的子集。filter()函数用于过滤数据:

    Points  Rank    Team  Year

0      876     1  Riders  2014

1      789     2  Riders  2015

4      741     3   Kings  2014

6      756     1   Kings  2016

7      788     1   Kings  2017

8      694     2  Riders  2016

11     690     2  Riders  2017

=======================================

Process finished with exit code 0

pandas分组group的更多相关文章

Pandas分组（GroupBy）
任何分组(groupby)操作都涉及原始对象的以下操作之一.它们是 - 分割对象应用一个函数结合的结果在许多情况下,我们将数据分成多个集合,并在每个子集上应用一些函数.在应用函数中,可以执行以下 ...
Oracle 表分组 group by和模糊查询like
分组group by写法 select 字段名 from 表名 group by 字段名查询这个字段名里的种类分组后可以加聚合函数select 字段名,聚合函数 from 表名 group by 字 ...
MySQL数据分组Group By 和 Having
现有以下的学生信息表: 若果现在想计算每个班的平均年龄,使用where的操作如下: SELECT Cno AS 班级, AVG(Sage) AS 平均年龄 FROM stu ; 这样的话,有多少个班就 ...
mysql分组GROUP BY常用sql
数据分组 GROUP BY GROUP BY可以根据一个或多个字段进行分组. 比如,根据prod_id分组: SELECT prod_id ,user_id FROM products GROUP B ...
第17课-数据库开发及ado.net 聚合函数,模糊查询like,通配符.空值处理.order by排序.分组group by-having.类型转换-cast,Convert.union all; Select 列 into 新表;字符串函数;日期函数
第17课-数据库开发及ado.net 聚合函数,模糊查询like,通配符.空值处理.order by排序.分组group by-having.类型转换-cast,Convert.union all; ...
TFS二次开发10——分组(Group)和成员(Member)
TFS SDK 10 ——分组(Group)和成员(Member) 这篇来介绍怎样读取TFS服务器上的用户信息首先TFS默认有如下分组(Group): SharePoint Web Applicat ...
Pandas分组运算（groupby）修炼
Pandas分组运算(groupby)修炼 Pandas的groupby()功能很强大,用好了可以方便的解决很多问题,在数据处理以及日常工作中经常能施展拳脚. 今天,我们一起来领略下groupby() ...
【SQL】分组数据，过滤分组-group by , having
学习笔记,原文来自http://blog.csdn.net/robinjwong/article/details/24845125 创建分组 - GROUP BY 分组是在SELECT语句的GROUP ...
pandas分组和聚合
Pandas分组与聚合分组 (groupby) 对数据集进行分组,然后对每组进行统计分析 SQL能够对数据进行过滤,分组聚合 pandas能利用groupby进行更加复杂的分组运算分组运算过程:s ...

随机推荐

转载 jQuery和js自定义函数和文件的方法（全网最全）
jQuery和js自定义函数和文件的方法(全网最全) 版权声明:本文为像雾像雨又像风_http://blog.csdn.net/topdandan的原创文章,未经允许不得转载. https:// ...
the security of smart contract- 1
https://blog.zeppelin.solutions/the-hitchhikers-guide-to-smart-contracts-in-ethereum-848f08001f05 这个 ...
让sublime text3支持Vue语法高亮显示
文章转自 http://www.cnblogs.com/kongxianghai/p/6732429.html 1.准备语法高亮插件vue-syntax-highlight. 下载地址: https: ...
1896 互不侵犯洛谷 luogu
题目描述在N×N的棋盘里面放K个国王,使他们互不攻击,共有多少种摆放方案.国王能攻击到它上下左右,以及左上左下右上右下八个方向上附近的各一个格子,共8个格子. 注:数据有加强(2018/4/25) ...
Oracle 在存储过程或函数中执行字符串sql
有时,我们需要在存储过程或函数中根据条件拼凑一些sql字符串语句,然后再执行拼凑后的sql字符串,如何做到呢? 参考以下代码: FUNCTION CALCULATE_TARGET_SCORE (CUR ...
7、存储类 & 作用域 & 生命周期 & 链接属性
概念解析存储类存储类就是存储类型,也就是描述C语言变量在何种地方存储. 内存有多种管理方法:栈.堆.数据段.bss段..text段······一个变量的存储类属性就是描述这个变量存储在何种内存段中 ...
清除EasyUi combotree下拉树的值
由于测试自带的$(“node”).combotree("clear');问题始终解决不了最终方法: Hdata是JSON数据源, 在它动态加在成功之后(节点全部显示出来,并且可以选择)再清 ...
[Oracle]OWI学习笔记--001
[Oracle]OWI学习笔记--001 在 OWI 的概念里面,最为重要的是等待事件和等待时间. 等待事件发生时,需要通过 P1,P2,P3 查看具体的资源. 可以通过 v$session_w ...
一致性哈希(hash)算法
一.算法背景一致性哈希算法在1997年由麻省理工学院的Karger等人在解决分布式Cache中提出的,设计目标是为了解决因特网中的热点(Hot spot)问题,初衷和CARP十分类似.一致性哈希修正 ...
linux下安装redis组件报错-gcc报错
报错如图: 1.解决办法先安装gcc插件.删除redis解压后文件.重新解压

pandas分组group

pandas分组group的更多相关文章

随机推荐

热门专题