Pandas分组级运算和转换

分组级运算和转换

假设要添加一列的各索引分组平均值

第一种方法

import pandas as pd

from pandas import Series

import numpy as np

df = pd.DataFrame([[-2.04708,1.393406,'a','one'],

              [0.478943,0.092908,'a','two'],

              [-0.519439,0.281746,'b','one'],

              [-0.555730,0.769023,'b','two'],

              [1.965781,1.246435,'a','one'],

             ], columns=['data1','data2','key1','key2'])

df

        data1	  data2	   key1	key2

0	-2.047080	1.393406	a	one

1	0.478943	0.092908	a	two

2	-0.519439	0.281746	b	one

3	-0.555730	0.769023	b	two

4	1.965781	1.246435	a	one

# 先聚合求出平均值

key1_means = df.groupby('key1').mean().add_prefix('mean_')

key1_means

       mean_data1  mean_data2

key1

a	   0.132548	  0.910916

b	  -0.537584	  0.525385

# 在通过聚合函数加到DataFrame

pd.merge(df, key1_means,left_on='key1', right_index=True)

       data1	  data2	  key1	key2	mean_data1	mean_data2

0	-2.047080	1.393406	a	one	     0.132548	0.910916

1	0.478943	0.092908	a	two	     0.132548	0.910916

4	1.965781	1.246435	a	one	     0.132548	0.910916

2	-0.519439	0.281746	b	one	    -0.537584	0.525385

3	-0.555730	0.769023	b	two	    -0.537584	0.525385

第二种方法 transform，会将一个函数应用到各个分组，有严格条件，要么传入可以广播的标量，要么产生一个相同大小的结果数组

df_mean = df.groupby('key2').transform(np.mean).add_prefix('mean_')

df_mean

    mean_data1	mean_data2

0	-0.200246	0.973862

1	-0.038393	0.430966

2	-0.200246	0.973862

3	-0.038393	0.430966

4	-0.200246	0.973862

pd.concat([df,df_mean],axis=1)

      data1	      data2	  key1	key2  data1	     data2

0	-2.047080	1.393406	a	one	-0.200246	0.973862

1	0.478943	0.092908	a	two	-0.038393	0.430966

2	-0.519439	0.281746	b	one	-0.200246	0.973862

3	-0.555730	0.769023	b	two	-0.038393	0.430966

4	1.965781	1.246435	a	one	-0.200246	0.973862

apply一般性的'拆分-应用-合并'

apply会将待处理的对象拆分成多个片段，然后对各片段调用传入的函数,最后尝试将各片段组合到一起

# 选取指定列具有最大值的行的函数

def top(df, n=3, column='tip_pct'):

    return df.sort_index(by=column)[-n:]

tips = pd.read_csv('C:/Users/1/Desktop/tips.csv')

tips['tip_pct'] = tips['tip']/tips['total_bill']

tips.head()

 total_bill	tip	      sex	smoker	day	 time	size	tip_pct

0	16.99	 1.01	Female	 No	    Sun	Dinner	2	   0.059447

1	10.34	 1.66	Male	 No	    Sun	Dinner	3	   0.160542

2	21.01	 3.50	Male	 No	    Sun	Dinner	3	   0.166587

3	23.68	 3.31	Male	 No	    Sun	Dinner	2	   0.139780

4	24.59	 3.61	Female	 No	    Sun	Dinner	4	   0.146808

# 选取前三个最大值

top(tips,n=3)

total_bill	tip	     sex	smoker	day	time	size	tip_pct

67	3.07	1.00	Female	Yes	    Sat	Dinner	 1	   0.325733

178	9.60	4.00	Female	Yes	    Sun	Dinner	 2	   0.416667

172	7.25	5.15	Male	Yes	    Sun	Dinner	 2	   0.710345

# 按是否吸烟分组，选前三个最大的值

# 过程是top函数在各个片段上调用后，结果由pandas.concat组装到一起

tips.groupby('smoker').apply(top)

             total_bill	tip	     sex  smoker  day	time	size	 tip_pct

smoker

No	   51	    10.29	2.60	Female	No	  Sun	Dinner	 2	     0.252672

       149	    7.51	2.00	Male	No	  Thur	Lunch	 2	     0.266312

       232	    11.61	3.39	Male	No	  Sat	Dinner	 2	     0.291990

Yes	   67	    3.07	1.00	Female	Yes	  Sat	Dinner	 1	     0.325733

       178	    9.60	4.00	Female	Yes	  Sun	Dinner	 2	     0.416667

       172	    7.25	5.15	Male	Yes	  Sun	Dinner	 2	     0.710345

# 如果传给apply的函数能够接受其他参数或关键字，则可以将这些一并传入

# 总花费的钱，按是否吸烟和每周的天数来找出每天其中价格最高的，n代表返回的数据前几个

tips.groupby(['smoker','day']).apply(top, n=1, column='total_bill')

	          total_bill	tip	     sex	smoker	   day	time	size	tip_pct

smoker day

No	   Fri	94	22.75	    3.25	Female	No	       Fri	Dinner	 2	    0.142857

       Sat	212	48.33	    9.00	Male	No	       Sat	Dinner	 4	    0.186220

       Sun	156	48.17	    5.00	Male	No	       Sun	Dinner	 6	    0.103799

       Thur	142	41.19	    5.00	Male	No	       Thur	Lunch	 5	    0.121389

Yes	   Fri	95	40.17	    4.73	Male	Yes	       Fri	Dinner	 4	    0.117750

       Sat	170	50.81	   10.00	Male	Yes	       Sat	Dinner	 3	    0.196812

       Sun	182	45.35	    3.50	Male	Yes	       Sun	Dinner	 3	    0.077178

       Thur	197	43.11	    5.00	Female	Yes	       Thur	Lunch	 4	    0.115982

# 分组调用describe的方法

tips.groupby('smoker')['tip_pct'].describe().T

smoker	   No	       Yes

count	151.000000	93.000000

mean	0.159328	0.163196

std	    0.039910	0.085119

min	    0.056797	0.035638

25%	    0.136906	0.106771

50%	    0.155625	0.153846

75%	    0.185014	0.195059

max	    0.291990	0.710345

# 本质是,下面两行代码的快捷键而已

f = lambda x:x.describe()

tips.groupby('smoker')['tip_pct'].apply(f).unstack('smoker')

smoker	    No	      Yes

count	151.000000	93.000000

mean	0.159328	0.163196

std	    0.039910	0.085119

min	    0.056797	0.035638

25%	    0.136906	0.106771

50%	    0.155625	0.153846

75%	    0.185014	0.195059

max	    0.291990	0.710345

# 禁用层次化索引

tips.groupby('smoker',group_keys=False).apply(top)

    total_bill	tip	     sex	smoker	day	    time	  size	 tip_pct

51	   10.29	2.60	Female	  No	Sun	   Dinner	   2	0.252672

149	    7.51	2.00	Male	  No	Thur   Lunch	   2	0.266312

232	   11.61	3.39	Male	  No	Sat	   Dinner	   2	0.291990

67	   3.07	    1.00	Female	  Yes	Sat	   Dinner	   1	0.325733

178	   9.60	    4.00	Female	  Yes	Sun	   Dinner	   2	0.416667

172	   7.25	    5.15	Male	  Yes	Sun	   Dinner	   2	0.710345

分位数和桶分析



frame = pd.DataFrame({'data1':np.random.randn(1000),

                      'data2':np.random.randn(1000)})

factor = pd.cut(frame['data1'],4)

factor[:5]

0    (-1.573, 0.112]

1    (-1.573, 0.112]

2    (-1.573, 0.112]

3    (-1.573, 0.112]

4    (-1.573, 0.112]

Name: data1, dtype: category

Categories (4, interval[float64]): [(-3.264, -1.573] < (-1.573, 0.112] < (0.112, 1.797] < (1.797, 3.482]]

def get_stats(group):

    return {'min':group.min(),'max':group.max(),'count':group.count(),'mean':group.mean()}

# 长度即每个区间相等的桶(区间大小相等)

frame.data2.groupby(factor).apply(get_stats).unstack()

                 count	  max	      mean	        min

data1

(-3.264, -1.573]  57.0	3.236024	0.100749	-2.149984

(-1.573, 0.112]	  484.0	2.843239	-0.058549	-3.606913

(0.112, 1.797]	  425.0	2.614935	0.065693	-3.463799

(1.797, 3.482]	  34.0	1.791511	-0.049641	-1.756306

# 大小相等的桶,labels关闭区间名称（数据点数量相等）

ppp = pd.qcut(frame['data1'],4,labels=False)

frame.data2.groupby(ppp).apply(get_stats).unstack()

    count	   max	      mean	       min

data1

0	250.0	3.236024	-0.032592	-2.750112

1	250.0	2.843239	-0.068005	-3.606913

2	250.0	2.614935	0.103220	-2.380858

3	250.0	2.612170	0.011922	-3.463799

Pandas分组级运算和转换的更多相关文章

Pandas分组运算（groupby）修炼
Pandas分组运算(groupby)修炼 Pandas的groupby()功能很强大,用好了可以方便的解决很多问题,在数据处理以及日常工作中经常能施展拳脚. 今天,我们一起来领略下groupby() ...
pandas分组和聚合
Pandas分组与聚合分组 (groupby) 对数据集进行分组,然后对每组进行统计分析 SQL能够对数据进行过滤,分组聚合 pandas能利用groupby进行更加复杂的分组运算分组运算过程:s ...
pandas分组统计：groupby，melt，pivot_table，crosstab的用法
groupby: 分组 melt: 宽表转长表 pivot_table: 长表转宽表,数据透视表 crosstab: 交叉表 / 列联表,主要用于分组频数统计 import numpy as np i ...
pandas分组运算（groupby）
1. groupby() import pandas as pd df = pd.DataFrame([[1, 1, 2], [1, 2, 3], [2, 3, 4]], columns=[" ...
Pandas 分组聚合
# 导入相关库 import numpy as np import pandas as pd 创建数据 index = pd.Index(data=["Tom", "Bo ...
Python Pandas分组聚合
Pycharm 鼠标移动到函数上,CTRL+Q可以快速查看文档,CTR+P可以看基本的参数. apply(),applymap()和map() apply()和applymap()是DataFrame ...
Pandas分组
GroupBy技术分组运算的过程可以用下面的流程图表示出来 import pandas as pd from pandas import Series import numpy as np df = ...
pandas分组group
Pandas对象可以分成任何对象.有多种方式来拆分对象,如 - obj.groupby(‘key’) obj.groupby([‘key1’,’key2’]) obj.groupby(key,axis ...
Pandas分组（GroupBy）
任何分组(groupby)操作都涉及原始对象的以下操作之一.它们是 - 分割对象应用一个函数结合的结果在许多情况下,我们将数据分成多个集合,并在每个子集上应用一些函数.在应用函数中,可以执行以下 ...

随机推荐

ios开发的frame、物理屏幕尺寸和图片分辨率
型号屏幕尺寸(inch) 逻辑分辨率(point) 缩放因子(scale factor) 物理分辨率(pixel) 像素密度(PPI) iPhone3GS 3.5 320 * 480 @1x 320 ...
microsoft.jet.oledb.4.0 未注册
64位系统已经不支持4.0 解决办法 1.下载 ACE2010的驱动,64位的. http://www.microsoft.com/downloads/zh-cn/details.aspx?famil ...
android 显示大图模糊问题
使用Glide 版本为4.8.0 /* */ Glide.with(context).asBitmap().load(url).into(new SimpleTarget<Bitmap>( ...
Hibernate查询部分字段并封装到指定类中
Hibernate 使用查询部分/指定字段,有几种字现方式: 第一种方式是通过HQL语句实现,类似SQL,方法如下: String hql = "select id,name from Li ...
使用SimpleDateFormat类来实现时间跟字符串的转化
使用Date和SimpleDateFormat类表示时间 1.Date类需要处理日期和时间的相关数据时可以使用 java.util 包中的 Date 类,这个类最主要的作用就是获取当前时间.下面看看 ...
jmeter向ActiveMQ发送消息_广播/订阅(Topics 队列)
问题描述:测试中需要模拟大量设备的消息上报到平台,但是实际测试中没有那么多设备,所以采取用jmeter直接往ActiveMQ模拟发送设备消息解决思路:获取平台采取的是Queues还是Topics : ...
C#类与结构体的小结
1.定义不同类使用class关键字来定义: 结构体用struct: 2.使用时的注意事项 ->结构体是值类型,类是引用类型 ->结构体中声明的变量不能做赋值操作,但是类可以. -> ...
send_keys results in Expected 【object Undefined】undefined to be a string解决方法：更新selenium+geckodriver+firefox
很久之前在win10上配置的测试环境: python 3.6.1+ selenium 3.3.3+ geckodriver 0.15.0以前run case是正常的,今天去run 同样的case时发现 ...
leetCode70.爬楼梯
假设你正在爬楼梯.需要 n 阶你才能到达楼顶. 每次你可以爬 1 或 2 个台阶.你有多少种不同的方法可以爬到楼顶呢? 注意:给定 n 是一个正整数. 示例 1: 输入: 2 输出: 2 解释: 有两 ...
qt button clicked(bool) always false
今天用 qt 中的按键的时候,希望按键有两种状态,通过 clicked(bool) 发送信号给槽,结果一直发的是 false,不能为 true,后来终于找到问题了,有两种解决方法. 在 button ...

Pandas分组级运算和转换

分组级运算和转换

第一种方法

第二种方法 transform，会将一个函数应用到各个分组，有严格条件，要么传入可以广播的标量，要么产生一个相同大小的结果数组

apply一般性的'拆分-应用-合并'

分位数和桶分析

Pandas分组级运算和转换的更多相关文章

随机推荐

热门专题