Pandas透视表和交叉表

透视表

参数名	说明
values	待聚合的列的名称。默认聚合所有数值列
index	用于分组的列名或其他分组键,出现在结果透视表的行
columns	用于分组的列表或其他分组键，出现在结果透视表的列
aggfunc	聚合函数或函数列表,默认为'mean',可以是任何对groupby有效的函数
fill_value	用于替换结果表中的缺失值
margins	添加行/列小计和总计,默认为False

# pivot_table默认聚合分组平均数

tips = pd.read_csv('C:/Users/1/Desktop/tips.csv')

tips.pivot_table(index=['sex','smoker'])

                    size	  tip	    total_bill

sex	    smoker

Female	    No	2.592593	2.773519	18.105185

           Yes	2.242424	2.931515	17.977879

Male	    No	2.711340	3.113402	19.791237

           Yes	2.500000	3.051167	22.284500

# 聚合小费的比例和人数的多少，根据天数进行分组

tips['tip_pct'] = tips.tip / tips.total_bill

tips.pivot_table(['tip_pct','size'],index=['sex','day'],columns='smoker')

                size	                tip_pct

smoker	          No	   Yes	        No	      Yes

sex	    day

Female	Fri	  2.500000	2.000000	0.165296	0.209129

        Sat	  2.307692	2.200000	0.147993	0.163817

        Sun	  3.071429	2.500000	0.165710	0.237075

        Thur  2.480000	2.428571	0.155971	0.163073

Male	Fri	  2.000000	2.125000	0.138005	0.144730

        Sat	  2.656250	2.629630	0.162132	0.139067

        Sun	  2.883721	2.600000	0.158291	0.173964

        Thur  2.500000	2.300000	0.165706	0.164417

# margins=True，会开启一列ALL的行和列，其值对应于单个等级中所有数据的分组统计。

tips.pivot_table(['tip_pct','size'],index=['sex','day'],columns='smoker',margins=True)

                size	                                  tip_pct

    smoker	  No	       Yes	      All	       No	      Yes	       All

sex	    day

Female	Fri	2.500000	2.000000	2.111111	0.165296	0.209129	0.199388

        Sat	2.307692	2.200000	2.250000	0.147993	0.163817	0.156470

        Sun	3.071429	2.500000	2.944444	0.165710	0.237075	0.181569

        Thur2.480000	2.428571	2.468750	0.155971	0.163073	0.157525

Male	Fri	2.000000	2.125000	2.100000	0.138005	0.144730	0.143385

        Sat	2.656250	2.629630	2.644068	0.162132	0.139067	0.151577

        Sun	2.883721	2.600000	2.810345	0.158291	0.173964	0.162344

        Thur2.500000	2.300000	2.433333	0.165706	0.164417	0.165276

All		    2.668874	2.408602	2.569672	0.159328	0.163196	0.160803

# aggfunc可以直接接受聚合函数，len可以统计分组大小的交叉表

# 根据性别，是否吸烟对每天的人数进行统计

tips.pivot_table('tip_pct',index=['sex','smoker'],columns='day',aggfunc=len,margins=True)

day	        Fri	     Sat	Sun	    Thur	All

sex	  smoker

Female	No	 2.0	13.0	14.0	25.0	54.0

        Yes	 7.0	15.0	4.0	    7.0	    33.0

Male	No	 2.0	32.0	43.0	20.0	97.0

        Yes	 8.0	27.0	15.0	10.0	60.0

All		     19.0	87.0	76.0	62.0	244.0

# 如果存在空的组合，可以设置空值fill_value

tips.pivot_table('size',index=['time','sex','smoker'],columns='day',aggfunc='sum',fill_value=0)

         day	     Fri	Sat	 Sun	Thur

time	sex	   smoker

Dinner	Female	No	  2	     30	 43	     2

               Yes	  8	     33	 10	     0

Male	        No	  4	     85	 124	 0

               Yes	  12	 71	 39	     0

Lunch	Female	No	  3	      0	  0	    60

                Yes	  6	      0	  0	    17

        Male	No	  0	      0	  0	    50

                Yes	  5	      0	  0	    23

交叉表: crosstab

是一种用于计算分组频率的特殊透视表

data = [[1,'Female','Right-handed'],

        [2,'Male','Left-handed'],

        [3,'Female','Right-handed'],

        [4,'Male','Right-handed'],

        [5,'Male','Left-handed'],

        [6,'Male','Right-handed'],

        [7,'Female','Right-handed'],

        [8,'Female','Left-handed'],

        [9,'Male','Right-handed'],

        [10,'Female','Right-handed']]

data = pd.DataFrame(data,columns=['Sample','Gender','Handedness'])

# 前两个参数可以是数组、Series或数组列表

# 根据性别和用手习惯对这段数据进行统计汇总

pd.crosstab(data.Gender,data.Handedness,margins=True)

Handedness	Left-handed	Right-handed	All

 Gender

 Female	          1	          4	         5

   Male	          2	          3	         5

   All	          3	          7	        10

# 这是传统的透视表,比较复杂点比交叉表

pd.pivot_table(data,index=['Gender'],columns=['Handedness'],aggfunc=len,margins=True)

             Sample

Handedness	Left-handed	Right-handed	All

Gender

Female	         1	         4	         5

Male	         2	         3 	         5

All	             3	         7	         10

# 根据时间，星期几进行了对每天的是否吸烟人数分组统计

pd.crosstab([tips.time,tips.day],tips.smoker,margins=True)

      smoker	No	  Yes	All

time	day

Dinner	Fri	    3	   9	12

        Sat	    45	  42	87

        Sun	    57	  19	76

        Thur	1	   0	1

Lunch	Fri	    1	   6	7

        Thur	44	  17	61

        All		151	  93	244

Pandas透视表和交叉表的更多相关文章

pandas_使用透视表与交叉表查看业绩汇总数据
# 使用透视表与交叉表查看业绩汇总数据 import pandas as pd import numpy as np import copy # 设置列对齐 pd.set_option("d ...
2018.03.29 python-pandas 数据透视pivot table / 交叉表crosstab
#透视表 pivot table #pd.pivot_table(data,values=None,index=None,columns=None, import numpy as np import ...
【每日一学】pandas_透视表函数&交叉表函数
每日一悟 [分开工作内外8小时] 前一个月,我经常把工作内的问题带到路上.地铁上.睡觉前,甚至是周末. 然而很快发现,我工作外的成就几乎没有,而工作内的进展也并不理想. 仔细想想,工作外是需要学新东西 ...
FastReport的交叉表实际使用的一个例子
计算发行-->定义份数月表(打开)出现 PosFraisPaysInput选择时间段后,点击“打印”.这个设计表格,就是交叉表. 交叉表的特点是:数据库是一条一条并列的但是出来的结果却是:横向是 ...
RS导出Excel交叉表角对应的列占用多列问题
在Cognos报表展示的时候,很多用户为了计算会把数据报表导出成excel然后再做统计,于是乎我做的一张报表导出成Excel的时候就出现了这样的问题从上图可以看出交叉表角对应的列 ‘一级手术’和‘二 ...
pandas 之交叉表-透视表
import numpy as np import pandas as pd 认识 A pivot table is a data summarization tool(数据汇总工具) frequen ...
pandas交叉表和透视表及案例分析
一.交叉表: 作用: 交叉表是一种用于计算分组频率的特殊透视图,对数据进行汇总考察预测数据和正式数据的对比情况,一个作为行,一个作为列案例: 医院预测病人病情: 真实病情如下数组(B:有病,M:没 ...
Pandas透视表（pivot_table）详解
介绍也许大多数人都有在Excel中使用数据透视表的经历,其实Pandas也提供了一个类似的功能,名为pivot_table.虽然pivot_table非常有用,但是我发现为了格式化输出我所需要的内容 ...
通过sql做数据透视表，数据库表行列转换(pivot和Unpivot用法)（一）
在mssql中大家都知道可以使用pivot来统计数据,实现像excel的透视表功能一.MSsqlserver中我们通常的用法 1.Sqlserver数据库测试 ---创建测试表 Create tab ...

随机推荐

ios同步线程(dispatch_sync)保证代码在主线程中执行
- (BOOL)transitionToNextPhase { // 保证代码在主线程 if (![[NSThread currentThread] isMainThread]) { dispatch ...
python基础知识13---函数对象、函数嵌套、名称空间与作用域、装饰器
阅读目录一函数对象二函数嵌套三名称空间与作用域四闭包函数五装饰器六练习题一函数对象 1 函数是第一类对象,即函数可以当作数据传递 #1 可以被引用 #2 可以当作参数传递 ...
简单的爬虫爬的完整的<img>标签，修改正则即可修改爬取内容
简单的爬虫爬的完整的<img>标签,生成<img>标签结果文件与爬虫经历的网页. <?php/** 从给定的url获取html内容** */function _getUr ...
利用微信支付的订单查询接口可以在APP 中提高支付的可靠性
最近公司有一个应用,用户可以在微信公众号上面下单,也可以在APP 中下单. 当用户在公共号上面下单时,微信支付成功可以返回微信支付单号,但是在APP 中用户微信支付时,个别时候会出现用户已经付款成功, ...
[UE4]快速移动，给单位向量加一个力
一.(Vector_End- Vector_Start ).Normalize,获取从起始位置指向目标位置的单位向量. 二.给单位向量乘以一个浮点数,即给向量加一个力,是往向量方向移动每一帧往目标点 ...
LeetCode【112. 路径总和】
思路就是从根节点开始向下选节点,依次与sum比较大小,若小,则向下选左右节点其中一个,若大,则接下来判断是否是叶子节点,若是,则返回false 若不是,则上一步选另一节点,再将上述重新执行. 对于叶子 ...
Redis深入学习笔记（六）Redis内存分配
Redis的高效可以说是轻量级的epoll模型和基于内存的读写共同组成的,关于epoll对于以前的select或者poll的性能优势这里不做介绍,本篇主要介绍领一个重点,Redis的内存分配原理. 获 ...
JS获取option的value和text
window.onload = function(){ //首先获得下拉框的节点对象: var select = document.getElementById("s1"); // ...
Oracle不常用SQL
Oracle 查询最近创建的表 select * from user_objects where object_type='TABLE' order by created desc Oracle 查询 ...
C#创建windows服务并发布
创建window 服务新建一个window 服务项目MyService,如下图切换到代码视图修改. using System; using System.Collections.Generic; ...

Pandas透视表和交叉表

透视表

交叉表: crosstab

是一种用于计算分组频率的特殊透视表

Pandas透视表和交叉表的更多相关文章

随机推荐

热门专题