pandas之分组计算笔记

分组计算三部曲：拆分-->应用-->合并

分组：就是按照行或列把相同索引的部分分到一起

分组的关键词为groupby，分组后我们就可以对每组数据进行同一操作，返回的是每组数据分别计算后的结果

 import pandas as pd

 import numpy as np

 # 先创建一个DataFrame

 df = pd.DataFrame({

     'key1':['a','a','b','b','a'],

     'key2':['one','two','one','two','one'],

     'data1':np.random.randint(1,10,5),

     'data2':np.random.randint(1,10,5)

 })

 df['data1'].groupby(df['key1']).mean()

 # 对data1列采用key1列分组并求平均值，所谓分组，就是把相同的行或列分到一起

 # 然后就可以分别对这些分好的组进行一系列操作

 key = [1,2,1,1,2]  # 也可以给出任意索引键，自定义分组

 df['data1'].groupby(key).mean()  # 这时就会把相同索引的值分到一起

 df['data1'].groupby([df['key1'],df['key2']]).size()

 mean = df.groupby(['key1','key2']).sum()['data1']

 # 也可进行再分组，可以先把key1先分组，在此基础上再以key2索引进行分组

 # 输出的mean

     key1  key2

     a       one     11

              two      4

     b       one      1

              two      9

     Name: data1, dtype: int32

 mean.unstack()  # 这个方式可以转换为DataFrame

 # 通过分组key1，将其创键为字典，可以很清晰看出分组的实际意义

 dict(list(df.groupby('key1')))

 # 输出

 {'a':   key1 key2  data1  data2

  0    a  one      5      7

  1    a  two      4      4

  4    a  one      6      2, 'b':   key1 key2  data1  data2

  2    b  one      1      3

  3    b  two      9      8}

 # 以上是进行行分组，也可以进行列分组

 df.groupby(df.dtypes, axis=1).sum()  # axis=1表示按列分组

 df.dtypes  # 区分的是每列的数据类型

 # 它的输出结果

 key1     object

 key2     object

 data1     int32

 data2     int32

 dtype: object

pandas之分组计算笔记的更多相关文章

python库学习笔记——分组计算利器：pandas中的groupby技术
最近处理数据需要分组计算,又用到了groupby函数,温故而知新. 分组运算的第一阶段,pandas 对象(无论是 Series.DataFrame 还是其他的)中的数据会根据你所提供的一个或多个键被 ...
Pandas：表计算与数据分析
目录 Pandas之Series Pandas之DataFrame 一.pandas简单介绍 1.pandas是一个强大的Python数据分析的工具包.2.pandas是基于NumPy构建的. 3.p ...
devexpress表格gridcontrol实现分组，并根据分组计算总计及平均值
1.devexpress表格控件gridcontrol提供了强大的分组功能,你几乎不用写什么代码就可以实现一个分组功能,并且可根据分组计算总计和平均值.这里我例举了一个实现根据班级分组计算班级总人数, ...
R 分组计算描述性统计量
统计学区内各个小区的房价均值数据格式 id|community_name|house_area|house_structure|house_total|house_avg|agency_name|h ...
动态可视化数据可视化之魅D3,Processing,pandas数据分析,科学计算包Numpy,可视化包Matplotlib,Matlab语言可视化的工作,Matlab没有指针和引用是个大问题
动态可视化数据可视化之魅D3,Processing,pandas数据分析,科学计算包Numpy,可视化包Matplotlib,Matlab语言可视化的工作,Matlab没有指针和引用是个大问题 D3 ...
spark 例子groupByKey分组计算2
spark 例子groupByKey分组计算2 例子描述: 大概意思为,统计用户使用app的次数排名原始数据: 000041b232,张三,FC:1A:11:5C:58:34,F8:E7:1E:1E ...
spark 例子groupByKey分组计算
spark 例子groupByKey分组计算例子描述: [分组.计算] 主要为两部分,将同类的数据分组归纳到一起,并将分组后的数据进行简单数学计算. 难点在于怎么去理解groupBy和groupBy ...
数据分析之Pandas和Numpy学习笔记(持续更新)<1>
pandas and numpy notebook 最近工作交接,整理电脑资料时看到了之前的基于Jupyter学习数据分析相关模块学习笔记.想着拿出来分享一下,可是Jupyter导出来h ...
pandas库的学习笔记
Environment pandas 0.21.0 python 3.6 jupyter notebook 开始习惯上,我们导入如下: import pandas as pd import nump ...

随机推荐

chrome中的base64和nodejs中的base64
谷歌浏览器的base64 window["atob"](_0x1c0cdf) nodejs对应的是 Buffer.from(_0x1c0cdf,"base64" ...
Kettle中ETL的效率优化
ETL效率优化开启数据库日志记录及性能监控如果我们想要优化一个ETL(KTR或者KJB)的性能,我们首先需要知道的就是它的瓶颈在哪里.而这些信息一般只能在ETL运行的步骤度量中看到,并且是不会持久 ...
keras多层感知机MLP
肯定有人要说什么多层感知机,不就是几个隐藏层连接在一起的吗.话是这么说,但是我觉得我们首先要自己承认自己高级,不然怎么去说服(hu nong)别人呢 from keras.models import ...
SpringBoot之封装json对象返回json数据
/** * @description:封装json对象,所有返回结果都使用它 **/ public class Result<T> { private int code;// 业务自定义状 ...
CentOS7下搭建zabbix监控（二）——Zabbix被监控端配置
Zabbix监控端配置请查看:CentOS7下搭建zabbix监控(一)——Zabbix监控端配置 (1).在CentOS7(被监控端)上部署Zabbix Agent 主机名:youxi2 IP地址: ...
123456123456#0#-----com.threeapp.xiongMaoPaoPao01----熊猫跑酷01
com.threeapp.xiongMaoPaoPao01----熊猫跑酷01
微信支付相关,如何获取API证书
参考腾讯官方文档: http://kf.qq.com/faq/161222NneAJf161222U7fARv.html?pass_ticket=4K97qCCjgTaO4WwN1x%2BCdKEqL ...
nmap探测大网络空间中的存活主机
前言扫描大网络空间中的存活主机实现 nmap -v -sn -PE -n --min-hostgroup 1024 --min-parallelism 1024 -oX nmap_output.x ...
02.提交bug
写代码最烦的也就是修复bug了,虽然这个避无可避…………………… a. bug的严重级别设置 1级:影响主要流程 ->在bug 的影响下,主流程测试无法向下进行 2级:影响核心功能 -> ...
halcon学习_字符识别1
实例图片大体步骤:1.读取图片 2.图像预处理(阈值分割,提取标签部分,缩小处理区域) 3.将标签区域的最小外接矩形,从原图中剪 ...

pandas之分组计算笔记

pandas之分组计算笔记的更多相关文章

随机推荐

热门专题