2018.03.29 python-pandas transform/apply 的使用
#一般化的groupby方法:apply
df = pd.DataFrame({'data1':np.random.rand(5),
'data2':np.random.rand(5),
'key1':list('aabba'),
'key2':['one','two','one','two','one']})
print(df)
#print(df.groupby('key1').apply(lambda x:x.describe()))
#apply直接运算其中的函数
#这里是匿名函数,直接描述分组后的统计量 def f_df1(d,n):
return(d.sort_index()[:n]) #返回排序后的前n行数据
def f_df2(d,k1):
return(d[k1])#返回分组后表的k1列,结果为series,层次化索引
print(df.groupby('key1').apply(f_df1,2),'\n')#引入自己创建的函数,注意书写格式,f_df1的第一个参数默认df 第二个参数,2的形式
print(df.groupby('key1').apply(f_df2,'data2'))
#直接运行f_df函数
#参数直接写在后面,也可以写为:.apply(f_df,n=2)
结果:
data1 data2 key1 key2
0 0.253473 0.731034 a one
1 0.531445 0.061414 a two
2 0.733180 0.122293 b one
3 0.550177 0.115940 b two
4 0.101753 0.510581 a one
data1 data2 key1 key2
key1
a 0 0.253473 0.731034 a one
1 0.531445 0.061414 a two
b 2 0.733180 0.122293 b one
3 0.550177 0.115940 b two key1
a 0 0.731034
1 0.061414
4 0.510581
b 2 0.122293
3 0.115940
Name: data2, dtype: float64
# 数据分组转换 .transform
import numpy as np
import pandas as pd
df = pd.DataFrame({'data1':np.random.rand(5),
'data2':np.random.rand(5),
'key1':list('aabba'),
'key2':['one','two','one','two','one']})
print(df)
k_mean = df.groupby('key1').mean()
print(k_mean)
print(pd.merge(df,k_mean,left_on = 'key1',right_index = True).add_prefix('mean_'))#.add_profix('mean_'):增添前缀
print('------')
#通过分组,合并,得到一个包含均值的Dataframe 以key1位分组的列均值 print(df.groupby('key2').mean())#按照key2分组求均值
print(df.groupby('key2').transform(np.mean))
#data1,data2每个位置的元素取对应分组列的均值
#字符串不能进行计算
结果:
data1 data2 key1 key2
0 0.845365 0.411704 a one
1 0.300226 0.411719 a two
2 0.476632 0.628493 b one
3 0.985675 0.304024 b two
4 0.418804 0.229940 a one
data1 data2
key1
a 0.521465 0.351121
b 0.731153 0.466258
mean_data1_x mean_data2_x mean_key1 mean_key2 mean_data1_y mean_data2_y
0 0.845365 0.411704 a one 0.521465 0.351121
1 0.300226 0.411719 a two 0.521465 0.351121
4 0.418804 0.229940 a one 0.521465 0.351121
2 0.476632 0.628493 b one 0.731153 0.466258
3 0.985675 0.304024 b two 0.731153 0.466258
------
data1 data2
key2
one 0.580267 0.423379
two 0.642951 0.357872
data1 data2
0 0.580267 0.423379
1 0.642951 0.357872
2 0.580267 0.423379
3 0.642951 0.357872
4 0.580267 0.423379
2018.03.29 python-pandas transform/apply 的使用的更多相关文章
- 2018.03.27 python pandas merge join 使用
#2.16 合并 merge-join import numpy as np import pandas as pd df1 = pd.DataFrame({'key1':['k0','k1','k2 ...
- 2018.03.29 python-matplotlib 图表生成
'''Matplotlib -> 一个python版的matlab绘图接口,以2D为主,支持python,numpy,pandas基本数据结构,高效图标库''' import numpy as ...
- 2018.03.29 python-pandas 数据读取
#数据读取# read_table,read_csv,read_excel #读取普通分隔数据:read_table #可以读取txt,csv import os import pandas as p ...
- 2018.03.29 python-pandas 数据透视pivot table / 交叉表crosstab
#透视表 pivot table #pd.pivot_table(data,values=None,index=None,columns=None, import numpy as np import ...
- 2018/03/29 每日一个Linux命令 之 ping
ping 用于测试两及其网络是否通 主要用于检测网络是否通畅. -- 具体语法 ping [-dfnqrRv][-c<完成次数>][-i<间隔秒数>][-I<网络界面&g ...
- Python pandas快速入门
Python pandas快速入门2017年03月14日 17:17:52 青盏 阅读数:14292 标签: python numpy 数据分析 更多 个人分类: machine learning 来 ...
- Python pandas & numpy 笔记
记性不好,多记录些常用的东西,真·持续更新中::先列出一些常用的网址: 参考了的 莫烦python pandas DOC numpy DOC matplotlib 常用 习惯上我们如此导入: impo ...
- 【VSCode】Windows下VSCode编译调试c/c++【更新 2018.03.27】
--------– 2018.03.27 更新--------- 便携版已更新,点此获取便携版 已知BUG:中文目录无法正常调试 用于cpptools 0.15.0插件的配置文件更新 新的launch ...
- python & pandas链接mysql数据库
Python&pandas与mysql连接 1.python 与mysql 连接及操作,直接上代码,简单直接高效: import MySQLdb try: conn = MySQLdb.con ...
随机推荐
- Laravel 中 Controller访问Model函数/常量
<?php // User.php class User extends Model { ; //进行中 const USER_TYPE_TEST = 'test'; //测试用户 // 需要在 ...
- 最简单的Android项目(添加jar文件)
如果项目需要引用第三方jar文件,需要对编译命令做一些改动. 首先在项目根目录创建libs目录,将需要的jar文件拷贝到里面. 编译过程中有两步需要改动. 编译java源文件时,需要添加class p ...
- 被弃用的php函数以及用来替代的函数
下面列举了部分被弃用的函数: call_user_method()(使用 call_user_func() 替代) call_user_method_array() (使用 call_user_fun ...
- 区块链共识算法|RAFT和PBFT的区别
这里有个很形象的比喻: 一个团队一定会有一个老大和普通成员.对于 raft 算法,共识过程就是:只要老大还没挂,老大说什么,我们(团队普通成员)就做什么,坚决执行.那什么时候重新老大呢?只有当老大挂了 ...
- .NET CORE学习笔记系列 开篇介绍
ASP.NET Core学习和使用了一段时间了,好记性不如烂笔头,通过查阅官网学习文档和一些大神们的博客总结一下.主要路线先总结一下ASP.NET Core的基础知识,然后是ASP.NET Core ...
- STM32Cube IDE 汉字字体变小解决办法
用STM32Cube IDE自动生成的工程,如果用汉字注释的话,字体会变小,如下图: 解决方法:选中变小的汉字->右击选择Preferences,如下图: 在弹出的对话框中可以看出默认的字体是C ...
- Linux系统中的硬件问题如何排查?(2)
Linux系统中的硬件问题如何排查?(2) 2013-03-27 10:32 核子可乐译 51CTO.com 字号:T | T 在Linux系统中,对于硬件故障问题的排查可能是计算机管理领域最棘手的工 ...
- PyQt4解析HTML Dom
环境: Windows 10 Python 2.7.10 0x01 安装PyQt4 在这个页面下载,注意选对版本. https://riverbankcomputing.com/software/py ...
- GDOI2017总结
前言 大概在两个星期前,由于会有一堆人因为限人数的问题而被卡掉,当时那个人心惶惶啊,搞到我们心惊胆战,茶饭不安. 话说某日,jacky36当众表示,辣鸡余可灿,把我卡掉啦,B~(屏蔽不良言语).余可灿 ...
- 上采样 及 Sub-pixel Convolution (子像素卷积)
参考:https://blog.csdn.net/leviopku/article/details/84975282 参考:https://blog.csdn.net/g11d111/article/ ...