2018.03.29 python-pandas transform/apply 的使用

 #一般化的groupby方法:apply

 df = pd.DataFrame({'data1':np.random.rand(5),

                    'data2':np.random.rand(5),

                    'key1':list('aabba'),

                    'key2':['one','two','one','two','one']})

 print(df)

 #print(df.groupby('key1').apply(lambda x:x.describe()))

 #apply直接运算其中的函数

 #这里是匿名函数，直接描述分组后的统计量

 def f_df1(d,n):

     return(d.sort_index()[:n]) #返回排序后的前n行数据

 def f_df2(d,k1):

     return(d[k1])#返回分组后表的k1列，结果为series，层次化索引

 print(df.groupby('key1').apply(f_df1,2),'\n')#引入自己创建的函数，注意书写格式，f_df1的第一个参数默认df 第二个参数,2的形式

 print(df.groupby('key1').apply(f_df2,'data2'))

 #直接运行f_df函数

 #参数直接写在后面，也可以写为：.apply(f_df,n=2)

结果：
      data1     data2 key1 key2
0  0.253473  0.731034    a  one
1  0.531445  0.061414    a  two
2  0.733180  0.122293    b  one
3  0.550177  0.115940    b  two
4  0.101753  0.510581    a  one
           data1     data2 key1 key2
key1                                
a    0  0.253473  0.731034    a  one
     1  0.531445  0.061414    a  two
b    2  0.733180  0.122293    b  one
     3  0.550177  0.115940    b  two 

key1   
a     0    0.731034
      1    0.061414
      4    0.510581
b     2    0.122293
      3    0.115940
Name: data2, dtype: float64

 # 数据分组转换 .transform

 import numpy as np

 import pandas as pd

 df = pd.DataFrame({'data1':np.random.rand(5),

                    'data2':np.random.rand(5),

                    'key1':list('aabba'),

                    'key2':['one','two','one','two','one']})

 print(df)

 k_mean = df.groupby('key1').mean()

 print(k_mean)

 print(pd.merge(df,k_mean,left_on = 'key1',right_index = True).add_prefix('mean_'))#.add_profix('mean_'):增添前缀

 print('------')

 #通过分组，合并，得到一个包含均值的Dataframe   以key1位分组的列均值

 print(df.groupby('key2').mean())#按照key2分组求均值

 print(df.groupby('key2').transform(np.mean))

 #data1,data2每个位置的元素取对应分组列的均值

 #字符串不能进行计算

结果：
      data1     data2 key1 key2
0 0.845365 0.411704    a one
1 0.300226 0.411719    a two
2 0.476632 0.628493    b one
3 0.985675 0.304024    b two
4 0.418804 0.229940    a one
         data1     data2
key1
a     0.521465 0.351121
b     0.731153 0.466258
   mean_data1_x mean_data2_x mean_key1 mean_key2 mean_data1_y mean_data2_y
0      0.845365      0.411704         a       one      0.521465      0.351121
1      0.300226      0.411719         a       two      0.521465      0.351121
4      0.418804      0.229940         a       one      0.521465      0.351121
2      0.476632      0.628493         b       one      0.731153      0.466258
3      0.985675      0.304024         b       two      0.731153      0.466258
------
         data1     data2
key2
one   0.580267 0.423379
two   0.642951 0.357872
      data1     data2
0 0.580267 0.423379
1 0.642951 0.357872
2 0.580267 0.423379
3 0.642951 0.357872
4 0.580267 0.423379

2018.03.29 python-pandas transform/apply 的使用的更多相关文章

2018.03.27 python pandas merge join 使用
#2.16 合并 merge-join import numpy as np import pandas as pd df1 = pd.DataFrame({'key1':['k0','k1','k2 ...
2018.03.29 python-matplotlib 图表生成
'''Matplotlib -> 一个python版的matlab绘图接口,以2D为主,支持python,numpy,pandas基本数据结构,高效图标库''' import numpy as ...
2018.03.29 python-pandas 数据读取
#数据读取# read_table,read_csv,read_excel #读取普通分隔数据:read_table #可以读取txt,csv import os import pandas as p ...
2018.03.29 python-pandas 数据透视pivot table / 交叉表crosstab
#透视表 pivot table #pd.pivot_table(data,values=None,index=None,columns=None, import numpy as np import ...
2018/03/29 每日一个Linux命令之 ping
ping 用于测试两及其网络是否通主要用于检测网络是否通畅. -- 具体语法 ping [-dfnqrRv][-c<完成次数>][-i<间隔秒数>][-I<网络界面&g ...
Python pandas快速入门
Python pandas快速入门2017年03月14日 17:17:52 青盏阅读数:14292 标签: python numpy 数据分析更多个人分类: machine learning 来 ...
Python pandas & numpy 笔记
记性不好,多记录些常用的东西,真·持续更新中::先列出一些常用的网址: 参考了的莫烦python pandas DOC numpy DOC matplotlib 常用习惯上我们如此导入: impo ...
【VSCode】Windows下VSCode编译调试c/c++【更新 2018.03.27】
--------– 2018.03.27 更新--------- 便携版已更新,点此获取便携版已知BUG:中文目录无法正常调试用于cpptools 0.15.0插件的配置文件更新新的launch ...
python & pandas链接mysql数据库
Python&pandas与mysql连接 1.python 与mysql 连接及操作,直接上代码,简单直接高效: import MySQLdb try: conn = MySQLdb.con ...

随机推荐

从零开始学MySQL(二)
鉴于上节篇幅以安装为主,因此对于调用mysql所需要使用的“命令”只是略微提及.随之而来就会带给读者诸多不解了,因为你会思考,这串长长的字符到底有什么特殊的含义呢?聪明的你可能早就抱着好奇心去“摆渡” ...
TCP的.cc文件代码解释（中文）
#ifndef lint static const char rcsid[] = "@(#) $Header: /nfs/jade/vint/CVSROOT/ns-2/tcp/tcp ...
AIX用户和组管理
1.用户登录和初始化
java.util.Arrays （JDK 1.7）
1.asList //返回由指定数组支持的固定大小的列表,返回的列表是可序列化的 public static <T> List<T> asList(T... a) { retu ...
一、Ubuntu16.04 安装
第一步:系统安装 https://yuedu.baidu.com/ebook/c44183ed4128915f804d2b160b4e767f5acf80fb?pn=1&rf=https%3A ...
用css编写三角和半圆形状样式
1.三角样式 htriangle-down { height:; border-left:11rpx solid transparent; border-right:11rpx solid trans ...
通信接口是webservice快还是scoket快解决方案
通信接口是webservice快还是scoket快webservice和scoket都可以做为通信接口,一个走HTTP访问,一个走TCP协议访问问1:通讯速度是webservice快还是scoket ...
Nginx模块开发实验
工作原理: 当nginx接到一个http请求之后,会找通过查找配置文件,并在配置文件中找到相应的地址映射,该地址也叫location block,而location中配置的文件会启动相应的bloc ...
Mysql 日期函数date_format()
用法:DATE_FORMAT() 函数用于以不同的格式显示日期/时间数据 1.语法 date_fromat(date,format) 说明:date 参数是合法的日期.format 规定日期/时间的输 ...
批量下载文件asp.net
一.实现步骤在用户操作界面,由用户选择需要下载的文件,系统根据所选文件,在服务器上创建用于存储所选文件的临时文件夹,将所选文件拷贝至临时文件夹.然后调用 RAR程序,对临时文件夹进行压缩,然后输出到 ...

2018.03.29 python-pandas transform/apply 的使用

2018.03.29 python-pandas transform/apply 的使用的更多相关文章

随机推荐

热门专题