2018.03.28 python-pandas groupby使用
groupby 分组统计
1.根据某些条件将数据分组
2.对每个组独立应用函数
3.将结果合并到一个数据结构中
Dataframe在行或列上分组,将一个函数应用到各个分组并产生一个新值,然后函数执行结果被合并到最终的结果对象中
#分组
import numpy as np
import pandas as pd
df = pd.DataFrame({'A':['foo','bar','foo','bar','foo','bar','foo','foo'],
'B':['one','one','two','three','two','two','one','three'],
'C':np.random.randn(8),
'D':np.random.randn(8)})
print(df)
print('------')
print(df.groupby('A'),type(df.groupby('A')))
#直接分组得到的是groupby对象,是一个中间数据,没有进行计算
print(df.groupby('A').sum())#自动过滤字符串列
print(df.groupby('A').mean())#平均值
b = df.groupby(['A','B']).mean()
print(b,type(b),'\n',b.columns)
c = df.groupby(['A'])['D'].mean()#以A分组,取D列平均值
print(c,type(c),'\n')
结果:
A B C D
0 foo one 0.429615 -0.708782
1 bar one 0.891751 1.140575
2 foo two -0.261858 -0.516835
3 bar three 1.310361 0.269657
4 foo two 1.048076 1.374218
5 bar two -0.410148 1.061132
6 foo one -1.124137 -0.729367
7 foo three 0.289513 0.892714
------
<pandas.core.groupby.DataFrameGroupBy object at 0x000000000FBACA58> <class 'pandas.core.groupby.DataFrameGroupBy'>
C D
A
bar 1.791963 2.471364
foo 0.381208 0.311947
C D
A
bar 0.597321 0.823788
foo 0.076242 0.062389
C D
A B
bar one 0.891751 1.140575
three 1.310361 0.269657
two -0.410148 1.061132
foo one -0.347261 -0.719074
three 0.289513 0.892714
two 0.393109 0.428691 <class 'pandas.core.frame.DataFrame'>
Index(['C', 'D'], dtype='object')
A
bar 0.823788
foo 0.062389
Name: D, dtype: float64 <class 'pandas.core.series.Series'>
#分组 - 可迭代的对象
df = pd.DataFrame({'X':['A','B','A','B'],'Y':[1,3,4,2]})
print(df)
print(df.groupby('X'),type(df.groupby('X')))
print('-------')
print(list(df.groupby('X')),'->可迭代对象,直接生成list\n')
print(list(df.groupby('X'))[0],'->以元组的形式显示')
for n,g in df.groupby('X'):
print(n)
print(g)
print('###')
print('--------')
#n是组名,g是分组后的DataFrame
print(df.groupby(['X']).get_group('A'),'\n')
print(df.groupby(['X']).get_group('B'),'\n')
#.get_group提取分组后的组 grouped = df.groupby(['X'])
print(grouped.groups)
print(grouped.groups['A'])#也可写 df.groupby('X').groups['A']
print('-------')
#.groups:将分组后的groups转化为dict
#可以字典索引方法来查看groups里的元素 sz = grouped.size()
print(sz,type(sz))
#.size() 查看分组后的长度
print('---------')
df = pd.DataFrame({'A':['foo','bar','foo','bar','foo','bar','foo','foo'],
'B':['one','one','two','three','two','two','one','three'],
'C':np.random.randn(8),
'D':np.random.randn(8)})
grouped = df.groupby(['A','B']).groups
print(df)
print(grouped)
print(grouped['foo','three']) dic=dict({'A':[1,2,3],
'B':[2,3,4]})
print(dic,type(dic))
结果:
X Y
0 A 1
1 B 3
2 A 4
3 B 2
<pandas.core.groupby.DataFrameGroupBy object at 0x000000000F889F60> <class 'pandas.core.groupby.DataFrameGroupBy'>
-------
[('A', X Y
0 A 1
2 A 4), ('B', X Y
1 B 3
3 B 2)] ->可迭代对象,直接生成list
('A', X Y
0 A 1
2 A 4) ->以元组的形式显示
A
X Y
0 A 1
2 A 4
###
B
X Y
1 B 3
3 B 2
###
--------
X Y
0 A 1
2 A 4
X Y
1 B 3
3 B 2
{'A': Int64Index([0, 2], dtype='int64'), 'B': Int64Index([1, 3], dtype='int64')}
Int64Index([0, 2], dtype='int64')
-------
X
A 2
B 2
dtype: int64 <class 'pandas.core.series.Series'>
---------
A B C D
0 foo one -0.881923 -0.825102
1 bar one -0.626412 -0.618638
2 foo two -1.741248 1.557698
3 bar three 1.076928 1.738265
4 foo two -0.954103 -0.741415
5 bar two 1.224841 -0.479472
6 foo one 0.680046 -0.476137
7 foo three -1.519952 -0.421738
{('bar', 'one'): Int64Index([1], dtype='int64'), ('bar', 'three'): Int64Index([3], dtype='int64'), ('bar', 'two'): Int64Index([5], dtype='int64'), ('foo', 'one'): Int64Index([0, 6], dtype='int64'), ('foo', 'three'): Int64Index([7], dtype='int64'), ('foo', 'two'): Int64Index([2, 4], dtype='int64')}
Int64Index([7], dtype='int64')
{'A': [1, 2, 3], 'B': [2, 3, 4]} <class 'dict'>
#其他轴上分组
df = pd.DataFrame({'data1':np.random.randn(2),
'data2':np.random.randn(2),
'key1':['a','b'],
'key2':['one','two']})
print(df)
print(df.dtypes)
print('--------')
for n,p in df.groupby(df.dtypes,axis=1):
print(n)
print(p)
print('##')
#按照值类型分组,分为2组
结果:
data1 data2 key1 key2
0 0.813374 0.232957 a one
1 -0.213256 1.393156 b two
data1 float64
data2 float64
key1 object
key2 object
dtype: object
--------
float64
data1 data2
0 0.813374 0.232957
1 -0.213256 1.393156
##
object
key1 key2
0 a one
1 b two
##
#通过字典或者Series分组
df = pd.DataFrame(np.arange(16).reshape(4,4),
columns = ['a','b','c','d'])
print(df)
print('-------') mapping = {'a':'one','b':'one','c':'two','d':'two','e':'three'}
print(mapping)
by_column = df.groupby(mapping,axis = 1)
print(by_column.sum())
print('---------')
#mapping中 a,b列对应为one,c,d列对应为two,以字典为分组 s=pd.Series(mapping)
print(s)
print(s.groupby(s).count())
#s中,index = a,b对应的是one;c,d对应的是two,以Series来分组
结果:
a b c d
0 0 1 2 3
1 4 5 6 7
2 8 9 10 11
3 12 13 14 15
-------
{'a': 'one', 'b': 'one', 'c': 'two', 'd': 'two', 'e': 'three'}
one two
0 1 5
1 9 13
2 17 21
3 25 29
---------
a one
b one
c two
d two
e three
dtype: object
one 2
three 1
two 2
dtype: int64
2018.03.28 python-pandas groupby使用的更多相关文章
- 2018.03.27 python pandas merge join 使用
#2.16 合并 merge-join import numpy as np import pandas as pd df1 = pd.DataFrame({'key1':['k0','k1','k2 ...
- python pandas groupby
转自 : https://blog.csdn.net/Leonis_v/article/details/51832916 pandas提供了一个灵活高效的groupby功能,它使你能以一种自然的方式对 ...
- 2018/03/28 每日一个Linux命令 之 mkdir/rmdir
用于建立空文件夹和删除文件夹 -- 两命令重要参数 -p 递归建立/删除 -- 例如 mkdir -p demo1/demo2/demo3 建立demo3空文件夹,如果demo1/demo2没建立也建 ...
- Python pandas快速入门
Python pandas快速入门2017年03月14日 17:17:52 青盏 阅读数:14292 标签: python numpy 数据分析 更多 个人分类: machine learning 来 ...
- 看到篇博文,用python pandas改写了下
看到篇博文,https://blog.csdn.net/young2415/article/details/82795688 需求是需要统计部门礼品数量,自己简单绘制了个表格,如下: 大意是,每个部门 ...
- Python pandas & numpy 笔记
记性不好,多记录些常用的东西,真·持续更新中::先列出一些常用的网址: 参考了的 莫烦python pandas DOC numpy DOC matplotlib 常用 习惯上我们如此导入: impo ...
- python pandas库——pivot使用心得
python pandas库——pivot使用心得 2017年12月14日 17:07:06 阅读数:364 最近在做基于python的数据分析工作,引用第三方数据分析库——pandas(versio ...
- python中groupby函数详解(非常容易懂)
一.groupby 能做什么? python中groupby函数主要的作用是进行数据的分组以及分组后地组内运算! 对于数据的分组和分组运算主要是指groupby函数的应用,具体函数的规则如下: df[ ...
- http://www.cnblogs.com/youring2/archive/2011/03/28/1997694.html
http://www.cnblogs.com/youring2/archive/2011/03/28/1997694.html
随机推荐
- Django新建第一个投票应用
1:在Pycharm的命令端口,确保执行文件路径是与mysite同级 $ python3 manage.py startapp polls 系统会自动生成polls应用的目录,其结构如下 polls/ ...
- 总结下Nginx的功能模块
nginx-1.10.3]# ./configure \ --prefix=/usr/local/nginx \ #指定安装路径 --user=nginx --group=ngin ...
- QWidget 设置背景图片
QWidget 设置背景图片办法: 利用 QPaltette QPixmap pixmap("back.png"); QPalette palette; palette.setBr ...
- 递归算法几个实例---C/C++
//1.斐波那契数列 int fibo(int n) { || n==) { ; } else { ) + fibo(n-); } } //2.阶乘 int fac(int n) { || n==) ...
- 十一、S3C2440 裸机 — GPIO
11.1 GPIO 介绍 11.1.1 GPIO 管脚 GPIO 即是输入输出端口,S3C2440A 包含了 130 个多功能输入/输出口引脚并且它们为如下显示的八个端口: 端口 A(GPA):25 ...
- Eclipse/MyEclipse超全常用快捷键汇总,绝对实用
[MyEclipse CI 2019.4.0安装包下载] Eclipse的编辑功能非常强大,掌握了Eclipse快捷键功能,能大大提高开发效率.Eclipse中有如下一些和编辑相关的快捷键. 常用快捷 ...
- Levenberg-Marquardt优化和zipf分布
最近审论文和看报告中遇到LM优化和齐普夫分布,于是查了一下. LM方法是高斯牛顿迭代方法的改进,下面分别是高斯牛顿.齐普夫方法的公式: Δ=−(JfTJf)−1JfTf,Δ=−(JfTJf+λI)−1 ...
- 【NOIP2017提高组模拟6.27】C
题目 蜘蛛精大爷是世界上最爷的爷,ta的图论专著<蜘蛛精大爷教你学做人OI之图论>正在热卖,只要233美元一本,每人限购一本......在某弱的不懈要求下,ta给某弱出了一道题,然而某弱太 ...
- linux下为已经编译好的php环境添加mysql扩展(php安装完成后如何添加mysql扩展)
问题背景 平常我们都是先安装mysql,然后才能去安装php.假如先安装php,后安装mysql,由于php需要连接mysql,因而在php引擎中需要配置使用mysql.so扩展.这时需要手动编译生成 ...
- AJAX - 向服务器发送请求请求
AJAX - 向服务器发送请求请求 XMLHttpRequest 对象用于和服务器交换数据.直线电机生产厂家 向服务器发送请求 如需将请求发送到服务器,我们使用 XMLHttpRequest 对象的 ...