python数据分析之：数据聚合与分组运算

在数据库中，我们可以对数据进行分类，聚合运算。例如groupby操作。在pandas中同样也有类似的功能。通过这些聚合，分组操作，我们可以很容易的对数据进行转换，清洗，运算。比如如下图，首先通过不同的键值进行分类，然后对各个分类进行求和运算。

我们来看实际的例子，首先生成一组数据如下

df=DataFrame({'key1':['a','a','b','b','a'],'key2':['one','two','one','two','one'],'data1':np.random.randn(5),'data2':np.random.randn(5)})

data1 data2 key1 key2

0 0.426519 0.321085 a one

1 0.918215 0.418922 a two

2 -2.792968 0.629589 b one

3 -0.431760 0.231652 b two

4 0.570083 -0.799304 a one

然后针对data1列根据key1的值来进行分组

groupd=df['data1'].groupby(df['key1'])

得到groupd只是一个聚合的对象，我们可以在这个对象上进行各种运算。比如groupd.mean(), groupd.sum()分别代表平均数，求和。结果如下，生成了一个新的数据列，且列名还是key1

key1

a 0.146577

b -0.947097

Name: data1, dtype: float64

key1

a 0.439730

b -1.894193

Name: data1, dtype: float64

在groupby中还可以传递多个数组，比如

groupd1=df['data1'].groupby([df['key1'],df['key2']]).sum()

结果如下：通过key1列进行聚合后，在通过key2列对之前的数据再聚合. 然后求和。

key1 key2

a one -0.115901

two -0.030998

b one -0.039265

two 0.295743

Name: data1, dtype: float64

当然还可以将列名也用作分组键。

df.groupby(df['key1']).mean()

data1 data2

key1

a 0.381235 0.453622

b -0.179429 -0.880869

df.groupby([df['key1'],df['key2']]).mean()

data1 data2

key1 key2

a one 0.466122 0.328501

two 0.211462 0.703865

b one 0.848630 -0.598706

two -1.207488 -1.163033

通过上面的结果可以看到通过key1进行分组的时候key2列是不存在的，这是因为key2列不是整数数据。所以从结果中排除了。

对元组进行迭代

前面通过df.groupby(df[‘key1’])进行分组的时候，我们其实得到了两类分组，一种是a的分组，一种是b的分组。因为在key1列中只有这2个值，如果我们想分别访问这两组分组的数据，就需要用到迭代了。

for group1,group2 in df.groupby(df['key1']):

print group1,group2

这样就分别得到了针对a,b的各自分组。

a data1 data2 key1 key2

0 -0.973337 0.656690 a one

1 0.930285 -2.361232 a two

4 -0.195729 -0.717847 a one

b data1 data2 key1 key2

2 -0.167785 -0.907817 b one

3 -2.245887 -0.170275 b two

对于多列的分组：

for group1,group2 in df.groupby([df['key1'],df['key2']]):

print group1

print group2

结果如下，总共有4个分组。分别是(‘a’,’one’),(‘a’,’two’),(‘b’,’one’),(‘b’,’two’)

('a', 'one')

data1 data2 key1 key2

0 -0.430579 -0.810844 a one

4 0.481271 -0.998662 a one

('a', 'two')

data1 data2 key1 key2

1 -0.114657 1.062592 a two

('b', 'one')

data1 data2 key1 key2

2 -0.996202 0.661732 b one

('b', 'two')

data1 data2 key1 key2

3 0.812372 -1.09057 b two

下面总结一下groupby的聚合运算的方法：

apply:

apply会将待处理的对象拆分成多个片段。然后将各片段调用传入的函数，最后尝试将各段组合在一起。来看下面的这个例子：

def get_stats(group):

return {'min':group.min(),'max':group.max(),'count':group.count(),'mean':group.mean()}

def group_by_test():

frame=DataFrame({'data1':np.random.randn(100),'data2':np.random.randn(100)})

factor=pd.cut(frame.data1,4)

print factor

print frame.data2.groupby(factor).apply(get_stats)

首先在group_by_test中，通过pd.cut将frame进行4分位分隔。然后对各个分位进行聚合。最后通过apply函数对各个分组调用get_stats函数。这个函数的作用和下面的代码的作用是一样的。

for g in frame.data2.groupbyby(facotr):

get_stats(g)

随机采样和排列：

假设想要从一个大数据集中随机抽样样本进行分析工作。np.random.permutation(N)选取前k个元素, 其中N为完整数据的大小，K为期望的样本大小。下面举一个扑克牌的例子

def draw(deck,n=5):

return deck.take(np.random.permutation(len(deck))[:n])

def group_by_test2():

card_val=(range(1,11)+[10]*3)*4 #牌的序号

base_name=['A']+range(2,11)+['J','K','Q'] #牌名

cards=[]

suits=['H','S','C','D'] #花色：红桃(Hearts)，黑桃(Spades),梅花(Clubs)，方片(Diamonds)

for suit in ['H','S','C','D']:

cards.extend(str(num)+suit for num in base_name) #产生牌

deck=Series(card_val,index=cards)

get_suit=lambda card:card[-1] #根据牌名最后一个字符也就是花色进行分组。

print deck.groupby(get_suit).apply(draw,n=2)

运行结果：

C 8C 8

9C 9

D KD 10

QD 10

H 5H 5

9H 9

S 7S 7

JS 10

dtype: int64

python数据分析之：数据聚合与分组运算的更多相关文章

利用python进行数据分析之数据聚合和分组运算
对数据集进行分组并对各分组应用函数是数据分析中的重要环节. group by技术 pandas对象中的数据会根据你所提供的一个或多个键被拆分为多组,拆分操作是在对象的特定轴上执行的,然后将一个函数应用 ...
Python 数据分析（二本实验将学习利用 Python 数据聚合与分组运算，时间序列，金融与经济数据应用等相关知识
Python 数据分析(二) 本实验将学习利用 Python 数据聚合与分组运算,时间序列,金融与经济数据应用等相关知识第1节 groupby 技术第2节数据聚合第3节分组级运算和转换第4 ...
Python 数据分析—第九章数据聚合与分组运算
打算从后往前来做笔记第九章数据聚合与分组运算分组 #生成数据,五行四列 df = pd.DataFrame({'key1':['a','a','b','b','a'], 'key2':['one ...
《python for data analysis》第九章，数据聚合与分组运算
# -*- coding:utf-8 -*-# <python for data analysis>第九章# 数据聚合与分组运算import pandas as pdimport nump ...
Python数据聚合和分组运算(1)-GroupBy Mechanics
前言 Python的pandas包提供的数据聚合与分组运算功能很强大,也很灵活.<Python for Data Analysis>这本书第9章详细的介绍了这方面的用法,但是有些细节不常用 ...
Python之数据聚合与分组运算
Python之数据聚合与分组运算 1. 关系型数据库方便对数据进行连接.过滤.转换和聚合. 2. Hadley Wickham创建了用于表示分组运算术语"split-apply-combin ...
《利用python进行数据分析》读书笔记--第九章数据聚合与分组运算（一）
http://www.cnblogs.com/batteryhp/p/5046450.html 对数据进行分组并对各组应用一个函数,是数据分析的重要环节.数据准备好之后,通常的任务就是计算分组统计或生 ...
利用Python进行数据分析-Pandas(第六部分-数据聚合与分组运算)
对数据集进行分组并对各组应用一个函数(无论是聚合还是转换),通常是数据分析工作中的重要环节.在将数据集加载.融合.准备好之后,通常是计算分组统计或生成透视表.pandas提供了一个灵活高效的group ...
【学习】数据聚合和分组运算【groupby】
分组键可以有多种方式,且类型不必相同列表或数组, 某长度与待分组的轴一样表示DataFrame某个列名的值字典或Series,给出待分组轴上的值与分组名之间的对应关系函数用于处理轴索引或索引中 ...

随机推荐

MockServer的测试思想与实现
转载:http://blog.csdn.net/shen1936/article/details/50298901 背景什么是MOCK Mock的定义 Mock框架简介 Mock在单测中的应用 De ...
4. 使用别的json解析框架【从零开始学Spring Boot】
转载:http://blog.csdn.net/linxingliang/article/details/51585921 此文章已经废弃,请看新版的博客的完美解决方案: 78. Spring Boo ...
iOS block用作属性封装代码
@property (copy, nonatomic) void (^actionBlock)(); @property (copy, nonatomic) void (^actionWithPapa ...
JDBC性能优化方案
最近用到了利用JDBC查询Oracle数据库.可是查询效率不尽人意.研究了一下JDBC方面能够优化的地方,在这里跟大家分享一下. 1.设置最优的预取值 defaultRowP ...
Javascript中的回调函数和匿名函数的回调
<!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title> ...
【Excle数据透视表】如何在Excle中使用数据鼠标拖放
数据透视表建立好之后,我们有时候需要改动数据透视表,那么直接可以对字段进行拖拽就可以改变,这样使数据透视变得比较方便使用原始样式拖拽后样式步骤右键数据透视表任意单元格→数据透视表选项→显示→经 ...
jQuery.delegate() 函数详解
delegate()函数用于为指定元素的一个或多个事件绑定事件处理函数. 此外,你还可以额外传递给事件处理函数一些所需的数据. 即使是执行delegate()函数之后新添加的元素,只要它符合条件,绑定 ...
转载(Asp.net Core 中试使用ZKWeb.System.Drawing)
完美原文Link: https://www.yanning.wang/archives/644.html 记录下做备份. 很少用Linux服务器. 这下可给整的够呛, 特别是按照官网竟然还不行, 所 ...
UICollectionView的header悬停
UICollectionView的header悬停,继承UICollectionViewFlowLayout,重写相关方法 // // StickyHeaderLayout.h // Wombat / ...
[C/C++标准库]_[0基础]_[怎样实现std::string自己的Format(sprintf)函数]
场景: 1. C语言有自己的sprintf函数,可是这个函数有个缺点,就是不知道须要创建多大的buffer, 这时候能够使用snprintf函数来计算大小,仅仅要參数 buffer为NULL, co ...

python数据分析之：数据聚合与分组运算

python数据分析之：数据聚合与分组运算的更多相关文章

随机推荐

热门专题