Pandas统计函数

NAVYSUMMER 2024-09-29 22:26:13 原文

统计方法有助于理解和分析数据的行为。现在我们将学习一些统计函数，可以将这些函数应用到Pandas的对象上。

pct_change()函数

系列，DatFrames和Panel都有pct_change()函数。此函数将每个元素与其前一个元素进行比较，并计算变化百分比。

import pandas as pd

import numpy as np

s = pd.Series([1,2,3,4,5,4])

print (s.pct_change())

df = pd.DataFrame(np.random.randn(5, 2))

print (df.pct_change())

Python

执行上面示例代码，得到以下结果 -

0        NaN

1   1.000000

2   0.500000

3   0.333333

4   0.250000

5  -0.200000

dtype: float64

            0          1

0         NaN        NaN

1  -15.151902   0.174730

2  -0.746374   -1.449088

3  -3.582229   -3.165836

4   15.601150  -1.860434

Shell

默认情况下，pct_change()对列进行操作; 如果想应用到行上，那么可使用axis = 1参数。

协方差

协方差适用于系列数据。Series对象有一个方法cov用来计算序列对象之间的协方差。NA将被自动排除。

Cov系列示例

import pandas as pd

import numpy as np

s1 = pd.Series(np.random.randn(10))

s2 = pd.Series(np.random.randn(10))

print (s1.cov(s2))

Python

执行上面示例代码，得到以下结果 -

0.0667296739178

Python

当应用于DataFrame时，协方差方法计算所有列之间的协方差(cov)值。

import pandas as pd

import numpy as np

frame = pd.DataFrame(np.random.randn(10, 5), columns=['a', 'b', 'c', 'd', 'e'])

print (frame['a'].cov(frame['b']))

print (frame.cov())

Python

执行上面示例代码，得到以下结果 -

-0.406796939839

          a         b         c         d         e

a  0.784886 -0.406797  0.181312  0.513549 -0.597385

b -0.406797  0.987106 -0.662898 -0.492781  0.388693

c  0.181312 -0.662898  1.450012  0.484724 -0.476961

d  0.513549 -0.492781  0.484724  1.571194 -0.365274

e -0.597385  0.388693 -0.476961 -0.365274  0.785044

Shell

注 - 观察第一个语句中a和b列之间的cov结果值，与由DataFrame上的cov返回的值相同。

相关性

相关性显示了任何两个数值(系列)之间的线性关系。有多种方法来计算pearson(默认)，spearman和kendall之间的相关性。

import pandas as pd

import numpy as np

frame = pd.DataFrame(np.random.randn(10, 5), columns=['a', 'b', 'c', 'd', 'e'])

print (frame['a'].corr(frame['b']))

print (frame.corr())

Python

执行上面示例代码，得到以下结果 -

-0.613999376618

          a         b         c         d         e

a  1.000000 -0.613999 -0.040741 -0.227761 -0.192171

b -0.613999  1.000000  0.012303  0.273584  0.591826

c -0.040741  0.012303  1.000000 -0.391736 -0.470765

d -0.227761  0.273584 -0.391736  1.000000  0.364946

e -0.192171  0.591826 -0.470765  0.364946  1.000000

Shell

如果DataFrame中存在任何非数字列，则会自动排除。

数据排名

数据排名为元素数组中的每个元素生成排名。在关系的情况下，分配平均等级。

import pandas as pd

import numpy as np

s = pd.Series(np.random.np.random.randn(5), index=list('abcde'))

s['d'] = s['b'] # so there's a tie

print (s.rank())

Python

执行上面示例代码，得到以下结果 -

a    4.0

b    1.5

c    3.0

d    1.5

e    5.0

dtype: float64

Shell

Rank可选地使用一个默认为true的升序参数; 当错误时，数据被反向排序，也就是较大的值被分配较小的排序。

Rank支持不同的tie-breaking方法，用方法参数指定 -

average - 并列组平均排序等级
min - 组中最低的排序等级
max - 组中最高的排序等级
first - 按照它们出现在数组中的顺序分配队列

Pandas统计函数的更多相关文章

第十一节：pandas统计函数
1.pct_change()计算增长比例 2.cov()协方差 3.corr()相关系数 4.rank()数据排名 5.numpy聚合函数
Pandas学习笔记（三）
(1)系列对象( Series)基本功能编号属性或方法描述 1 axes 返回行轴标签列表. 2 dtype 返回对象的数据类型(dtype). 3 empty 如果系列为空,则返回True. ...
pandas使用总结
一.pandas简介 Pandas是基于Numpy开发出的,是一款开放源码的BSD许可的Python库,为Python编程语言提供了高性能,易于使用的数据结构和数据分析工具.Pandas用于广泛的领域 ...
Pandas教程目录
Pandas数据结构 Pandas系列 Pandas数据帧(DataFrame) Pandas面板(Panel) Pandas基本功能 Pandas描述性统计 Pandas函数应用 Pandas重建索 ...
Python人工智能学习笔记
Python教程 Python 教程 Python 简介 Python 环境搭建 Python 中文编码 Python 基础语法 Python 变量类型 Python 运算符 Python 条件语句 ...
Pandas分组统计函数：groupby、pivot_table及crosstab
利用python的pandas库进行数据分组分析十分便捷,其中应用最多的方法包括:groupby.pivot_table及crosstab,以下分别进行介绍. 0.样例数据 df = DataFram ...
Pandas | 14 统计函数
统计方法有助于理解和分析数据的行为.可以将这些统计函数应用到Pandas的对象上. pct_change()函数系列,DatFrames和Panel都有pct_change()函数.此函数将每个元素 ...
Pandas数据统计函数
Pandas数据统计函数汇总类统计唯一去重和按值计数相关系数和协方差 0.读取csv数据 1.汇总类统计 2.唯一去重和按值计数 2.1 唯一性去重一般不用于数值列,而是枚举.分类列 2.2 ...
pandas的数据统计函数
# 1汇总类统计 # 2唯一去重和按值计数 # 3 相关系数和协方差 import pandas as pd # 0 读取csv数据 df = pd.read_csv("beijing_ti ...

随机推荐

剑指Offer——替换空格
题目描述: 请实现一个函数,将一个字符串中的空格替换成“%20”.例如,当字符串为We Are Happy.则经过替换之后的字符串为We%20Are%20Happy. 分析: 如果从前往后替换空格,那 ...
汉澳sinox2014没有黑屏，一个能够依靠的安全避风港
首先汉澳sinox2014没有验证server,根本就没办法区分正版和盗版其次汉澳sinox2014安装也没有系列号cdkey等东西,直接安装无干扰最后汉澳sinox2014不会有黑屏这样的东西. ...
Drawable.Callback
一.介绍 public abstract void invalidateDrawable (Drawable who) Called when the drawable needs to be re ...
Keras之序贯(Sequential)模型
序贯模型(Sequential) 序贯模型是多个网络层的线性堆叠. 可以通过向Sequential模型传递一个layer的list来构造该模型: from Keras.models import Se ...
error：No resource found that matches the given name 'Theme.AppCompat.Light'
一.stsckoverflow http://stackoverflow.com/questions/17870881/cant-find-theme-appcompat-light-for-new- ...
redis的数据类型与应用场景(二)
1. 如何学习 redis有好多数据类型,有这么多数据类型,我们不可能每个都记得完完全全.但是我们必须知道它有哪些数据类型,每个数据类型是怎样的,有什么作用.redis的每一个数据类型都有一大堆命令, ...
springboot整合fastjson 将null转成空字符串
/** * @Auther: mxf * @Date: 2019/4/18 09:12 * @Description: */ @Configuration @EnableWebMvc public c ...
mysql binlog日志的三种模式
1.statement level模式每一条会修改数据的sql都会记录到master的bin-log中.slave在复制的时候sql进程会解析成和原来master端执行过的相同的sql来再次执行.优 ...
js, 树状菜单隐藏显示
js写的不是很严谨~~~嘿嘿 <!DOCTYPE html> <html> <head> <meta charset="UTF-8"& ...
this与super关键字总结
Ⅰ.this 用类名定义一个变量的时候,定义的应该只是一个引用,外面可以通过这个引用来访问这个类里面的属性和方法.类里面也有一个引用来访问自己的属性和方法,这个引用就是 this 对象,它可以在类里面 ...