Pandas系列（七）-计算工具介绍

内容目录

1. 统计函数
2. 窗口函数
3. 加深加强

　　数据准备

# 导入相关库

import numpy as np

import pandas as pd

#Pandas 中包含了非常丰富的计算工具，如一些统计函数、窗口函数、聚合等计算工具。

index = pd.Index(data=["Tom", "Bob", "Mary", "James", "Andy", "Alice"], name="name")

data = {

    "age": [18, 40, 28, 20, 30, 35],

    "income": [1000, 4500 , 1800, 1800, 3000, np.nan],

}

df = pd.DataFrame(data=data, index=index)

df

Out[43]:

       age  income

name

Tom     18  1000.0

Bob     40  4500.0

Mary    28  1800.0

James   20  1800.0

Andy    30  3000.0

Alice   35     NaN

1.统计函数

　　最常见的计算工具莫过于一些统计函数了。

　　这里我们首先构建一个包含了用户年龄与收入的 DataFrame。我们可以通过 cov 函数来求出年龄与收入之间的协方差，计算的时候会丢弃缺失值。除了协方差之外，我们还可以通过 corr 函数来计算下它们之间的相关性，计算的时候会丢弃缺失值。默认情况下 corr 计算相关性时用到的方法是 pearson，当然了你也可以指定 kendall 或 spearman。除了相关性的计算外，还可以通过 rank 函数求出数据的排名顺序。如果有相同的数，默认取其排名的平均值作为值。我们可以设置参数来得到不同的结果。可以设置的参数有：min、max、first、dense。

#协方差

df.age.cov(df.income)

#相关系数

df.age.corr(df.income)

df.age.corr(df.income,method="kendall")

df.age.corr(df.income,method="spearman")

#排名

df.income.rank()

df.income.rank(method="first")

2.窗口函数

　　有的时候，我们需要对不同窗口的中数据进行一个统计，常见的窗口类型为时间窗口。
　　例如，下面是某个餐厅 7 天的营业额，我们想要计算每两天的收入总额，如何计算呢?
通过 rolling 我们可以实现，设置 window=2 来保证窗口长度为 2，设置 on="date" 来保证根据日期这一列来滑动窗口（默认不设置，表示根据索引来欢动）

data = {

    "turnover": [12000, 18000, np.nan, 12000, 9000, 16000, 18000],

    "date": pd.date_range("2018-07-01", periods=7)

}

df2 = pd.DataFrame(data=data)

df2

Out[44]:

   turnover       date

0   12000.0 2018-07-01

1   18000.0 2018-07-02

2       NaN 2018-07-03

3   12000.0 2018-07-04

4    9000.0 2018-07-05

5   16000.0 2018-07-06

6   18000.0 2018-07-07

df2.rolling(window=2, on="date").sum()

Out[45]:

   turnover       date

0       NaN 2018-07-01

1   30000.0 2018-07-02

2       NaN 2018-07-03

3       NaN 2018-07-04

4   21000.0 2018-07-05

5   25000.0 2018-07-06

6   34000.0 2018-07-07

#是不是发现，有很多结果是缺失值，导致这个结果的原因是因为在计算时，窗口中默认需要的最小数据个数与窗口长度一致，这里可以设置 min_periods=1 来修改下。

df2.rolling(window=2, on="date", min_periods=1).sum()

Out[46]:

   turnover       date

0   12000.0 2018-07-01

1   30000.0 2018-07-02

2   18000.0 2018-07-03

3   12000.0 2018-07-04

4   21000.0 2018-07-05

5   25000.0 2018-07-06

6   34000.0 2018-07-07

#有时候，我想要计算每段时间的累加和，如何实现呢？先来看看第一种方式吧。

df2.rolling(window=len(df2), on="date", min_periods=1).sum()

Out[47]:

   turnover       date

0   12000.0 2018-07-01

1   30000.0 2018-07-02

2   30000.0 2018-07-03

3   42000.0 2018-07-04

4   51000.0 2018-07-05

5   67000.0 2018-07-06

6   85000.0 2018-07-07

#还有另外一种方式，直接使用 expanding 来生成窗口。

df2.expanding(min_periods=1)["turnover"].sum()

Out[48]:

0    12000.0

1    30000.0

2    30000.0

3    42000.0

4    51000.0

5    67000.0

6    85000.0

Name: turnover, dtype: float64

　3、加深加强

除了可以使用 sum 函数外，还有很多其他的函数可以使用，如：count、mean、median、min、max、std、var、quantile、apply、cov、corr等等。

方法	描述

count()	非空观测值数量

sum()	值的总和

mean()	价值的平均值

median()	值的算术中值

min()	最小值

max()	最大

std()	贝塞尔修正样本标准差

var()	无偏方差

skew()	样品偏斜度（三阶矩）

kurt()	样品峰度（四阶矩）

quantile()	样本分位数（百分位上的值）

apply()	通用适用

cov()	无偏协方差（二元）

corr()	相关（二进制）

不过上面的方式只能生成一个结果，有时候想要同时求出多个结果（如求和和均值），如何实现呢？

借助 agg 函数可以快速实现

df2.rolling(window=2, min_periods=1)["turnover"].agg([np.sum, np.mean])

Out[52]:

       sum     mean

0  12000.0  12000.0

1  30000.0  15000.0

2  18000.0  18000.0

3  12000.0  12000.0

4  21000.0  10500.0

5  25000.0  12500.0

6  34000.0  17000.0

#如果传入一个字典，可以为生成的统计结果重命名。

df2.rolling(window=2, min_periods=1)["turnover"].agg({"tur_sum": np.sum, "tur_mean": np.mean})

Out[53]:

   tur_sum  tur_mean

0  12000.0   12000.0

1  30000.0   15000.0

2  18000.0   18000.0

3  12000.0   12000.0

4  21000.0   10500.0

5  25000.0   12500.0

6  34000.0   17000.0

Pandas系列（七）-计算工具介绍的更多相关文章

Pandas 计算工具介绍
# 导入相关库 import numpy as np import pandas as pd 统计函数最常见的计算工具莫过于一些统计函数了.首先构建一个包含了用户年龄与收入的 DataFrame i ...
红豆带你从零学C#系列—Visual Studio工具介绍、下载和安装
一.Visual Studio的下载 Visual Studio(简称VS)是微软的一套完整的开发工具集,集成了能够开发并运行如C#.C++.VB.F#等程序的开发环境,目前最新的版本是Visual ...
计算广告CTR预估系列(七)--Facebook经典模型LR+GBDT理论与实践
计算广告CTR预估系列(七)--Facebook经典模型LR+GBDT理论与实践 2018年06月13日 16:38:11 轻春阅读数 6004更多分类专栏: 机器学习机器学习荐货情报局版 ...
自定义View系列教程01--常用工具介绍
站在源码的肩膀上全解Scroller工作机制 Android多分辨率适配框架(1)- 核心基础 Android多分辨率适配框架(2)- 原理剖析 Android多分辨率适配框架(3)- 使用指南自定 ...
系列二VS项目软件配置工具介绍
原文:系列二VS项目软件配置工具介绍 Svn和VisualSvn介绍在使用TortoiseSvn(SVN客户端)+ AnkhSvn(VS2008插件) +VisualSvn Server(版本控制服 ...
动态可视化数据可视化之魅D3,Processing,pandas数据分析,科学计算包Numpy,可视化包Matplotlib,Matlab语言可视化的工作,Matlab没有指针和引用是个大问题
动态可视化数据可视化之魅D3,Processing,pandas数据分析,科学计算包Numpy,可视化包Matplotlib,Matlab语言可视化的工作,Matlab没有指针和引用是个大问题 D3 ...
java基础解析系列(七)---ThreadLocal原理分析
java基础解析系列(七)---ThreadLocal原理分析目录 java基础解析系列(一)---String.StringBuffer.StringBuilder java基础解析系列(二)-- ...
Pandas系列之入门篇
Pandas系列之入门篇简介 pandas 是 python用来数据清洗.分析的包,可以使用类sql的语法方便的进行数据关联.查询,属于内存计算范畴, 效率远远高于硬盘计算的数据库存储.另外pand ...
Red Gate系列 - SQL各种工具
Red Gate系列 - SQL各种工具 Red Gate系列文章: Red Gate系列之一 SQL Compare 10.4.8.87 Edition 数据库比较工具完全破解+使用教程 Red ...

随机推荐

使用mybatis操作AS400数据库
先简单说一下怎么使用[jt400.jar]连接AS400上的DB2数据库. ※ jt400.jar资源,如果有安装AS400客户端的话,参考IBM官网 ※ http://www-01.ibm.com/ ...
【PAT】B1014 福尔摩斯的约会
因为前面两字符串中第 1 对相同的大写英文字母(大小写有区分)是第 4 个字母D,代表星期四: 第 2 对相同的字符是 E ,那是第 5 个英文字母,代表一天里的第 14 个钟头(于是一天的 0 点到 ...
China Tightens Recycling Import Rules
China Tightens Recycling Import Rules We have all seen the pictures of cities in China with air poll ...
Docker概述
Docker概述 Docker是一个开源的应用容器引擎,让开发者可以打包他们的应用以及依赖包到一个可移植的容器中,然后发布到任何流行的Linux机器上,也可以实现虚拟化.容器是完全可以使用沙盒机制,互 ...
MyIASM和Innodb引擎详解
MyIASM 和 Innodb引擎详解 Innodb引擎 Innodb引擎提供了对数据库ACID事务的支持,并且实现了SQL标准的四种隔离级别,关于数据库事务与其隔离级别的内容请见数据库事务与其隔离级 ...
学习笔记《Mustache》模板
Mustache 是一款经典的前端模板引擎,在前后端分离的技术架构下面,前端模板引擎是一种可以被考虑的技术选型,随着重型框架(AngularJS.ReactJS.Vue)的流行,前端的模板技术已经成为 ...
Fabric动态增加组织【资料】
Fabric在启动之前需要生成Orderer的创世区块和channel的配置区块.也就是说在Fabric网络启动之前我们就必须定好了有哪些Org,而当Fabric已经跑起来之后,想要增加Org却是很麻 ...
Golang 入门系列（六）理解Go中的协程（Goroutine）
前面讲的都是一些Go 语言的基础知识,感兴趣的朋友可以先看看之前的文章.https://www.cnblogs.com/zhangweizhong/category/1275863.html. 今天就 ...
openstack搭建之-horizon配置（14）
一.ctrl控制节点安装horizon #安装软件yum install openstack-dashboard -y vim /etc/openstack-dashboard/local_setti ...
Jquery2--属性相关的操作
知识点总结 1.属性属性(如果你的选择器选出了多个对象,那么默认只会返回出第一个属性). attr(属性名|属性值) - 一个参数是获取属性的值,两个参数是设置属性值 - 点击加载图片示例 remo ...

Pandas系列（七）-计算工具介绍

数据准备

1.统计函数

2.窗口函数

3、加深加强

Pandas系列（七）-计算工具介绍的更多相关文章

随机推荐

热门专题

　　数据准备

　3、加深加强