pandas之窗口函数
为了能更好地处理数值型数据,Pandas 提供了几种窗口函数,比如移动函数(rolling)、扩展函数(expanding)和指数加权函数(ewm)。
窗口函数应用场景非常多。举一个简单的例子:现在有 10 天的销售额,而您想每 3 天求一次销售总和,也就说第五天的销售额等于(第三天 + 第四天 + 第五天)的销售额之和,此时窗口函数就派上用场了。
窗口是一种形象化的叫法,这些函数在执行操作时,就如同窗口一样在数据区间上移动。
本节学习主要讲解如何在 DataFrame 和 Series 对象上应用窗口函数。
rolling()
rolling() 又称移动窗口函数,它可以与 mean、count、sum、median、std 等聚合函数一起使用。为了使用方便,Pandas 为移动函数定义了专门的方法聚合方法,比如 rolling_mean()、rolling_count()、rolling_sum() 等。其的语法格式如下:
rolling(window=n, min_periods=None, center=False)
常用参数说明如下:
| 参数名称 | 说明 |
|---|---|
| window | 默认值为 1,表示窗口的大小,也就是观测值的数量, |
| min_periods | 表示窗口的最小观察值,默认与 window 的参数值相等。 |
| center | 是否把中间值做为窗口标准,默认值为 False。 |
下面看一组示例:
- import pandas as pd
- import numpy as np
- #生成时间序列
- df = pd.DataFrame(np.random.randn(8, 4),index = pd.date_range('12/1/2020', periods=8),columns = ['A', 'B', 'C', 'D'])
- print(df)
- #每3个数求求一次均值
- print(df.rolling(window=3).mean())
输出结果:
A B C D
2020-12-01 0.580058 -0.715246 0.440427 -1.106783
2020-12-02 -1.313982 0.068954 -0.906665 1.382941
2020-12-03 0.349844 -0.549509 -0.806577 0.261794
2020-12-04 -0.497054 0.921995 0.232008 -0.815291
2020-12-05 2.658108 0.447783 0.049340 0.329209
2020-12-06 -0.271670 -0.070299 0.860684 -0.095122
2020-12-07 -0.706780 -0.949392 0.679680 0.230930
2020-12-08 0.027379 -0.056543 -1.067625 1.386399 A B C D
2020-12-01 NaN NaN NaN NaN
2020-12-02 NaN NaN NaN NaN
2020-12-03 -0.128027 -0.398600 -0.424272 0.179317
2020-12-04 -0.487064 0.147147 -0.493745 0.276481
2020-12-05 0.836966 0.273423 -0.175076 -0.074763
2020-12-06 0.629794 0.433160 0.380677 -0.193734
2020-12-07 0.559886 -0.190636 0.529901 0.155006
2020-12-08 -0.317024 -0.358745 0.157580 0.507402
window=3表示是每一列中依次紧邻的每 3 个数求一次均值。当不满足 3 个数时,所求值均为 NaN 值,因此前两列的值为 NaN,直到第三行值才满足要求 window =3。求均值的公式如下所示:
(index1+index2+index3)/3
expanding()
expanding() 又叫扩展窗口函数,扩展是指由序列的第一个元素开始,逐个向后计算元素的聚合值。
下面示例,min_periods = n表示向后移动 n 个值计求一次平均值:
- import pandas as pd
- import numpy as np
- df = pd.DataFrame(np.random.randn(10, 4),
- index = pd.date_range('1/1/2018', periods=10),
- columns = ['A', 'B', 'C', 'D'])
- print (df.expanding(min_periods=3).mean())
输出结果:
A B C D
2020-01-01 NaN NaN NaN NaN
2020-01-02 NaN NaN NaN NaN
2020-01-03 -0.567833 0.258723 0.498782 0.403639
2020-01-04 -0.384198 -0.093490 0.456058 0.459122
2020-01-05 -0.193821 0.085318 0.389533 0.552429
2020-01-06 -0.113941 0.252397 0.214789 0.455281
2020-01-07 0.147863 0.400141 -0.062493 0.565990
2020-01-08 -0.036038 0.452132 -0.091939 0.371364
2020-01-09 -0.043203 0.368912 -0.033141 0.328143
2020-01-10 -0.100571 0.349378 -0.078225 0.225649
设置 min_periods=3,表示至少 3 个数求一次均值,计算方式为 (index0+index1+index2)/3,而 index3 的计算方式是 (index0+index1+index2+index3)/3,依次类推。
ewm()
ewm(全称 Exponentially Weighted Moving)表示指数加权移动。ewn() 函数先会对序列元素做指数加权运算,其次计算加权后的均值。该函数通过指定 com、span 或者 halflife 参数来实现指数加权移动。示例如下:
- import pandas as pd
- import numpy as np
- df = pd.DataFrame(np.random.randn(10, 4),
- index = pd.date_range('12/1/2020', periods=10),
- columns = ['A', 'B', 'C', 'D'])
- #设置com=0.5,先加权再求均值
- print(df.ewm(com=0.5).mean())
输出结果:
A B C D
2020-12-01 -1.511428 1.427826 0.252652 0.093601
2020-12-02 -1.245101 -0.118346 0.170232 -0.207065
2020-12-03 0.131456 -0.271979 -0.679315 -0.589689
2020-12-04 -0.835228 0.094073 -0.973924 -0.081684
2020-12-05 1.279812 1.099368 0.203033 0.019014
2020-12-06 0.132027 -0.625744 -0.145090 -0.318155
2020-12-07 0.820230 0.371620 0.119683 -0.227101
2020-12-08 1.088283 -0.275570 0.358557 -1.050606
2020-12-09 0.538304 -1.288146 0.590358 -0.164057
2020-12-10 0.589177 -1.514472 -0.613158 0.367322
在数据分析的过程中,使用窗口函数能够提升数据的准确性,并且使数据曲线的变化趋势更加平滑,从而让数据分析变得更加准确、可靠。
pandas之窗口函数的更多相关文章
- Pandas | 15 窗口函数
为了处理数字数据,Pandas提供了几个变体,如滚动,展开和指数移动窗口统计的权重. 其中包括总和,均值,中位数,方差,协方差,相关性等.本章讨论的是在DataFrame对象上应用这些方法. .rol ...
- pandas处理时间序列(4): 移动窗口函数
六.移动窗口函数 移动窗口和指数加权函数类别如↓: rolling_mean 移动窗口的均值 pandas.rolling_mean(arg, window, min_periods=None, fr ...
- Pandas窗口函数
为了处理数字数据,Pandas提供了几个变体,如滚动,展开和指数移动窗口统计的权重. 其中包括总和,均值,中位数,方差,协方差,相关性等. 下来学习如何在DataFrame对象上应用上提及的每种方法. ...
- Pandas系列(七)-计算工具介绍
内容目录 1. 统计函数 2. 窗口函数 3. 加深加强 数据准备 # 导入相关库 import numpy as np import pandas as pd #Pandas 中包含了非常丰富的计算 ...
- numpy pandas matplotlib
import numpy as np import pandas as pd import matplotlib.pyplot as plt ---------------numpy--------- ...
- Pandas v0.23.4手册汉化
Pandas手册汉化 此页面概述了所有公共pandas对象,函数和方法.pandas.*命名空间中公开的所有类和函数都是公共的. 一些子包是公共的,其中包括pandas.errors, pandas. ...
- Pandas教程目录
Pandas数据结构 Pandas系列 Pandas数据帧(DataFrame) Pandas面板(Panel) Pandas基本功能 Pandas描述性统计 Pandas函数应用 Pandas重建索 ...
- pandas时间序列滑窗
时间序列数据统计-滑动窗口 窗口函数 import pandas as pd import numpy as np ser_obj = pd.Series(np.random.randn(1000), ...
- Pandas 计算工具介绍
# 导入相关库 import numpy as np import pandas as pd 统计函数 最常见的计算工具莫过于一些统计函数了.首先构建一个包含了用户年龄与收入的 DataFrame i ...
- pandas 常用方法使用示例
from pandas import DataFrame import numpy as np import pandas as pd t={ , , np.nan, , np.nan, ], &qu ...
随机推荐
- 浏览器上验证xpath元素是否正确
一.验证元素定位 Chrome的console可以用来验证XPath和CSS. 1.验证XPath 1.输入:$x("your_xpath_selector")2.输入完毕后,点击 ...
- openfire开源IM服务器知识分享+社交app实战
一. 概述 Openfire最主要的功能是实现XMPP服务器,简单来说,openfire为我们提供一个固定的地址,我们只需要向openfire服务器发送标准的XMPP信息(即XML文件流), ...
- 用shell开火车哈哈
用shell开火车!(σ゚∀゚)σ⁶⁶⁶⁶⁶⁶⁶⁶⁶⁶ while true; do sl -aFile; done 这个效果更佳
- 2003031118—李伟—Python数据分析第七周作业—MySQL的安装以及使用
项目 MySQL的安装以及使用 课程班级博客链接 20级数据班(本) 这个作业要求链接 作业要求 博客名称 2003031118-李伟-Python数据分析第七周作业-MySQL的安装以及使用 ...
- Hex格式和Mot格式简介
Hex格式和Mot格式简介 一.Hex格式介绍 1.1 什么是 Intel HEX 文件格式? Intel HEX文件 是由一行行符合 Intel HEX文件格式的文本所构成的ASCII文本文 ...
- 第五章 散列表(哈希表)(hash表)
散列表 特点 键和值一一对应 可以快速找到对应值,不需要进行查找 运用场景 模拟映射关系 防止重复 缓存记住数据,以免服务器再通过处理来生成它们 例如: 电话簿 用缓存记录url和对应的静态页面,存在 ...
- jieba初
url: https://github.com/fxsjy/jieba/blob/master/ jieba "结巴"中文分词:做最好的 Python 中文分词组件 "J ...
- 功能测试--APP专项
APP测试重点 APP测试与web测试的区别 APP测试常见问题 APP日志分析 APP压力稳定性测试
- Java8中Stream()流的用法总结
简单的集合遍历 foreach遍历 import java.util.ArrayList; import java.util.List; /** * @author rx * @date 2022/6 ...
- 关于UPD章节学习的一些感想
课程看到了UDP, 首先了解UDP的原理模型. 服务端,首先是实例QUdpSocket,也就是UDP套接字,然后,需要绑定.绑定一个任意IP地址,分为IPV4和IPV6.自行选择课程中讲解时绑定的是I ...