理解指数加权平均数

回忆一下这个计算指数加权平均数的关键方程。

\({{v}_{t}}=\beta {{v}_{t-1}}+(1-\beta ){{\theta }_{t}}\)

\(\beta=0.9\)的时候，得到的结果是红线，如果它更接近于1，比如0.98，结果就是绿线，如果\(\beta\)小一点，如果是0.5，结果就是黄线。

进一步地分析，来理解如何计算出每日温度的平均值。

同样的公式，\({{v}_{t}}=\beta {{v}_{t-1}}+(1-\beta ){{\theta }_{t}}\)

使\(\beta=0.9\)，写下相应的几个公式，所以在执行的时候，\(t\)从0到1到2到3，\(t\)的值在不断增加，为了更好地分析，写的时候使得\(t\)的值不断减小，然后继续往下写。

首先看第一个公式，理解\(v_{100}\)是什么？调换一下这两项（\(0.9v_{99}0.1\theta_{100}\)），\(v_{100}= 0.1\theta_{100} + 0.9v_{99}\)。

那么\(v_{99}\)是什么？就代入这个公式（\(v_{99} = 0.1\theta_{99} +0.9v_{98}\)），所以：

\(v_{100} = 0.1\theta_{100} + 0.9(0.1\theta_{99} + 0.9v_{98})\)。

那么\(v_{98}\)是什么？可以用这个公式计算（\(v_{98} = 0.1\theta_{98} +0.9v_{97}\)），把公式代进去，所以：

\(v_{100} = 0.1\theta_{100} + 0.9(0.1\theta_{99} + 0.9(0.1\theta_{98} +0.9v_{97}))\)。

以此类推，如果把这些括号都展开，

\(v_{100} = 0.1\theta_{100} + 0.1 \times 0.9 \theta_{99} + 0.1 \times {(0.9)}^{2}\theta_{98} + 0.1 \times {(0.9)}^{3}\theta_{97} + 0.1 \times {(0.9)}^{4}\theta_{96} + \ldots\)

所以这是一个加和并平均，100号数据，也就是当日温度。分析\(v_{100}\)的组成，也就是在一年第100天计算的数据，但是这个是总和，包括100号数据，99号数据，97号数据等等。画图的一个办法是，假设有一些日期的温度，所以这是数据，这是\(t\)，所以100号数据有个数值，99号数据有个数值，98号数据等等，\(t\)为100，99，98等等，这就是数日的温度数值。

然后构建一个指数衰减函数，从0.1开始，到\(0.1 \times 0.9\)，到\(0.1 \times {(0.9)}^{2}\)，以此类推，所以就有了这个指数衰减函数。

计算\(v_{100}\)是通过，把两个函数对应的元素，然后求和，用这个数值100号数据值乘以0.1，99号数据值乘以0.1乘以\({(0.9)}^{2}\)，这是第二项，以此类推，所以选取的是每日温度，将其与指数衰减函数相乘，然后求和，就得到了\(v_{100}\)。

结果是，稍后详细讲解，不过所有的这些系数（\(0.10.1 \times 0.90.1 \times {(0.9)}^{2}0.1 \times {(0.9)}^{3}\ldots\)），相加起来为1或者逼近1，称之为偏差修正。

最后也许会问，到底需要平均多少天的温度。实际上\({(0.9)}^{10}\)大约为0.35，这大约是\(\frac{1}{e}\)，e是自然算法的基础之一。大体上说，如果有\(1-\varepsilon\)，在这个例子中，\(\varepsilon=0.1\)，所以\(1-\varepsilon=0.9\)，\({(1-\varepsilon)}^{(\frac{1}{\varepsilon})}\)约等于\(\frac{1}{e}\)，大约是0.34，0.35，换句话说，10天后，曲线的高度下降到\(\frac{1}{3}\)，相当于在峰值的\(\frac{1}{e}\)。

又因此当\(\beta=0.9\)的时候，说仿佛在计算一个指数加权平均数，只关注了过去10天的温度，因为10天后，权重下降到不到当日权重的三分之一。

相反，如果，那么0.98需要多少次方才能达到这么小的数值？\({(0.98)}^{50}\)大约等于\(\frac{1}{e}\)，所以前50天这个数值比\(\frac{1}{e}\)大，数值会快速衰减，所以本质上这是一个下降幅度很大的函数，可以看作平均了50天的温度。因为在例子中，要代入等式的左边，\(\varepsilon=0.02\)，所以\(\frac{1}{\varepsilon}\)为50，由此得到公式，平均了大约\(\frac{1}{(1-\beta)}\)天的温度，这里\(\varepsilon\)代替了\(1-\beta\)，也就是说根据一些常数，能大概知道能够平均多少日的温度，不过这只是思考的大致方向，并不是正式的数学证明。

最后讲讲如何在实际中执行，还记得吗？一开始将\(v_{0}\)设置为0，然后计算第一天\(v_{1}\)，然后\(v_{2}\)，以此类推。

现在解释一下算法，可以将\(v_{0}\)，\(v_{1}\)，\(v_{2}\)等等写成明确的变量，不过在实际中执行的话，要做的是，一开始将\(v\)初始化为0，然后在第一天使\(v:= \beta v + (1 - \beta)\theta_{1}\)，然后第二天，更新\(v\)值，\(v: = \beta v + (1 -\beta)\theta_{2}\)，以此类推，有些人会把\(v\)加下标，来表示\(v\)是用来计算数据的指数加权平均数。

再说一次，但是换个说法，\(v_{\theta} =0\)，然后每一天，拿到第\(t\)天的数据，把\(v\)更新为\(v: = \beta v_{\theta} + (1 -\beta)\theta_{t}\)。

指数加权平均数公式的好处之一在于，它占用极少内存，电脑内存中只占用一行数字而已，然后把最新数据代入公式，不断覆盖就可以了，正因为这个原因，其效率，它基本上只占用一行代码，计算指数加权平均数也只占用单行数字的存储和内存，当然它并不是最好的，也不是最精准的计算平均数的方法。如果要计算移动窗，直接算出过去10天的总和，过去50天的总和，除以10和50就好，如此往往会得到更好的估测。但缺点是，如果保存所有最近的温度数据，和过去10天的总和，必须占用更多的内存，执行更加复杂，计算成本也更加高昂。

神经网络优化篇：理解指数加权平均数（Understanding exponentially weighted averages）的更多相关文章

【零基础】神经网络优化之Adam
一.序言 Adam是神经网络优化的另一种方法,有点类似上一篇中的“动量梯度下降”,实际上是先提出了RMSprop(类似动量梯度下降的优化算法),而后结合RMSprop和动量梯度下降整出了Adam,所以 ...
Tensorflow学习：（三）神经网络优化
一.完善常用概念和细节 1.神经元模型: 之前的神经元结构都采用线上的权重w直接乘以输入数据x,用数学表达式即,但这样的结构不够完善. 完善的结构需要加上偏置,并加上激励函数.用数学公式表示为:.其中 ...
神经网络优化算法：梯度下降法、Momentum、RMSprop和Adam
最近回顾神经网络的知识,简单做一些整理,归档一下神经网络优化算法的知识.关于神经网络的优化,吴恩达的深度学习课程讲解得非常通俗易懂,有需要的可以去学习一下,本人只是对课程知识点做一个总结.吴恩达的深度 ...
zz图像、神经网络优化利器:了解Halide
动图示例实在太好图像.神经网络优化利器:了解Halide Oldpan 2019年4月17日 0条评论 1,327次阅读 3人点赞前言 Halide是用C++作为宿主语言的一个图像处理相 ...
Halide视觉神经网络优化
Halide视觉神经网络优化概述 Halide是用C++作为宿主语言的一个图像处理相关的DSL(Domain Specified Language)语言,全称领域专用语言.主要的作用为在软硬层面上( ...
java提高篇-----理解java的三大特性之封装
在<Think in java>中有这样一句话:复用代码是Java众多引人注目的功能之一.但要想成为极具革命性的语言,仅仅能够复制代码并对加以改变是不够的,它还必须能够做更多的事情.在这句 ...
理解LSTM网络--Understanding LSTM Networks（翻译一篇colah's blog）
colah的一篇讲解LSTM比较好的文章,翻译过来一起学习,原文地址:http://colah.github.io/posts/2015-08-Understanding-LSTMs/ ,Posted ...
神经网络优化算法：Dropout、梯度消失/爆炸、Adam优化算法，一篇就够了！
1. 训练误差和泛化误差机器学习模型在训练数据集和测试数据集上的表现.如果你改变过实验中的模型结构或者超参数,你也许发现了:当模型在训练数据集上更准确时,它在测试数据集上却不⼀定更准确.这是为什么呢 ...
Task6.PyTorch理解更多神经网络优化方法
1.了解不同优化器 2.书写优化器代码3.Momentum4.二维优化,随机梯度下降法进行优化实现5.Ada自适应梯度调节法6.RMSProp7.Adam8.PyTorch种优化器选择梯度下降法: ...
[Math]理解卡尔曼滤波器 (Understanding Kalman Filter) zz
1. 卡尔曼滤波器介绍卡尔曼滤波器的介绍, 见 Wiki 这篇文章主要是翻译了 Understanding the Basis of the Kalman Filter Via a Simple a ...

随机推荐

CPU占用99%
晚间迁移数据库后,第二天下午来调优,发现CPU占用达到惊人的99%,如下: 分析15:00-16:00期间AWR报告,发现SQL硬解析严重,如下: 每秒硬解析达到69.9次,library hit%太 ...
P1844 阅览室
此题现有题解较为冗长,因此前来贡献一发最短解. 首先正常的思路是直接按题意模拟.即: 枚举当前时刻 \(T\) 对于每个人,标记该时刻想要拿到的书根据题目的要求判断冲突情况对书进行分配实现起来复 ...
文心一言 VS 讯飞星火 VS chatgpt （122）-- 算法导论10.4 3题
三.用go语言,给定一个n结点的二叉树,写出一个 O(n)时间的非递归过程,将该树每个结点的关键字输出.可以使用一个栈作为辅助数据结构. 文心一言: 以下是一个使用 Go 语言编写的函数,该函数使用一 ...
字符串匹配|kmp笔记
很久之前学的了. 我很懒,不太喜欢画图. 做个笔记回忆一下: kmp 朴素比对字符串所谓字符串匹配,是这样一种问题:"字符串 T 是否为字符串 S 的子串?如果是,它出现在 S 的哪些位置 ...
Leetcode.11盛最多水的容器（双指针）
给定一个长度为 n 的整数数组 height .有 n 条垂线,第 i 条线的两个端点是 (i, 0) 和 (i, height[i]) . 找出其中的两条线,使得它们与 x 轴共同构成的容器可以容纳 ...
[Python急救站]文本进度条
完游戏的朋友们,是不是看到那种加载加载进度条,感觉特别不错呢,所以今天就来看看文本进度条怎么做. 1.基本的多行文本进度条 import time scale = 10 # 变量scale表示输出进度 ...
CSS 样式书写顺序及规范
作者:WangMin 格言:努力做好自己喜欢的每一件事在项目中,大部分前端程序员都没有按照良好的CSS书写规范来写CSS代码,每次写css样式都是用到什么就在样式表后添加什么,完全没有考虑到样式属性 ...
CSS属性 Position的几种定位方式
作者:WangMin 格言:努力做好自己喜欢的每一件事在讲几种定位方式之前,我们先来了解一下什么是普通流(normal flow)? 除非专门指定,否则所有框都在普通流中定位.普通流中元素框的位置由 ...
python类的赋值操作和浅拷贝
变量的赋值只是形成了两个变量,但是还是指向同一个对象,我们来看看代码 class SWS: pass class SSN: pass class C: def __init__(self, sws, ...
基于DotNetty实现自动发布 - 项目的配置与发现
前言上一篇,我们实现了基于 DotNetty 的通信基础模块的搭建,本篇,主要实现待发布 Web 项目的集成. 创建待发布项目为了测试, 我创建了一个基于 .NET 4.8 的 Web 项目 Op ...

神经网络优化篇：理解指数加权平均数（Understanding exponentially weighted averages）

理解指数加权平均数

神经网络优化篇：理解指数加权平均数（Understanding exponentially weighted averages）的更多相关文章

随机推荐

热门专题