神经网络优化篇：详解梯度的数值逼近（Numerical approximation of gradients）

在实施backprop时，有一个测试叫做梯度检验，它的作用是确保backprop正确实施。因为有时候，虽然写下了这些方程式，却不能100%确定，执行backprop的所有细节都是正确的。为了逐渐实现梯度检验，首先说说如何计算梯度的数值逼近。

先画出函数\(f\)，标记为\(f\left( \theta \right)\)，\(f\left( \theta \right)=\theta^{3}\)，先看一下\(\theta\)的值，假设\(\theta=1\)，不增大\(\theta\)的值，而是在\(\theta\) 右侧，设置一个\(\theta +\varepsilon\)，在\(\theta\)左侧，设置\(\theta -\varepsilon\)。因此\(\theta=1\)，\(\theta +\varepsilon =1.01,\theta -\varepsilon =0.99\),，跟以前一样，\(\varepsilon\)的值为0.01，看下这个小三角形，计算高和宽的比值，就是更准确的梯度预估，选择\(f\)函数在\(\theta -\varepsilon\)上的这个点，用这个较大三角形的高比上宽，技术上的原因就不详细解释了，较大三角形的高宽比值更接近于\(\theta\)的导数，把右上角的三角形下移，好像有了两个三角形，右上角有一个，左下角有一个，通过这个绿色大三角形同时考虑了这两个小三角形。所以得到的不是一个单边公差而是一个双边公差。

写一下数据算式，图中绿色三角形上边的点的值是\(f( \theta +\varepsilon )\)，下边的点是\(f( \theta-\varepsilon)\)，这个三角形的高度是\(f( \theta +\varepsilon)-f(\theta -\varepsilon)\)，这两个宽度都是ε，所以三角形的宽度是\(2\varepsilon\)，高宽比值为\(\frac{f(\theta + \varepsilon ) - (\theta -\varepsilon)}{2\varepsilon}\)，它的期望值接近\(g( \theta)\)，\(f( \theta)=\theta^{3}\)传入参数值，\(\frac {f\left( \theta + \varepsilon \right) - f(\theta -\varepsilon)}{2\varepsilon} = \frac{{(1.01)}^{3} - {(0.99)}^{3}}{2 \times0.01}\)，大家可以暂停视频，用计算器算算结果，结果应该是3.0001，而当\(\theta =1\)时，\(g( \theta)=3\theta^{2} =3\)，所以这两个\(g(\theta)\)值非常接近，逼近误差为0.0001，前面只考虑了单边公差，即从\(\theta\)到\(\theta +\varepsilon\)之间的误差，\(g( \theta)\)的值为3.0301，逼近误差是0.03，不是0.0001，所以使用双边误差的方法更逼近导数，其结果接近于3，现在更加确信，\(g( \theta)\)可能是\(f\)导数的正确实现，在梯度检验和反向传播中使用该方法时，最终，它与运行两次单边公差的速度一样，实际上，认为这种方法还是非常值得使用的，因为它的结果更准确。

这是一些可能比较熟悉的微积分的理论，如果不太明白讲的这些理论也没关系，导数的官方定义是针对值很小的\(\varepsilon\)，导数的官方定义是\(f^{'}\theta) = \operatorname{}\frac{f( \theta + \varepsilon) -f(\theta -\varepsilon)}{2\varepsilon}\)，这里有涉及到微积分的知识。

对于一个非零的\(\varepsilon\)，它的逼近误差可以写成\(O(\varepsilon^{2})\)，ε值非常小，如果\(\varepsilon=0.01\)，\(\varepsilon^{2}=0.0001\)，大写符号\(O\)的含义是指逼近误差其实是一些常量乘以\(\varepsilon^{2}\)，但它的确是很准确的逼近误差，所以大写\(O\)的常量有时是1。然而，如果用另外一个公式逼近误差就是\(O(\varepsilon)\)，当\(\varepsilon\)小于1时，实际上\(\varepsilon\)比\(\varepsilon^{2}\)大很多，所以这个公式近似值远没有左边公式的准确，所以在执行梯度检验时，使用双边误差，即\(\frac{f\left(\theta + \varepsilon \right) - f(\theta -\varepsilon)}{2\varepsilon}\)，而不使用单边公差，因为它不够准确。

如果不理解上面两条结论，所有公式都在这儿，不用担心，如果对微积分和数值逼近有所了解，这些信息已经足够多了，重点是要记住，双边误差公式的结果更准确。

这篇讲了如何使用双边误差来判断别人给的函数\(g( \theta)\)，是否正确实现了函数\(f\)的偏导，现在可以使用这个方法来检验反向传播是否得以正确实施，如果不正确，它可能有bug需要来解决。

神经网络优化篇：详解梯度的数值逼近（Numerical approximation of gradients）的更多相关文章

PHP函数篇详解十进制、二进制、八进制和十六进制转换函数说明
PHP函数篇详解十进制.二进制.八进制和十六进制转换函数说明作者: 字体:[增加减小] 类型:转载中文字符编码研究系列第一期,PHP函数篇详解十进制.二进制.八进制和十六进制互相转换函数说明 ...
走向DBA[MSSQL篇] 详解游标
原文:走向DBA[MSSQL篇] 详解游标前篇回顾:上一篇虫子介绍了一些不常用的数据过滤方式,本篇详细介绍下游标. 概念简单点说游标的作用就是存储一个结果集,并根据语法将这个结果集的数据逐条处理. ...
Scala进阶之路-Scala函数篇详解
Scala进阶之路-Scala函数篇详解作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.传值调用和传名调用 /* @author :yinzhengjie Blog:http: ...
【零基础】神经网络优化之dropout和梯度校验
一.序言 dropout和L1.L2一样是一种解决过拟合的方法,梯度检验则是一种检验“反向传播”计算是否准确的方法,这里合并简单讲述,并在文末提供完整示例代码,代码中还包含了之前L2的示例,全都是在“ ...
CentOS 7 下编译安装lnmp之PHP篇详解
一.安装环境宿主机=> win7,虚拟机 centos => 系统版本:centos-release-7-5.1804.el7.centos.x86_64 二.PHP下载官网 http ...
CentOS 7 下编译安装lnmp之MySQL篇详解
一.安装环境宿主机=> win7,虚拟机 centos => 系统版本:centos-release-7-5.1804.el7.centos.x86_64 二.MySQL下载 MySQL ...
CentOS 7 下编译安装lnmp之nginx篇详解
一.安装环境宿主机=> win7,虚拟机 centos => 系统版本:CentOS Linux release 7.5.1804 (Core),ip地址 192.168.1.168 ...
Canal：同步mysql增量数据工具，一篇详解核心知识点
老刘是一名即将找工作的研二学生,写博客一方面是总结大数据开发的知识点,一方面是希望能够帮助伙伴让自学从此不求人.由于老刘是自学大数据开发,博客中肯定会存在一些不足,还希望大家能够批评指正,让我们一起进 ...
java提高篇-----详解java的四舍五入与保留位
转载:http://blog.csdn.net/chenssy/article/details/12719811 四舍五入是我们小学的数学问题,这个问题对于我们程序猿来说就类似于1到10的加减乘除那么 ...
组件--Fragment(碎片)第二篇详解
感觉之前看的还是不清楚,重新再研究了一次 Fragment常用的三个类: android.app.Fragment 主要用于定义Fragment android.app.FragmentManager ...

随机推荐

Asp-Net-Core开发笔记：快速在已有项目中引入EFCore
前言很多项目一开始选型的时候没有选择EFCore,不过EFCore确实好用,也许由于种种原因后面还是需要用到,这时候引入EFCore也很方便. 本文以 StarBlog 为例,StarBlog 目前 ...
RocketMQ版控制台，在左侧
打开IntelliJ IDEA,创建一个Java工程. 在pom.xml文件中添加以下依赖引入Java SDK的依赖库. <dependency> <groupId>org ...
fmpeg 多张图片转视频,视频转gif,截取视频,截取视频里的帧
ffmpeg 多张图片转视频,视频转gif,截取视频,截取视频里的帧月色下的独轮车于 2017-06-20 17:32:01 发布 6250 收藏 3文章标签: ffmpeg版权 android学 ...
Apifox调用文件下载或Excel导出接口
点发送下面这个发送并下载就行了,,,,,在网上搜了一下午愣是没看到,,,,,,
CF1343C
题目简化和分析: 给您一个序列,您要在其中选择若干个数使得: 相邻两数异号长度最大,总和最大我们可以牢牢抓住长度且总和最大,这一特性. 说明我们必须在每一个连续的同号的子串中被迫选择最大的,以满足 ...
HDU 1312 Red and Black 题解
//注意边界判断,调了好久#include <iostream> #include <queue> using namespace std; #define check(x,y ...
安信可开发环境构建-基于Ai-WB2系列和 Ai-M61 或 Ai-M62 （环境上下文切换）
首先,对于Ai-WB2系列环境的构建官方文档已经讲的非常明白了,这里不做阐述如下链接所示https://blog.csdn.net/Boantong_/article/details/12848091 ...
把工单历史表中的数据,按照工单进行分类,每一批工单的数据放在同一个 key 中
/** * 把工单历史表中的数据,按照工单进行分类,每一批工单的数据放在同一个key中 * 将对象列表按名称分类成 Map(分类名必与对象的某 get 方法的后的名一致<如:get(name) ...
[C++]STL - 队列(Queue) 栈(Stack) 链表(list)
STL - 队列(Queue) 栈(Stack) 链表(list) Queue 队列结构特征这是一种线性储存结构其数据有先进先出的特点这种特点被称为FIFO(First In First Ou ...
CSS3 rgb and rgba（透明色）的使用
作者:WangMin 格言:努力做好自己喜欢的每一件事对于颜色相信大家都很敏感,眼睛所见之处都存在颜色,那在css中我们用什么来表示颜色呢?CSS 中的颜色有三种定义方式:使用颜色方法(RGB.RG ...

神经网络优化篇：详解梯度的数值逼近（Numerical approximation of gradients）

神经网络优化篇：详解梯度的数值逼近（Numerical approximation of gradients）的更多相关文章

随机推荐

热门专题