系列博客，原文在笔者所维护的github上：https://aka.ms/beginnerAI，
点击star加星不要吝啬，星越多笔者越努力。

第2章神经网络中的三个基本概念

2.0 通俗地理解三大概念

这三大概念是：反向传播，梯度下降，损失函数。

神经网络训练的最基本的思想就是：先“猜”一个结果，我们叫预测结果a，看看这个预测结果和事先标记好的训练集中的真实结果y之间的差距，然后调整策略，再试一次，这一次就不是“猜”了，而是有依据地向正确的方向靠近。如此反复多次，一直到预测结果和真实结果之间相差无几，亦即|a-y|->0，就结束训练。

在神经网络训练中，我们把“猜”叫做初始化，可以随机，也可以根据以前的经验给定初始值。即使是“猜”，也是有技术含量的。

这三个概念是前后紧密相连的，讲到一个，肯定会牵涉到另外一个。但由于损失函数篇幅较大，我们将在下一章中再详细介绍。

下面我们举几个例子来直观的说明下这三个概念。

2.0.1 例一：猜数

甲乙两个人玩儿猜数的游戏，数字的范围是[1,50]：

甲：我猜5

乙：太小了

甲：50

乙：有点儿大

甲：30

乙：小了

......

在这个游戏里：

目的：猜到乙心中的数字；
初始化：甲猜5；
前向计算：甲每次猜的新数字；
损失函数：乙在根据甲猜的数来和自己心中想的数做比较，得出“大了”或“小了”的结论；
反向传播：乙告诉甲“小了”、“大了”；
梯度下降：甲根据乙的反馈中的含义自行调整下一轮的猜测值。

这里的损失函数是什么呢？就是“太小了”，“有点儿大”，很不精确！这个“所谓的”损失函数给出了两个信息：

方向：大了或小了
程度：“太”，“有点儿”，但是很模糊

2.0.2 例二：黑盒子

假设有一个黑盒子如图2-1。

图2-1 黑盒子

我们只能看到输入和输出的数值，看不到里面的样子，当输入1时，输出2.334，然后黑盒子有个信息显示：我需要输出值是4。然后我们试了试输入2，结果输出5.332，一下子比4大了很多。那么我们第一次的损失值是$2.334-4=-1.666$，而二次的损失值是$5.332-4=1.332$。

这里，我们的损失函数就是一个简单的减法，用实际值减去目标值，但是它可以告诉你两个信息：1）方向，是大了还是小了；2）差值，是0.1还是1.1。这样就给了我们下一次猜的依据。

目的：猜到一个输入值，使得黑盒子的输出是4
初始化：输入1
前向计算：黑盒子内部的数学逻辑
损失函数：在输出端，用输出值减4
反向传播：告诉猜数的人差值，包括正负号和值
梯度下降：在输入端，根据正负号和值，确定下一次的猜测值，goto前向计算

2.0.3 例三：打靶

小明拿了一支步枪，射击100米外的靶子。这支步枪没有准星，或者是准星有问题，或者是小明眼神儿不好看不清靶子，或者是雾很大，或者风很大，或者由于木星的影响而侧向引力场异常......反正就是遇到各种干扰因素。

第一次试枪后，拉回靶子一看，弹着点偏左了，于是在第二次试枪时，小明就会有意识地向右侧偏几毫米，再看靶子上的弹着点，如此反复几次，小明就会掌握这支步枪的脾气了。图2-2显示了小明的5次试枪过程。

图2-2 打靶的弹着点记录

在有监督的学习中，需要衡量神经网络输出和所预期的输出之间的差异大小。这种误差函数需要能够反映出当前网络输出和实际结果之间一种量化之后的不一致程度，也就是说函数值越大，反映出模型预测的结果越不准确。

这个例子中，小明预期的目标是全部命中靶子的中心，最外圈是1分，之后越向靶子中心分数是2，3，4分，正中靶心可以得10分。

每次试枪弹着点和靶心之间的差距就叫做误差，可以用一个误差函数来表示，比如差距的绝对值，如图中的红色线。
一共试枪5次，就是迭代/训练了5次的过程。
每次试枪后，把靶子拉回来看弹着点，然后调整下一次的射击角度的过程，叫做反向传播。注意，把靶子拉回来看和跑到靶子前面去看有本质的区别，后者容易有生命危险，因为还有别的射击者。一个不恰当的比喻是，在数学概念中，人跑到靶子前面去看，叫做正向微分；把靶子拉回来看，叫做反向微分。
每次调整角度的数值和方向，叫做梯度。比如向右侧调整1毫米，或者向左下方调整2毫米。如图中的绿色矢量线。

上图是每次单发点射，所以每次训练样本的个数是1。在实际的神经网络训练中，通常需要多个样本，做批量训练，以避免单个样本本身采样时带来的误差。在本例中，多个样本可以描述为连发射击，假设一次可以连打3发子弹，每次的离散程度都类似，如图2-3所示。

图2-3 连发弹着点记录

如果每次3发子弹连发，这3发子弹的弹着点和靶心之间的差距之和再除以3，叫做损失，可以用损失函数来表示。

那小明每次射击结果和目标之间的差距是多少呢？在这个例子里面，用得分来衡量的话，就是说小明得到的反馈结果从差9分，到差8分，到差2分，到差1分，到差0分，这就是用一种量化的结果来表示小明的射击结果和目标之间差距的方式。也就是误差函数的作用。因为是一次只有一个样本，所以这里采用的是误差函数的称呼。如果一次有多个样本，就要叫做损失函数了。

其实射击还不这么简单，如果是远距离狙击，还要考虑空气阻力和风速，在神经网络里，空气阻力和风速可以对应到隐藏层的概念上。

在这个例子中：

目的：打中靶心；
初始化：随便打一枪，能上靶就行，但是要记住当时的步枪的姿态；
前向计算：让子弹飞一会儿，击中靶子；
损失函数：环数，偏离角度；
反向传播：把靶子拉回来看；
梯度下降：根据本次的偏差，调整步枪的射击角度，goto前向计算。

损失函数的描述是这样的：

1环，偏左上45度；
6环，偏左上15度；
7环，偏左；
8环，偏左下15度；
10环。

这里的损失函数也有两个信息：

距离；
方向。

所以，梯度，是个矢量！ 它应该即告诉我们方向，又告诉我们数值。

2.0.4 黑盒子的真正玩儿法

以上三个例子比较简单，容易理解，我们把黑盒子再请出来：黑盒子这件事真正的意义并不是猜测当输入是多少时输出会是4。它的实际意义是：我们要破解这个黑盒子！于是，我们会有如下破解流程：

记录下所有输入值和输出值，如表2-1。

表2-1 样本数据表

样本ID	输入(特征值)	输出(标签)
1	1	2.21
2	1.1	2.431
3	1.2	2.652
4	2	4.42

搭建一个神经网络，给出初始权重值，我们先假设这个黑盒子的逻辑是：$z=x + x^2$；
输入1，根据$z=x + x^2$得到输出为2，而实际的输出值是2.21，则误差值为$2-2.21=-0.21$，小了；
调整权重值，比如$z=1.5x+x^2$，再输入1.1，得到的输出为2.86，实际输出为2.431，则误差值为$2.86-2.431=0.429$，大了；
调整权重值，比如$z=1.2x+x^2$再输入1.2......
调整权重值，再输入2......
所有样本遍历一遍，计算平均的损失函数值；
依此类推，重复3，4，5，6过程，直到损失函数值小于一个指标，比如0.001，我们就可以认为网络训练完毕，黑盒子“破解”了，实际是被复制了，因为神经网络并不能得到黑盒子里的真实函数体，而只是近似模拟。

从上面的过程可以看出，如果误差值是正数，我们就把权重降低一些；如果误差值为负数，则升高权重。

2.0.5 总结

简单总结一下反向传播与梯度下降的基本工作原理：

初始化；
正向计算；
损失函数为我们提供了计算损失的方法；
梯度下降是在损失函数基础上向着损失最小的点靠近而指引了网络权重调整的方向；
反向传播把损失值反向传给神经网络的每一层，让每一层都根据损失值反向调整权重；
goto 2，直到精度足够好（比如损失函数值小于0.001）。

[ch02-00] 反向传播与梯度下降的通俗解释的更多相关文章

[AI]神经网络章2　神经网络中反向传播与梯度下降的基本概念
反向传播和梯度下降这两个词,第一眼看上去似懂非懂,不明觉厉.这两个概念是整个神经网络中的重要组成部分,是和误差函数/损失函数的概念分不开的. 神经网络训练的最基本的思想就是:先“蒙”一个结果,我们叫预 ...
<反向传播(backprop)>梯度下降法gradient descent的发展历史与各版本
梯度下降法作为一种反向传播算法最早在上世纪由geoffrey hinton等人提出并被广泛接受.最早GD由很多研究团队各自发表,可他们大多无人问津,而hinton做的研究完整表述了GD方法,同时hin ...
如何理解反向传播 Backpropagation 梯度下降算法要点
http://colah.github.io/posts/2015-08-Backprop/ http://www.zhihu.com/question/27239198 待翻译 http://blo ...
实现属于自己的TensorFlow(二) - 梯度计算与反向传播
前言上一篇中介绍了计算图以及前向传播的实现,本文中将主要介绍对于模型优化非常重要的反向传播算法以及反向传播算法中梯度计算的实现.因为在计算梯度的时候需要涉及到矩阵梯度的计算,本文针对几种常用操作的梯 ...
BP(back propagation)反向传播
转自:http://www.zhihu.com/question/27239198/answer/89853077 机器学习可以看做是数理统计的一个应用,在数理统计中一个常见的任务就是拟合,也就是给定 ...
再谈反向传播（Back Propagation）
此前写过一篇<BP算法基本原理推导----<机器学习>笔记>,但是感觉满纸公式,而且没有讲到BP算法的精妙之处,所以找了一些资料,加上自己的理解,再来谈一下BP.如有什么疏漏或 ...
cs231n（三）误差反向传播
摘要本节将对反向传播进行直观的理解.反向传播是利用链式法则递归计算表达式的梯度的方法.理解反向传播过程及其精妙之处,对于理解.实现.设计和调试神经网络非常关键.反向求导的核心问题是:给定函数 $f( ...
CS231n课程笔记翻译5：反向传播笔记
译者注:本文智能单元首发,译自斯坦福CS231n课程笔记Backprop Note,课程教师Andrej Karpathy授权翻译.本篇教程由杜客翻译完成,堃堃和巩子嘉进行校对修改.译文含公式和代码, ...
【cs231n】反向传播笔记
前言首先声明,以下内容绝大部分转自知乎智能单元,他们将官方学习笔记进行了很专业的翻译,在此我会直接copy他们翻译的笔记,有些地方会用红字写自己的笔记,本文只是作为自己的学习笔记.本文内容官网链接: ...

随机推荐

iview和element中日期选择器快捷选项的定制控件
公司的两个vue项目中都用到了iview和element这个框架,最近的两个需求都有关于日期选择的定制控件,就是要求日期选择的快捷选项左边栏有包含今日.昨日.本周.上周.最近一周.本月.上月.上季 ...
opencv::绘制-基本几何
画线 cv::line(LINE_4\LINE_8\LINE_AA) 画椭圆 cv::ellipse 画矩形 cv::rectangle 画圆 cv::circle 画填充 cv::fillPoly ...
opencv::卷积运算函数filter2D()
opencv::卷积运算函数filter2D() 使用掩模板矩阵(kernel)计算每个像素值与原图相比,没有黑边 int main(int argc, char** argv) { Mat src ...
三维动画形变算法（Mixed Finite Elements）
混合有限元方法通入引入辅助变量后可以将高阶微分问题变成一系列低阶微分问题的组合.在三维网格形变问题中,我们考虑如下泛函极值问题: 其中u: Ω0 → R3是变形体的空间坐标,上述泛函极值问题对应的欧拉 ...
Arduino学习笔记⑦ EEPROM断电保存数据
1.前言 EEPROM,叫做电可擦可编程可读寄存器(是不是觉得好官方,不知道是什么鬼?反正我也一脸懵逼),只需要知道这是一种断电后数据不会丢失的存储设备,可以用来应对需要做记录做保存的场合.简 ...
二叉树的查找(前序、中序、后序、层序遍历)--biaobiao88
建立一棵含有n个结点的二叉树,采用二叉链表存储: 输出前序.中序.后序..层序遍历该二叉树的遍历结果. 定义二叉树的数据类型——二叉树结点结构体BiNode.建立二叉链表可以采用扩展二叉树的一个遍历序 ...
C语言二叉树的遍历（递归和非递归）
#include <iostream> #include <cstdio> #include "biTree.h" #include "cstdl ...
Java基础（十一）回调（callback）与对象克隆（Cloneable）
一.回调 1.回调是一种常见的程序设计模式,可以指出某个特定时间发生时应该采取的动作. 在java.swing包中有一个类Timer类,可以使用它在到达指定的时间间隔作出什么动作.那么就有两个问题,即 ...
CSAPP：代码优化【矩阵运算】
编程除了使程序在所有可能的情况下都正确工作,还需要考虑程序的运行效率,上一节主要介绍了关于读写的优化,本节将对运算的优化进行分析.读写优化编写高效程序需要做到以下两点: 选择一组合适的算法和数据结构 ...
linux 安装swoole
1.首先我们要安装swoole扩展的话,需要把它的包下载下来,下载地址是: https://github.com/swoole/swoole-src 2.下载下来之后进行解压: unzip swool ...

[ch02-00] 反向传播与梯度下降的通俗解释

第2章 神经网络中的三个基本概念