损失函数

作用

在有监督的学习中，需要衡量神经网络输出和所预期的输出之间的差异大小。这种误差函数需要能够反映出当前网络输出和实际结果之间一种量化之后的不一致程度，也就是说函数值越大，反映出模型预测的结果越不准确。

还是拿练枪的Bob做例子，Bob预期的目标是全部命中靶子的中心，但他现在的命中情况是这个样子的：

最外圈是1分，之后越向靶子中心分数是2，3，4分，正中靶心可以得5分。

那Bob每次射击结果和目标之间的差距是多少呢？在这个例子里面，用得分来衡量的话，就是说Bob得到的反馈结果从差4分，到差3分，到差2分，到差1分，到差0分，这就是用一种量化的结果来表示Bob的射击结果和目标之间差距的方式。也就是误差函数的作用。因为是一次只有一个样本，所以这里采用的是误差函数的称呼。如果一次有多个样本，那么就要称呼这样子衡量不一致程度的函数就要叫做损失函数了。

以做线性回归的实际值和预测值为例，若自变量x是[-2, -1, 0, 1, 2]这样5个值，对应的期望值y是[-3, 0, 0, 3, 4]这样的值，目前预测使用的参数是(w, b) = (2, 1), 那么预测得到的值y_ = [-3, -1, 1, 3, 5], 采用均方误差计算这个预测和实际的损失就是∑4i=0(y[i]−y_[i])2∑i=04(y[i]−y_[i])2, 也就是3。那么如果采用的参量是(0, 0)，预测出来的值是[0, 0, 0, 0, 0],这是一个显然错误的预测结果，此时的损失大小就是34，3<343<34, 那么(2, 1)是一组比(0, 0)要合适的参量。

那么常用的损失函数有哪些呢？
这里先给一些前提，比如神经网络中的一个神经元：

常用损失函数

MSE (均方误差函数)
该函数就是最直观的一个损失函数了，计算预测值和真实值之间的欧式距离。预测值和真实值越接近，两者的均方差就越小。

想法来源
在给定一些点去拟合直线的时候（比如上面的例子），常采用最小二乘法，使各个训练点到拟合直线的距离尽量小。这样的距离最小在损失函数中的表现就是预测值和真实值的均方差的和。
函数形式：

loss=12∑i(y[i]−a[i])2

,
其中， aa是网络预测所得到的结果，yy代表期望得到的结果，也就是数据的标签，ii是样本的序号。
反向传播：

∂loss∂z=∑i(y[i]−a[i])∗∂a[i]∂z
缺点:
和∂a[i]∂z∂a[i]∂z关系密切，可能会产生收敛速度缓慢的现象，以下图为例（激活函数为sigmoid）

在激活函数的两端，梯度（黄色）都会趋向于0，采取MSE的方法衡量损失，在aa趋向于1而yy是0的情况下，损失loss是1，而梯度会趋近于0，在误差很大时收敛速度也会非常慢。

在这里我们可以参考activation中关于sigmoid函数求导的例子，假定x保持不变，只有一个输入的一个神经元，权重w=ln(9)w=ln(9)，偏置b=0b=0，也就是这样一个神经元：

保持参数统一不变，也就是学习率η=0.2η=0.2，目标输出y=0.5y=0.5, 此处输入x固定不变为x=1x=1，采用MSE作为损失函数计算，一样先做公式推导，

第一步，计算当前误差

loss=12(a−y)2=12(0.9−0.5)2=0.08

第二步，求出当前梯度

grad=(a−y)×∂a∂z∂z∂w=(a−y)×a×(1−a)×x=(0.9−0.5)×0.9×(1−0.9)×1=0.036

第三步，根据梯度更新当前输入值

w=w−η×grad=ln(9)−0.2×0.036=2.161

第四步，计算当前误差是否小于阈值（此处设为0.001)

a=11+e−wx=0.8967

loss=12(a−y)2=0.07868

第五步，重复步骤2-4直到误差小于阈值

[AI]神经网络章3　损失函数的更多相关文章

[AI]神经网络章2　神经网络中反向传播与梯度下降的基本概念
反向传播和梯度下降这两个词,第一眼看上去似懂非懂,不明觉厉.这两个概念是整个神经网络中的重要组成部分,是和误差函数/损失函数的概念分不开的. 神经网络训练的最基本的思想就是:先“蒙”一个结果,我们叫预 ...
[AI]神经网络章1　神经网络基本工作原理
神经元细胞的数学计算模型神经网络由基本的神经元组成,下图就是一个神经元的数学/计算模型,便于我们用程序来实现. 输入 (x1,x2,x3) 是外界输入信号,一般是一个训练数据样本的多个属性,比如,我 ...
Pytorch_第六篇_深度学习 (DeepLearning) 基础 [2]---神经网络常用的损失函数
深度学习 (DeepLearning) 基础 [2]---神经网络常用的损失函数 Introduce 在上一篇"深度学习 (DeepLearning) 基础 [1]---监督学习和无监督学习 ...
一个故事看懂AI神经网络工作原理
我是一个AI神经元我是一个AI神经元,刚刚来到这个世界上,一切对我来说都特别新奇. 之所以叫这个名字,是因为我的工作有点像人类身体中的神经元. 人体中的神经元可以传递生物信号,给它输入一个信号,它经 ...
deeplearning.ai 神经网络和深度学习 week4 深层神经网络听课笔记
1. 计算深度神经网络的时候,尽量向量化数据,不要用for循环.唯一用for循环的地方是依次在每一层做计算. 2. 最常用的检查代码是否有错的方法是检查算法中矩阵的维度. 正向传播: 对于单个样本,第 ...
My blog in AI ---神经网络，神经元（neural network，nervecell）
尽管我们有很多经验丰富的软件开发人员,但是利用hard code的方法,要解决一些问题,我们的程序员还是优点捉襟见肘,这些问题包括,识别手写数字照片上的数字:分辨一张彩色照片上是否有一只猫咪:准确理解 ...
tensorflow：实战Google深度学习框架第四章01损失函数
深度学习:两个重要特性:多层和非线性线性模型:任意线性模型的组合都是线性模型,只通过线性变换任意层的全连接神经网络与单层神经网络没有区别. 激活函数:能够实现去线性化(神经元的输出通过一个非线性函数 ...
deeplearning.ai 神经网络和深度学习 week4 深层神经网络
1. 计算深度神经网络的时候,尽量向量化数据,不要用for循环.唯一用for循环的地方是依次在每一层做计算. 2. 最常用的检查代码是否有错的方法是检查算法中矩阵的维度. 正向传播: 对于单个样本,第 ...
deeplearning.ai 神经网络和深度学习 week3 浅层神经网络听课笔记
1. 第i层网络 Z[i] = W[i]A[i-1] + B[i],A[i] = f[i](Z[i]). 其中, W[i]形状是n[i]*n[i-1],n[i]是第i层神经元的数量: A[i-1]是第 ...

随机推荐

昆虫之膜翅目(Hymenoptera)
1.简介膜翅目昆虫(sawﬂies, wasps, ants, and bees,叶蜂.黄蜂目.蚂蚁目和蜜蜂目)是四大种类繁多的昆虫目之一,包括15.3万多种已知昆虫,可能还有多达100万种尚未发现 ...
QPS/TPS/并发量/系统吞吐量的概念
我们在日常工作中经常会听到QPS/TPS这些名词,也会经常被别人问起说你的系统吞吐量有多大.这个问题从业务上来讲,可以理解为应用系统每秒钟最大能接受的用户访问量.或者每秒钟最大能处理的请求数: QPS ...
C#之代码优化
1.if和swith: 区别:1.if语句会执行多次判断,增加CPU的消耗,效率较低:switch只判断一次,效率较高 2.if表示的是一个范围,switch表示一个点 2.for和foreach f ...
python文件操作之二进制
列表项三元运算符号: a=3 b=7 val=a if a>b else val=b print(val) 文件处理首先给你一个文件,或者自己建立一个文件,那如何查看文件的内容呢? 1.安装 ...
JMeter学习（十三）目录介绍（转载）
转载自 http://www.cnblogs.com/yangxia-test JMeter也学了一阵子了,对于基本的操作已了解,再回过头来看看Jmeter的目录,本篇是对于它的目录进行一些简单的介绍 ...
jQuery 替换元素
参考https://www.cnblogs.com/halai/p/6868027.html http://www.w3school.com.cn/jquery/manipulation_replac ...
jenkins搭建自动化部署平台（svn+tomcat重启）
原文链接:http://blog.csdn.net/zjs40/article/details/51818322 jenkins 自动化部署和集成代码的平台可以将Git svn 上的代码 check ...
POJ-3414.Pots.(BFS + 路径打印)
这道题做了很长时间,一开始上课的时候手写代码,所以想到了很多细节,但是创客手打代码的时候由于疏忽又未将pair赋初值,导致一直输出错误,以后自己写代码可以专心一点,可能会在宿舍图书馆或者Myhome, ...
Netty实践二(心跳检测)
我们使用Socket通信一般经常会处理多个服务器之间的心跳检测,一般来讲,我们去维护服务器集群,肯定要有一台或几台服务器主机(Master),然后还应该有N台(Slave),那么我们的主机肯定要时时刻 ...
20 【python】入门指南：常用数据结构
Python内置了三种高级数据结构:list,tuple,dict list:数组,相同类型的元素组成的数组 tuple:元组,相同类型的元素组成的数组,但是这里有限定条件(长度是固定的,并且值也是固 ...

[AI]神经网络章3 损失函数

损失函数

作用

常用损失函数

[AI]神经网络章3 损失函数的更多相关文章

随机推荐

热门专题

[AI]神经网络章3　损失函数

[AI]神经网络章3　损失函数的更多相关文章