系列博客，原文在笔者所维护的github上：https://aka.ms/beginnerAI，
点击star加星不要吝啬，星越多笔者越努力。

第3章损失函数

3.0 损失函数概论

3.0.1 概念

在各种材料中经常看到的中英文词汇有：误差，偏差，Error，Cost，Loss，损失，代价......意思都差不多，在本书中，使用“损失函数”和“Loss Function”这两个词汇，具体的损失函数符号用J来表示，误差值用loss表示。

“损失”就是所有样本的“误差”的总和，亦即（m为样本数）：

\[损失 = \sum^m_{i=1}误差_i\]

\[J = \sum_{i=1}^m loss\]

在黑盒子的例子中，我们如果说“某个样本的损失”是不对的，只能说“某个样本的误差”，因为样本是一个一个计算的。如果我们把神经网络的参数调整到完全满足独立样本的输出误差为0，通常会令其它样本的误差变得更大，这样作为误差之和的损失函数值，就会变得更大。所以，我们通常会在根据某个样本的误差调整权重后，计算一下整体样本的损失函数值，来判定网络是不是已经训练到了可接受的状态。

损失函数的作用

损失函数的作用，就是计算神经网络每次迭代的前向计算结果与真实值的差距，从而指导下一步的训练向正确的方向进行。

如何使用损失函数呢？具体步骤：

用随机值初始化前向计算公式的参数；
代入样本，计算输出的预测值；
用损失函数计算预测值和标签值（真实值）的误差；
根据损失函数的导数，沿梯度最小方向将误差回传，修正前向计算公式中的各个权重值；
goto 2, 直到损失函数值达到一个满意的值就停止迭代。

3.0.2 机器学习常用损失函数

符号规则：a是预测值，y是样本标签值，J是损失函数值。

Gold Standard Loss，又称0-1误差
\[
loss=\begin{cases} 0 & a=y \\ 1 & a \ne y \end{cases}
\]
绝对值损失函数

\[
loss = |y-a|
\]

Hinge Loss，铰链/折页损失函数或最大边界损失函数，主要用于SVM（支持向量机）中

\[
loss=max(0,1-y \cdot a), y=\pm 1
\]

Log Loss，对数损失函数，又叫交叉熵损失函数(cross entropy error)

\[
loss = -\frac{1}{m} \sum_i^m y_i log(a_i) + (1-y_i)log(1-a_i) \qquad y_i \in \{0,1\}
\]

Squared Loss，均方差损失函数
\[
loss=\frac{1}{2m} \sum_i^m (a_i-y_i)^2
\]
Exponential Loss，指数损失函数
\[
loss = \frac{1}{m}\sum_i^m e^{-(y_i \cdot a_i)}
\]

3.0.3 损失函数图像理解

用二维函数图像理解单变量对损失函数的影响

图3-1 单变量的损失函数图

图3-1中，纵坐标是损失函数值，横坐标是变量。不断地改变变量的值，会造成损失函数值的上升或下降。而梯度下降算法会让我们沿着损失函数值下降的方向前进。

假设我们的初始位置在A点，$x=x0$，损失函数值（纵坐标）较大，回传给网络做训练；
经过一次迭代后，我们移动到了B点，$x=x1$，损失函数值也相应减小，再次回传重新训练；
以此节奏不断向损失函数的最低点靠近，经历了$x2、x3、x4、x5$；
直到损失值达到可接受的程度，比如$x5$的位置，就停止训练。

用等高线图理解双变量对损失函数影响

图3-2 双变量的损失函数图

图3-2中，横坐标是一个变量$w$，纵坐标是另一个变量$b$。两个变量的组合形成的损失函数值，在图中对应处于等高线上的唯一的一个坐标点。$w、b$所有的不同的值的组合会形成一个损失函数值的矩阵，我们把矩阵中具有相同（相近）损失函数值的点连接起来，可以形成一个不规则椭圆，其圆心位置，是损失值为0的位置，也是我们要逼近的目标。

这个椭圆如同平面地图的等高线，来表示的一个洼地，中心位置比边缘位置要低，通过对损失函数值的计算，对损失函数的求导，会带领我们沿着等高线形成的梯子一步步下降，无限逼近中心点。

3.0.4 神经网络中常用的损失函数

均方差函数，主要用于回归
交叉熵函数，主要用于分类

二者都是非负函数，极值在底部，用梯度下降法可以求解。

[ch03-00] 损失函数的更多相关文章

Spark机器学习读书笔记-CH03
3.1.获取数据: wget http://files.grouplens.org/datasets/movielens/ml-100k.zip 3.2.探索与可视化数据: In [3]: user_ ...
tensorflow 自定义损失函数示例
这个自定义损失函数的背景:(一般回归用的损失函数是MSE, 但要看实际遇到的情况而有所改变) 我们现在想要做一个回归,来预估某个商品的销量,现在我们知道,一件商品的成本是1元,售价是10元. 如果我们 ...
李航《统计学习方法》CH03
CH03 k近邻法前言章节目录 k近邻算法 k近邻模型模型距离度量 k值选择分类决策规则 k近邻法的实现: KDTree 构造KDTree 搜索KDTree 导读 kNN是一种基本分类与回归 ...
tensflow自定义损失函数
tensflow 不仅支持经典的损失函数,还可以优化任意的自定义损失函数. 预测商品销量时,如果预测值比真实销量大,商家损失的是生产商品的成本:如果预测值比真实值小,损失的则是商品的利润. 比如如果一 ...
机器学习中的损失函数（着重比较：hinge loss vs softmax loss）
https://blog.csdn.net/u010976453/article/details/78488279 1. 损失函数损失函数(Loss function)是用来估量你模型的预测值 f( ...
TensorFlow笔记-06-神经网络优化-损失函数,自定义损失函数,交叉熵
TensorFlow笔记-06-神经网络优化-损失函数,自定义损失函数,交叉熵神经元模型:用数学公式比表示为:f(Σi xi*wi + b), f为激活函数神经网络是以神经元为基本单位构成的激 ...
机器学习之路： tensorflow 自定义损失函数
git: https://github.com/linyi0604/MachineLearning/tree/master/07_tensorflow/ import tensorflow as tf ...
tensorflow：实战Google深度学习框架第四章01损失函数
深度学习:两个重要特性:多层和非线性线性模型:任意线性模型的组合都是线性模型,只通过线性变换任意层的全连接神经网络与单层神经网络没有区别. 激活函数:能够实现去线性化(神经元的输出通过一个非线性函数 ...
[ch03-01] 均方差损失函数
系列博客,原文在笔者所维护的github上:https://aka.ms/beginnerAI, 点击star加星不要吝啬,星越多笔者越努力. 3.1 均方差函数 MSE - Mean Square ...
L1、L2损失函数、Huber损失函数
L1范数损失函数,也被称为最小绝对值偏差(LAD),最小绝对值误差(LAE) L2范数损失函数,也被称为最小平方误差(LSE) L2损失函数 L1损失函数不是非常的鲁棒(robust) 鲁棒稳定解 ...

随机推荐

百万年薪python之路 -- 并发编程之多进程一
并发编程之多进程一. multiprocessing模块介绍 python中的多线程无法利用多核优势,如果想要充分地使用多核CPU的资源(os.cpu_count()查看),在python中大 ...
Robot Framework——对时间操作的datetime库常用关键字
1.对固定日期进行操作,增加或减去单位时间或者时间段 2.对两个时间段进行操作 3.对时间格式转化,获取时间戳 4.从完整时间中取指定年月日等 5.对时间类型进行格式化 6.获取当前时间或者指定时区时 ...
Markdown进阶（1）
对于工科生来说,在书写Markdown文本时,免不了要和上下标打交道,网上的博客大多良莠不齐,不太友好,本文想尽可能地解决一些在看完基础教程后再来书写Markdown文本时容易遇到的问题. 1.上下标 ...
day29作业
作业写一个基于TCP协议套接字,服务端实现接收客户端的连接并发. 基于多线程实现 # server.py import socket from threading import Thread def ...
JVM(4) 类文件结构
一.实现“平台无关性” 字节码(ByteCode)存储格式和虚拟机是实现语言无关性的基础.Java虚拟机不和包括Java在内的任何语言绑定,它只与“Clas”文件这种特定的二进制文件格式所关联,Cla ...
学习笔记49_Redis
Redis和memcache区别: 1 . mm是通过客户端驱动实现集群化,Redis是通过服务器配置文件集群 2. redis是可以进行持久化的存储 3. redis提供高级的数据结构,队列,栈都提 ...
Netty学习篇④-心跳机制及断线重连
心跳检测前言客户端和服务端的连接属于socket连接,也属于长连接,往往会存在客户端在连接了服务端之后就没有任何操作了,但还是占用了一个连接:当越来越多类似的客户端出现就会浪费很多连接,netty ...
Spring Boot 2.x监控数据可视化(Actuator + Prometheus + Grafana手把手)
TIPS 本文基于Spring Boot 2.1.4,理论支持Spring Boot 2.x所有版本众所周知,Spring Boot有个子项目Spring Boot Actuator,它为应用提供了 ...
『题解』洛谷P1314 聪明的质监员
更好的阅读体验 Portal Portal1: Luogu Portal2: LibreOJ Portal3: Vijos Description 小T是一名质量监督员,最近负责检验一批矿产的质量.这 ...
php ffmpeg视频和序列帧转化
php ffmpeg视频和序列帧转化 <pre>$cmd=shell_exec("ffmpeg -i ".__DIR__ . "/shipin1.mp4 -r ...

[ch03-00] 损失函数

第3章 损失函数