https://blog.csdn.net/u010976453/article/details/78488279

1. 损失函数

损失函数（Loss function）是用来估量你模型的预测值 f(x)f(x) 与真实值 YY 的不一致程度，它是一个非负实值函数，通常用 L(Y,f(x))L(Y,f(x)) 来表示。损失函数越小，模型的鲁棒性就越好。损失函数是经验风险函数的核心部分，也是结构风险函数的重要组成部分。模型的风险结构包括了风险项和正则项，通常如下所示：

θ∗=argminθ1N∑i=1NL(yi,f(xi;θ))+λ Φ(θ)θ∗=arg⁡minθ1N∑i=1NL(yi,f(xi;θ))+λ Φ(θ)

其中，前面的均值函数表示的是经验风险函数，LL代表的是损失函数，后面的 ΦΦ 是正则化项（regularizer）或者叫惩罚项（penalty term），它可以是L1，也可以是L2，或者其他的正则函数。整个式子表示的意思是找到使目标函数最小时的θθ值。

2. 常用损失函数

常见的损失误差有五种：
1. 铰链损失（Hinge Loss）：主要用于支持向量机（SVM）中；
2. 互熵损失（Cross Entropy Loss，Softmax Loss ）：用于Logistic 回归与Softmax 分类中；
3. 平方损失（Square Loss）：主要是最小二乘法（OLS）中；
4. 指数损失（Exponential Loss）：主要用于Adaboost 集成学习算法中；
5. 其他损失（如0-1损失，绝对值损失）

2.1 Hinge loss

Hinge loss 的叫法来源于其损失函数的图形，为一个折线，通用的函数表达式为：

L(mi)=max(0,1−mi(w))L(mi)=max(0,1−mi(w))

表示如果被正确分类，损失是0，否则损失就是 1−mi(w)1−mi(w) 。

在机器学习中，Hing 可以用来解间距最大化的问题，最有代表性的就是SVM 问题，最初的SVM 优化函数如下：

argminw,ζ12||w||2+C∑iζist.∀yiwTxi≥1−ζiζi≥0argminw,ζ12||w||2+C∑iζist.∀yiwTxi≥1−ζiζi≥0

将约束项进行变形，则为：

ζi≥1−yiwTxiζi≥1−yiwTxi

则损失函数可以进一步写为：

J(w)=12||w||2+C∑imax(0,1−yiwTxi)=12||w||2+C∑imax(0,1−mi(w))=12||w||2+C∑iLHinge(mi)J(w)=12||w||2+C∑imax(0,1−yiwTxi)=12||w||2+C∑imax(0,1−mi(w))=12||w||2+C∑iLHinge(mi)

因此， SVM 的损失函数可以看作是 L2-norm 和 Hinge loss 之和。

2.2 Softmax Loss

有些人可能觉得逻辑回归的损失函数就是平方损失，其实并不是。平方损失函数可以通过线性回归在假设样本是高斯分布的条件下推导得到，而逻辑回归得到的并不是平方损失。在逻辑回归的推导中，它假设样本服从伯努利分布（0-1分布），然后求得满足该分布的似然函数，接着取对数求极值等等。而逻辑回归并没有求似然函数的极值，而是把极大化当做是一种思想，进而推导出它的经验风险函数为：最小化负的似然函数（即maxF(y,f(x))→min−F(y,f(x)))maxF(y,f(x))→min−F(y,f(x)))。从损失函数的视角来看，它就成了Softmax 损失函数了。

log损失函数的标准形式：

L(Y,P(Y|X))=−logP(Y|X)L(Y,P(Y|X))=−log⁡P(Y|X)

逻辑回归的P(Y=y|x)P(Y=y|x) 表达式如下（为了将类别标签y统一为11 和00 ）：

其中

hθ(x)=11+exp(−f(x))hθ(x)=11+exp⁡(−f(x))

2.3 Squared Loss

最小二乘法是线性回归的一种，OLS将问题转化成了一个凸优化问题。在线性回归中，它假设样本和噪声都服从高斯分布（中心极限定理），最后通过极大似然估计（MLE）可以推导出最小二乘式子。最小二乘的基本原则是：最优拟合直线应该是使各点到回归直线的距离和最小的直线，即平方和最小。

平方损失（Square loss）的标准形式如下：

L(Y,f(X))=(Y−f(X))2L(Y,f(X))=(Y−f(X))2

当样本个数为nn时，此时的损失函数为：

L(Y,f(X))=∑i=1n(Y−f(X))2L(Y,f(X))=∑i=1n(Y−f(X))2

Y−f(X)Y−f(X) 表示残差，整个式子表示的是残差平方和，我们的目标就是最小化这个目标函数值，即最小化残差的平方和。

在实际应用中，我们使用均方差（MSE）作为一项衡量指标，公式如下：

MSE=1n∑i=1n(Yi~−Yi)2MSE=1n∑i=1n(Yi~−Yi)2

2.4 Exponentially Loss

损失函数的标准形式是：

L(Y,f(X))=exp[−Yf(X)]L(Y,f(X))=exp⁡[−Yf(X)]

exp-loss，主要应用于 Boosting 算法中，在Adaboost 算法中，经过 mm 次迭代后，可以得到 fm(x)fm(x) ：

fm(x)=fm−1(x)+αmGm(x)fm(x)=fm−1(x)+αmGm(x)

Adaboost 每次迭代时的目的都是找到最小化下列式子的参数αα 和GG：

argminα,G=∑i=1Nexp[−yi(fm−1(xi)+αG(xi))]arg⁡minα,G=∑i=1Nexp⁡[−yi(fm−1(xi)+αG(xi))]

易知，Adabooost 的目标式子就是指数损失，在给定nn个样本的情况下，Adaboost 的损失函数为：

L(Y,f(X))=12∑i=1nexp[−yif(xI)]L(Y,f(X))=12∑i=1nexp⁡[−yif(xI)]

关于Adaboost的详细推导介绍，可以参考Wikipedia：AdaBoost或者李航《统计学习方法》P145。

2.5 其他损失

0-1 损失函数

L(Y,f(X))={01ifY≠f(X)ifY=f(X)L(Y,f(X))={0ifY≠f(X)1ifY=f(X)

绝对值损失函数

L(Y,f(X))=|Y−f(X)|L(Y,f(X))=|Y−f(X)|

上述几种损失函数比较的可视化图像如下：

3. Hinge loss 与 Softmax loss

SVM和Softmax分类器是最常用的两个分类器。

SVM将输出 f(xi,W)f(xi,W) 作为每个分类的评分(没有规定的标准,难以直接解释)；
与SVM 不同，Softmax 分类器可以理解为逻辑回归分类器面对多个分类的一般话归纳，其输出(归一化的分类概率)更加直观,且可以从概率上解释。

在Softmax分类器中, 函数映射f(xi,W)f(xi,W) 保持不变,但将这些评分值看做每个分类未归一化的对数概率,且将折叶损失替换为交叉熵损失(cross-entropy loss),公式如下:

Li=−log(efyi∑jefj)Li=−log⁡(efyi∑jefj)

或等价的

Li=−fyi+log∑jfjLi=−fyi+log⁡∑jfj

fjfj 表示分类评分向量ff 中的第ii 个元素,和SVM一样,整个数据集的损失值是数据集中所有样本数据的损失值Li的均值和正则化损失之和。

概率论解释:

P(yi|xi,W)=efyi∑jefjP(yi|xi,W)=efyi∑jefj

解释为给定数据xixi ， WW 参数,分配给正确分类标签yiyi 的归一化概率。

实际操作注意事项——数值稳定: 编程实现softmax函数计算的时候,中间项efyiefyi 和 ∑jefj∑jefj 因为存在指数函数,所以数值可能非常大,除以大数值可能导致数值计算的不稳定,所以得学会归一化技巧.若在公式的分子和分母同时乘以一个常数CC ，并把它变换到求和之中,就能得到一个等价公式:

P(yi|xi,W)=CefyiC∑jefj=efyi+logC∑jefj+logCP(yi|xi,W)=CefyiC∑jefj=efyi+log⁡C∑jefj+log⁡C

C的值可自由选择,不会影响计算结果,通过这个技巧可以提高计算中的数值稳定性.通常将C设为:

logC=−maxfjlog⁡C=−maxfj

该技巧就是将向量f中的数值进行平移,使得最大值为0。

准确地说，SVM分类器使用的是铰链损失（hinge loss），有时候又被称为最大边界损失（max-margin loss）。Softmax分类器使用的是交叉熵损失（corss-entropy loss）。Softmax分类器的命名是从softmax函数那里得来的，softmax函数将原始分类评分变成正的归一化数值，所有数值和为1，这样处理后交叉熵损失才能应用。

Example：图像识别

针对给出的图像，SVM分类器可能给你的是一个[−2.85,0.86,0.28][−2.85,0.86,0.28] 对应分类“猫”，“狗”，“船”，而softmax分类器可以计算出这三个标签的”可能性“是[0.,0160.631,0.353][0.,0160.631,0.353] ，这就让你能看出对于不同分类准确性的把握。

这里Hinge Loss计算公式为：

Li=∑j≠yimax(0,f(xi,W)j−f(xi,W))yi+ΔLi=∑j≠yimax(0,f(xi,W)j−f(xi,W))yi+Δ

这里 ΔΔ 是一个阈值，表示即使误分类，但是没有达到阈值，也不存在损失。上面的公式把错误类别 (j≠yi)(j≠yi)都遍历一遍，求值加和。

设 xixi 的正确类别是”船”，阈值 Δ=1Δ=1 ，则对应的Hinge loss 为：

Li=max(0,−2.85−0.28+1)+max(0,0.86−0.28+1)=1.58Li=max(0,−2.85−0.28+1)+max(0,0.86−0.28+1)=1.58

下图是对ΔΔ 的理解，蓝色表示正确的类别，ΔΔ 表示一个安全范围，就算是有其他的得分，只要没有到达红色的ΔΔ 范围内,，对损失函数都没有影响。这就保证了SVM 算法的解的稀疏性。

而Softmax 损失则是对向量 fyifyi 指数正规化得到概率，再求对数即可。

Li=−log(efyi∑jefj)=−log(0.353)≈1.04Li=−log⁡(efyi∑jefj)=−log⁡(0.353)≈1.04

4.总结

机器学习作为一种优化方法，学习目标就是找到优化的目标函数——损失函数和正则项的组合；有了目标函数的“正确的打开方式”，才能通过合适的机器学习算法求解优化。

不同机器学习方法的损失函数有差异，合理理解各种损失优化函数的的特点更有利于我们对相关算法的理解。

参考文献

1. CS231n 课程
 2. 聊聊机器学习中的损失函数
 3. 知乎专栏-智能单元
 4. 机器学习-损失函数

机器学习中的损失函数（着重比较：hinge loss vs softmax loss）的更多相关文章

损失函数 hinge loss vs softmax loss
1. 损失函数损失函数(Loss function)是用来估量你模型的预测值 f(x) 与真实值 Y 的不一致程度,它是一个非负实值函数,通常用 L(Y,f(x)) 来表示. 损失函数越小,模型的鲁 ...
caffe中softmax loss源码阅读
(1) softmax loss <1> softmax loss的函数形式为: (1) zi为softmax的输入,f(zi)为softmax的输出. <2> sof ...
softmax、cross entropy和softmax loss学习笔记
之前做手写数字识别时,接触到softmax网络,知道其是全连接层,但没有搞清楚它的实现方式,今天学习Alexnet网络,又接触到了softmax,果断仔细研究研究,有了softmax,损失函数自然不可 ...
机器学习中的 7 大损失函数实战总结（附Python演练）
介绍想象一下-你已经在给定的数据集上训练了机器学习模型,并准备好将它交付给客户.但是,你如何确定该模型能够提供最佳结果?是否有指标或技术可以帮助你快速评估数据集上的模型? 当然是有的,简而言之,机器 ...
机器学习中的数学(1)-回归(regression)、梯度下降(gradient descent)
版权声明: 本文由LeftNotEasy所有,发布于http://leftnoteasy.cnblogs.com.如果转载,请注明出处,在未经作者同意下将本文用于商业用途,将追究其法律责任. 前言: ...
sklearn中的损失函数
python风控评分卡建模和风控常识(博客主亲自录制视频教程) https://study.163.com/course/introduction.htm?courseId=1005214003&am ...
paper 126：[转载] 机器学习中的范数规则化之（一）L0、L1与L2范数
机器学习中的范数规则化之(一)L0.L1与L2范数 zouxy09@qq.com http://blog.csdn.net/zouxy09 今天我们聊聊机器学习中出现的非常频繁的问题:过拟合与规则化. ...
机器学习中的范数规则化之（一）L0、L1与L2范数（转）
http://blog.csdn.net/zouxy09/article/details/24971995 机器学习中的范数规则化之(一)L0.L1与L2范数 zouxy09@qq.com http: ...
机器学习中的范数规则化之（一）L0、L1与L2范数非常好，必看
机器学习中的范数规则化之(一)L0.L1与L2范数 zouxy09@qq.com http://blog.csdn.net/zouxy09 今天我们聊聊机器学习中出现的非常频繁的问题:过拟合与规则化. ...

随机推荐

spring boot学习总结（二）-- 关于@SpringBootApplication的一些基础知识点
1.@SpringBootApplication 它是一个复合Annotation,实际上对于SpringBoot应用来说,最重要的是只有三个 @Target(ElementType.TYPE) @R ...
Token以及签名signature的设计与实现
LZ第一次给app写开放接口,把自己处理Token的实现记录下来,目的是如果以后遇到好的实现,能在此基础上改进.这一版写法非常粗糙,写出来就是让大家批评的,多多指教,感谢大家. 当初设计这块想达到的效 ...
FireDAC 下的 Sqlite [8] - 自定义函数
Sqlite 本身没有这个功能, FireDAC 通过 TFDSQLiteFunction 增加了该功能; 尽管通过某些 SQL 语句或通过视图也可以达到类似效果, 但函数会更灵活些. 本例先建了一个 ...
FireDAC 下的 Sqlite [2] - 第一个例子
为了方便测试, 我把官方提供的 C:\Users\Public\Documents\Embarcadero\Studio\14.0\Samples\data\FDDemo.sdb 复制了一份到 C:\ ...
CSS动画简介
现在,我很少写介绍CSS的文章,因为感觉网站开发的关键还是在服务器端. 但是,CSS动画除外,它实在太有用了. 本文介绍CSS动画的两大组成部分:transition和animation.我不打算给出 ...
[原创]互联网金融App测试介绍
[原创]互联网金融App测试介绍前端时间非常忙,终于非常忙的时间过去了,抽时间总结下我现在所在公司理财软件App测试,也各位分享下,也欢迎大家提建议,谢谢! 先介绍下我所在公司的产品特点,公司所研发 ...
vbs学习笔记1——判断文件和文件夹是否存在
首先分享一个“VBS脚本常用经典代码收集”,这里面关于vbs很丰富的内容. 所有vbs脚本都需要保存为.vbs形式才可以运行 FileSystemObject Object的所有方法参考:http:/ ...
securecrt中文乱码以及ubuntu设置locale
参考文献 http://wiki.ubuntu.org.cn/%E4%BF%AE%E6%94%B9locale http://www.bootf.com/547.html 强烈建议 ubuntu下面不 ...
Oracle数据库日期范围查询的两种实现方式
参考文档:http://database.51cto.com/art/201108/288058.htm Oracle数据库日期范围查询有两种方式:to_char方式和to_date方式,接下来我们通 ...
DELPHI实现关机，兼容全部WINDOWS系统转
{=================================================================================================== ...

机器学习中的损失函数 （着重比较：hinge loss vs softmax loss）