代理损失函数(surrogate loss function)

Surrogate loss function，中文可以译为代理损失函数。当原本的loss function不便计算的时候，我们就会考虑使用surrogate loss function。

在二元分类问题中，假如我们有\(n\)个训练样本\(\{(X_1,y_1),(X_2,y_2),\cdots,(X_n,y_n)\}\)，其中\(y_i\in\{0,1\}\)。为了量化一个模型的好坏，我们通常使用一些损失函数，损失函数越小，模型越好。最常用的损失函数就是零一损失函数\(l(\hat y,y)\)。
\[
l(y, \hat y)=\sum_{i=1}^m\chi(y_i\neq\hat y_i).
\]
比如说，测试集里有5个数据点，真实分类为\(y=(1,1,1,-1,-1)\)，预测分类为\(\hat y =(1,-1,1,1,-1)\)。那么

\[
l(y, \hat y)=0+1+0+1+0=2.
\]
对于一个loss function\(l\)，我们的目标是要找到一个最优的分类器\(h\)，使得这个分类器在测试样本上的期望损失最小。数学式子表达是
\[
\min_{h}\mathbb{E}_{X\times y}[l(y, h(X))].
\]

理论上，我们是可以直接对上式进行优化，得到最优的分类器\(h\)。然而这个过程是非常困难的（甚至不可行）。其一是因为\(X\times y\)的概率分布是未知的，所以计算loss的期望是不可行的。另外一个难处是这个期望值很难进行优化，因为这个loss function是非连续的，这个优化问题本质是NP-Hard的。举个例子来说，假定\(X\in\mathbb{R}^2\)，我们希望找一个线性分类器

\[
h(X)=\begin{cases}1, ~Xw\geq 0\\ -1, ~Xw<0 \end{cases}
\]

使得loss的期望最小化。所以我们也就是求解\(w=(w_1, w_2)^T\)。关于\(w_1,w_2\)以及loss的图像大致如下，

这个函数显然是非连续的。我们常用的优化方法，比如梯度下降，对此都失效了。正因此，我们可以考虑一个与零一损失相接近的函数，作为零一损失的替身。这个替身我们就称作surrogate loss function代理损失函数。为了计算的便利，这个函数通常是凸函数。例如逻辑回归的loss function，\(\log(1+e^{-yXw})\)，就是光滑可导的，更容易被求解。

最后补充几句。当我们把原来的零一损失函数替代为其他损失函数的时候，我们自然会问，当我们对代理损失函数进行优化的时候，原来的零一损失是否也被最小化了？它们的差距是多少呢？如果最优化代理损失函数的同时我们也最优化了原本的损失函数，我们就称校对性(calibration)或者一致性(consistency)。这个性质与我们所选择的代理损失函数相关。一个重要的定理是，如果代理损失函数是凸函数，并且在0点可导，其导数小于0，那么它一定是具有一致性的。这也是为什么我们通常选择凸函数作为我们的loss function的原因之一。

下图是零一损失函数与logloss，hinge loss，squared hinge loss以及modified Huber loss的联系。

代理损失函数(surrogate loss function)的更多相关文章

【深度学习】一文读懂机器学习常用损失函数（Loss Function）
最近太忙已经好久没有写博客了,今天整理分享一篇关于损失函数的文章吧,以前对损失函数的理解不够深入,没有真正理解每个损失函数的特点以及应用范围,如果文中有任何错误,请各位朋友指教,谢谢~ 损失函数(lo ...
惩罚因子（penalty term）与损失函数（loss function）
penalty term 和 loss function 看起来很相似,但其实二者完全不同. 惩罚因子: penalty term的作用是把受限优化问题转化为非受限优化问题. 比如我们要优化: min ...
对数损失函数(Logarithmic Loss Function)的原理和 Python 实现
原理对数损失, 即对数似然损失(Log-likelihood Loss), 也称逻辑斯谛回归损失(Logistic Loss)或交叉熵损失(cross-entropy Loss), 是在概率估计上定 ...
Tensorflow 损失函数（loss function）及自定义损失函数（三）
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明. 本文链接:https://blog.csdn.net/limiyudianzi/article ...
损失函数（Loss Function）
转载请注明出自BYRans博客:http://www.cnblogs.com/BYRans/ 线性回归中提到最小二乘损失函数及其相关知识.对于这一部分知识不清楚的同学可以参考上一篇文章<线性回归 ...
损失函数(loss function)
通常而言,损失函数由损失项(loss term)和正则项(regularization term)组成.发现一份不错的介绍资料: http://www.ics.uci.edu/~dramanan/te ...
损失函数 hinge loss vs softmax loss
1. 损失函数损失函数(Loss function)是用来估量你模型的预测值 f(x) 与真实值 Y 的不一致程度,它是一个非负实值函数,通常用 L(Y,f(x)) 来表示. 损失函数越小,模型的鲁 ...
logistic回归具体解释(二）：损失函数（cost function）具体解释
有监督学习机器学习分为有监督学习,无监督学习,半监督学习.强化学习.对于逻辑回归来说,就是一种典型的有监督学习. 既然是有监督学习,训练集自然能够用例如以下方式表述: {(x1,y1),(x2,y2 ...
损失函数(Loss Function) -1
http://www.ics.uci.edu/~dramanan/teaching/ics273a_winter08/lectures/lecture14.pdf Loss Function 损失函数 ...

随机推荐

如何实现css渐变圆角边框
最近设计师的风格发生突变,一句话概括就是,能用渐变的地方绝对不用纯色.这不,就整出了一个渐变圆角边框.这渐变好做,圆角好做,渐变圆角也没问题,可是在加个边框还是有点坑的.没办法,看看怎么实现吧 bor ...
React 多副本问题
Element ref was specified as a string (MySider) but no owner was set. This could happen for one of t ...
tomcat9 web manager的配置使用
本地链接tomcat web manager服务时,只需修改tomcat/conf/tomcat-user.xml文件,如图所示: 远程链接tomcat web manager服务时,需要在tomca ...
str类型转json,str类型转list
python str类型与json格式转换或者list格式转换 str转list: import ast #####方法一##### datas = '{"carname":&qu ...
ASP.NET Core on K8S深入学习（7）Dashboard知多少
本篇已加入<.NET Core on K8S学习实践系列文章索引>,可以点击查看更多容器化技术相关系列文章. 在第二篇<部署过程解析与Dashboard>中介绍了如何部署Das ...
SpringBoot中使用rabbitmq,activemq消息队列和rest服务的调用
1. activemq 首先引入依赖 pom.xml文件 <dependency> <groupId>org.springframework.boot</groupId& ...
Hugo
快速开始安装Hugo 1.二进制安装(推荐:简单.快速) 到 Hugo Releases 下载对应的操作系统版本的Hugo二进制文件(hugo或者hugo.exe) Mac下直接使用 ==Homeb ...
C# NAudio录音和播放音频文件-实时绘制音频波形图（从音频流数据获取，而非设备获取）
NAudio的录音和播放录音都有对应的类,我在使用Wav格式进行录音和播放录音时使用的类时WaveIn和WaveOut,这两个类是对功能的回调和一些事件触发. 在WaveIn和WaveOut之外还有对 ...
01_liteide 集成环境运行的问题
//go语言是以包为管理单位 //每个文件必须先声明包 //程序必须有一个main包 package main import ( "fmt" ) //入口函数 func main ...
Linux配置使用SSH Key登录并禁用root密码登录
Linux系统大多数都支持OpenSSH,生成公钥.私钥的最好用ssh-keygen命令,如果用putty自带的PUTTYGEN.EXE生成会不兼容OpenSSH,从而会导致登录时出现server r ...

代理损失函数(surrogate loss function)

代理损失函数(surrogate loss function)的更多相关文章

随机推荐

热门专题