损失函数(loss function)

通常而言，损失函数由损失项(loss term)和正则项(regularization term)组成。发现一份不错的介绍资料：

http://www.ics.uci.edu/~dramanan/teaching/ics273a_winter08/lectures/lecture14.pdf （题名“Loss functions; a unifying view”）。

一、损失项

对回归问题，常用的有：平方损失(for linear regression)，绝对值损失；
对分类问题，常用的有：hinge loss(for soft margin SVM)，log loss(for logistic regression)。

说明：

对hinge loss，又可以细分出hinge loss（或简称L1 loss）和squared hinge loss（或简称L2 loss）。国立台湾大学的Chih-Jen Lin老师发布的Liblinear就实现了这2种hinge loss。L1 loss和L2 loss与下面的regularization是不同的，注意区分开。

二、正则项

常用的有L1-regularization和L2-regularization。上面列的那个资料对此还有详细的总结。

补充

Liblinear地址：http://www.csie.ntu.edu.tw/~cjlin/liblinear/

## 机器学习中常见的损失函数

一般来说，我们在进行机器学习任务时，使用的每一个算法都有一个目标函数，算法便是对这个目标函数进行优化，特别是在分类或者回归任务中，便是使用损失函数（Loss Function）作为其目标函数，又称为代价函数(Cost Function)。

损失函数是用来评价模型的预测值Y^=f(X)与真实值Y的不一致程度，它是一个非负实值函数。通常使用L(Y,f(x))来表示，损失函数越小，模型的性能就越好。

设总有N个样本的样本集为(X,Y)=(xi,yi)，yi,i∈[1,N]为样本i的真实值，yi^=f(xi),i∈[1,N]为样本i的预测值，f为分类或者回归函数。那么总的损失函数为：

L=∑i=1Nℓ(yi,yi^)

常见的损失函数ℓ(yi,yi^)有以下几种： ### Zero-one Loss Zero-one Loss即0-1损失，它是一种较为简单的损失函数，如果预测值与目标值不相等，那么为1，否则为0，即：

ℓ(yi,yi^)={1,0,yi≠yi^yi=yi^

可以看出上述的定义太过严格，如果真实值为1，预测值为0.999，那么预测应该正确，但是上述定义显然是判定为预测错误，那么可以进行改进为Perceptron Loss。

### Perceptron Loss Perceptron Loss即为感知损失。即：

ℓ(yi,yi^)={1,0,|yi−yi^|>t|yi−yi^|≤t

其中t是一个超参数阈值，如在PLA([Perceptron Learning Algorithm,感知机算法](http://kubicode.me/2015/08/06/Machine%20Learning/Perceptron-Learning-Algorithm/))中取t=0.5。

### Hinge Loss Hinge损失可以用来解决间隔最大化问题，如在SVM中解决几何间隔最大化问题，其定义如下：

ℓ(yi,yi^)=max{0,1−yi⋅yi^}

yi∈{−1,+1}

更多请参见：[Hinge-loss](https://en.wikipedia.org/wiki/Hinge_loss)。

### Log Loss 在使用似然函数最大化时，其形式是进行连乘，但是为了便于处理，一般会套上log，这样便可以将连乘转化为求和，由于log函数是单调递增函数，因此不会改变优化结果。因此log类型的损失函数也是一种常见的损失函数，如在LR([Logistic Regression, 逻辑回归](chrome-extension://ikhdkkncnoglghljlkmcimlnlhkeamad/pdf-viewer/web/viewer.html?file=https%3A%2F%2Fpeople.eecs.berkeley.edu%2F~russell%2Fclasses%2Fcs194%2Ff11%2Flectures%2FCS194%2520Fall%25202011%2520Lecture%252006.pdf))中使用交叉熵(Cross Entropy)作为其损失函数。即：

ℓ(yi,yi^)=yi⋅logyi^+(1−yi)⋅log(1−yi^)

yi∈{0,1}

规定

0⋅log⋅=0

### Square Loss Square Loss即平方误差，常用于回归中。即：

ℓ(yi,yi^)=(yi−yi^)2

yi,yi^∈R

### Absolute Loss Absolute Loss即绝对值误差，常用于回归中。即：

ℓ(yi,yi^)=|yi−yi^|

yi,yi^∈R

### Exponential Loss Exponential Loss为指数误差，常用于boosting算法中，如[AdaBoost](https://en.wikipedia.org/wiki/AdaBoost)。即：

ℓ(yi,yi^)=exp(−yi⋅yi^)

yi∈{−1,1}

正则

一般来说，对分类或者回归模型进行评估时，需要使得模型在训练数据上使得损失函数值最小，即使得经验风险函数最小化，但是如果只考虑经验风险(Empirical risk)，容易过拟合(详细参见防止过拟合的一些方法)，因此还需要考虑模型的泛化能力，一般常用的方法便是在目标函数中加上正则项，由损失项(Loss term)加上正则项(Regularization term)构成结构风险(Structural risk)，那么损失函数变为：

L=∑i=1Nℓ(yi,yi^)+λ⋅R(ω)

其中λ是正则项超参数，常用的正则方法包括：L1正则与L2正则，详细介绍参见：防止过拟合的一些方法。

各损失函数图形如下：

损失函数(loss function)的更多相关文章

损失函数(Loss function) 和代价函数(Cost function)
1损失函数和代价函数的区别: 损失函数(Loss function):指单个训练样本进行预测的结果与实际结果的误差. 代价函数(Cost function):整个训练集,所有样本误差总和(所有损失函数 ...
损失函数(Loss Function) -1
http://www.ics.uci.edu/~dramanan/teaching/ics273a_winter08/lectures/lecture14.pdf Loss Function 损失函数 ...
损失函数(loss function) 转
原文:http://luowei828.blog.163.com/blog/static/310312042013101401524824 通常而言,损失函数由损失项(loss term)和正则项(r ...
惩罚因子（penalty term）与损失函数（loss function）
penalty term 和 loss function 看起来很相似,但其实二者完全不同. 惩罚因子: penalty term的作用是把受限优化问题转化为非受限优化问题. 比如我们要优化: min ...
loss function与cost function
实际上,代价函数(cost function)和损失函数(loss function 亦称为 error function)是同义的.它们都是事先定义一个假设函数(hypothesis),通过训练集由 ...
[machine learning] Loss Function view
[machine learning] Loss Function view 有关Loss Function(LF),只想说,终于写了一.Loss Function 什么是Loss Function? ...
【深度学习】一文读懂机器学习常用损失函数（Loss Function）
最近太忙已经好久没有写博客了,今天整理分享一篇关于损失函数的文章吧,以前对损失函数的理解不够深入,没有真正理解每个损失函数的特点以及应用范围,如果文中有任何错误,请各位朋友指教,谢谢~ 损失函数(lo ...
机器学习损失函数(Loss/Error Function)、代价函数(Cost Function)和目标函数(Objective function)
损失函数(Loss/Error Function): 计算单个训练集的误差,例如:欧氏距离,交叉熵,对比损失,合页损失代价函数(Cost Function): 计算整个训练集所有损失之和的平均值至 ...
对数损失函数(Logarithmic Loss Function)的原理和 Python 实现
原理对数损失, 即对数似然损失(Log-likelihood Loss), 也称逻辑斯谛回归损失(Logistic Loss)或交叉熵损失(cross-entropy Loss), 是在概率估计上定 ...

随机推荐

【Nescafé 31】杯NOIP模拟赛
t1 题意:n*m的棋盘上从(1,1)走到(n,m),只能向下或向右,一些格子有老鼠,每个老鼠互不相同,当处于与老鼠有重边的格子时,视为看见了这只老鼠,求到终点看到最少的不同老鼠数. 分析:DP 由于 ...
CentOS7 安装 webgoat 7.1 简介
CentOS7 安装 webgoat 7.1 简介 webgoat 所需文件准备: 操作系统版本:CentOS 7.3 1: 在Linux上安装Openjdk >= 1.8 2: 上传文件至 L ...
【距离GDOI:131天】后缀数组完毕
用了近两周的时间,终于把罗神那篇后缀数组应用看完了,题目也写了一遍,T了无数次...详见前几篇博文... 后缀数组很重要的是那个height数组,可以用来做各种奇奇怪怪的东西...常用方法去是去二分, ...
BZOJ 3932: [CQOI2015]任务查询系统 | 主席树练习题
题目: 洛谷也能评测题解: De了好长时间BUG发现是自己sort前面有一行for没删,气死. 题目询问第x秒时候前k小的P值之和. 朴素想法: 我们可以把P值离散化,然后对于每个时刻建一棵定义域是 ...
强军如歌（strong）
强军如歌(strong) 题目描述给定一个NN个数的序列AA,如果序列AA不是非降序的,你需要在其中选择一个数删掉,不断重复这个操作直到序列AA非降.求有多少种不同的删数方案.注意:删掉的数的集合相 ...
浅谈android Socket 通信及自建ServerSocket服务端常见问题
摘要:TCP/IP通信协议是可靠的面向连接的网络协议,它在通信两端各建立一个Socket,从而在两端形成网络虚拟链路,进而应用程序可通过可以通过虚拟链路进行通信.Java对于基于TCP协议的网络通 ...
Matlab 几种卷积的实现与比较（conv与filter，conv2与filter2）
Matlab 几种卷积的实现与比较(conv与filter,conv2与filter2) 最近在做控制算法实现的时候,对于其中参杂的各种差分.卷积很头疼,就在网上搜集了些资料,汇总于此,以做备 ...
linu触摸屏幕
一..前提知识 1.Linux输入子系统(Input Subsystem): 在Linux中,输入子系统是由输入子系统设备驱动层.输入子系统核心层(Input Core)和输入子系统事件处理层(Eve ...
行为型设计模式之解释器模式(Interpreter)
结构意图给定一个语言,定义它的文法的一种表示,并定义一个解释器,这个解释器使用该表示来解释语言中的句子. 适用性当有一个语言需要解释执行, 并且你可将该语言中的句子表示为一个抽象语法树时,可使用 ...
CString和string在unicode与非unicode下的相互转换（转）
原文转自 http://blog.csdn.net/u014303844/article/details/51397556 CString和string在unicode与非unicode下的相互转换 ...

损失函数(loss function)

正则

各损失函数图形如下：

损失函数(loss function)的更多相关文章

随机推荐

热门专题