loss function

什么是loss?

loss: loss是我们用来对模型满意程度的指标。loss设计的原则是：模型越好loss越低，模型越差loss越高，但也有过拟合的情况。　　

loss function: 在分类问题中，输入样本经过含权重矩阵θ的模型后会得出关于各个类别的分值，如何通过分值与样本的标签来得到我们对模型的满意程度就是Loss function的主要工作了。训练过程中通过调整参数矩阵θ来降低loss，使用模型更优。多分类问题中常用Softmax分类器与多类SVM分类器。　

Softmax分类器

Softmax与logistict回归

Softmax分类器将类别分值用负对数转换为概率来表示，相对于multiclass-SVM的输出更为直观。

Softmax分类器的损失函数为交叉熵损失 (cross-entropy loss)，即通常所说的Softmax loss。logistic回归是用来解决二分类问题的，其损失函数与Softmax与有很相似的形式。

Softmax的损失函数：　　//1表示指示函数，即真值返回1，否则返回0

　　　　\begin{align}J(\theta) = - \frac{1}{m} \left[ \sum_{i=1}^{m} \sum_{j=1}^{k} 1\left\{y^{(i)} = j\right\} \log \frac{e^{\theta_j^T x^{(i)}}}{\sum_{l=1}^k e^{ \theta_l^T x^{(i)} }}\right]\end{align}

logistic回归的损失函数：　　

　　　　　　

\begin{align}

J(\theta) =

-\frac{1}{m} \left[ \sum_{i=1}^m y^{(i)} \log h_\theta(x^{(i)}) + (1-y^{(i)}) \log (1-h_\theta(x^{(i)})) \right]

\end{align}

可以看出，将（1）式中k=2即可得到（2）式

Softmax对样本x的分类结果（假设函数）：

\begin{align}

h_\theta(x^{(i)}) =

\begin{bmatrix}

p(y^{(i)} = 1 | x^{(i)}; \theta) \

p(y^{(i)} = 2 | x^{(i)}; \theta) \

\vdots \

p(y^{(i)} = k | x^{(i)}; \theta)

\end{bmatrix}

=

\frac{1}{ \sum_{j=1}^{k}{e^{ \theta_j^T x^{(i)} }} }

\begin{bmatrix}

e^{ \theta_1^T x^{(i)} } \

e^{ \theta_2^T x^{(i)} } \

\vdots \

e^{ \theta_k^T x^{(i)} } \

\end{bmatrix}

\end{align}

　　

logistic回归的分类结果(假设函数)：

　　　　　　\begin{align}

h_\theta(x) = \frac{1}{1+\exp(-\theta^Tx)},

\end{align}　　　

但（3）式与（4）式有什么关系呢？

原来Softmax预测出每个类别的概率具有“参数冗余”的特性。“参数冗余”是指：若矩阵θ为代价函数的极小值点，那么θ-Ψ也为代价函数的极小值点。(ψ为向量，并且矩阵-向量=矩阵每个列向量-向量)

　　　　　　　　　　

\begin{align}

p(y^{(i)} = j | x^{(i)} ; \theta)

&= \frac{e^{(\theta_j-\psi)^T x^{(i)}}}{\sum_{l=1}^k e^{ (\theta_l-\psi)^T x^{(i)}}} \

&= \frac{e^{\theta_j^T x^{(i)}} e^{-\psi^Tx^{(i)}}}{\sum_{l=1}^k e^{\theta_l^T x^{(i)}} e^{-\psi^Tx^{(i)}}} \

&= \frac{e^{\theta_j^T x^{(i)}}}{\sum_{l=1}^k e^{ \theta_l^T x^{(i)}}}.

\end{align}

这时，令ψ=θ1、k=2，可得到(3) 等价于(4)的结论

所以，Softmax其实是logistic regression将二分类问题推广到多分类问题的一般形式。

但是Softmax分类器与k个logistic回归分类器还是有区别的：

通常，当k个类别之间互斥时使用k=k的Softmax分类器，当k个类别之间与交集时使用k个logistic回归分类器。　

Softmax分类器为什么要正则化损失项？

求解loss最小值时往往不是简单利用“参数冗余”将θ1=0，而是加入权重衰减(正则化损失)来惩罚过大的参数值。加入正则化损失后的代价函数为：

　　　

\begin{align}\notag J(\theta) = - \frac{1}{m} \left[ \sum_{i=1}^{m} \sum_{j=1}^{k} 1\left\{y^{(i)} = j\right\} \log \frac{e^{\theta_j^T x^{(i)}}}{\sum_{l=1}^k e^{ \theta_l^T x^{(i)} }} \right] + \frac{\lambda}{2} \sum_{i=1}^k \sum_{j=0}^n \theta_{ij}^2\end{align}

其中，第二项为正则化损失荐，加入该项的加一个好处是将代价函数变为一个凸函数。

简单实例

在一个三类别模型预测的过程中，假设输出的分值向量为[1, -2, 0]

则分类计算过过程： [1，-2， 0] => [e1, e-2, e0]=[2.71, 0.14, 1]//熵值化 => [0.7， 0.04， 0.26] //归一化为概率

算法实践

后续补充

Multiclass SVM

基本思想：正常确类别的分值比错误类别的分值高出一个间距(margin)

Multiclass SVM分类器的损失函数为hinge loss，也称为SVM loss。

hinge loss

算法实践

已知

在一个三类别模型预测的过程中，假设输出的分值向量为[13， -7， 11]
我们知道标签为1，即第一个类别为正确类别
\(\Delta=10\)

计算过程

因为\(y_{i}\)=1, 所以\(j只能=2、3\)

\[L_{2}=max(0,-7-13+10)=0\]

\[L_{3}=max(0,11-13+10)=8\]

所以，

\[L_{i}=0+8=8\]

从上面的计算过程可以看出SVM的损失函数想要正确分类类别\(y_{i}\)的分数比不正确类别分数高，而且至少要高\(\Delta\)。如果不满足这点，就开始计算损失值。

正则化损失

提高模型泛化能力，避免过拟合。

从公式上来看：

若两个等比例的权重，权重的范数越小越好
若两个权重范数相等，权重的系数大小分布越分均等越好

直观来看：

从直观上来看，这是因为w_2的权重值更小且更分散。既然L2惩罚倾向于更小更分散的权重向量，这就会鼓励分类器最终将所有维度上的特征都用起来，而不是强烈依赖其中少数几个维度。

MutiSVM VS SVM

未完待续

补充实验

reference:

cs231n

softmax

小马奔腾

loss function的更多相关文章

Derivative of the softmax loss function
Back-propagation in a nerual network with a Softmax classifier, which uses the Softmax function: \[\ ...
loss function与cost function
实际上,代价函数(cost function)和损失函数(loss function 亦称为 error function)是同义的.它们都是事先定义一个假设函数(hypothesis),通过训练集由 ...
损失函数(Loss Function) -1
http://www.ics.uci.edu/~dramanan/teaching/ics273a_winter08/lectures/lecture14.pdf Loss Function 损失函数 ...
【caffe】loss function、cost function和error
@tags: caffe 机器学习在机器学习(暂时限定有监督学习)中,常见的算法大都可以划分为两个部分来理解它一个是它的Hypothesis function,也就是你用一个函数f,来拟合任意一个 ...
惩罚因子（penalty term）与损失函数（loss function）
penalty term 和 loss function 看起来很相似,但其实二者完全不同. 惩罚因子: penalty term的作用是把受限优化问题转化为非受限优化问题. 比如我们要优化: min ...
论文笔记之： Person Re-Identification by Multi-Channel Parts-Based CNN with Improved Triplet Loss Function
Person Re-Identification by Multi-Channel Parts-Based CNN with Improved Triplet Loss Function CVPR 2 ...
[machine learning] Loss Function view
[machine learning] Loss Function view 有关Loss Function(LF),只想说,终于写了一.Loss Function 什么是Loss Function? ...
[基础] Loss function （二）
Loss function = Loss term(误差项) + Regularization term(正则项),上次写的是误差项,这次正则项. 正则项的解释没那么直观,需要知道不适定问题,在经典的 ...
[基础] Loss function（一）
Loss function = Loss term(误差项) + Regularization term(正则项),我们先来研究误差项:首先,所谓误差项,当然是误差的越少越好,由于不存在负误差,所以为 ...

随机推荐

织梦Dedecms使用Nginx的安全设置
首先需要说明的是,任何程序都是有漏洞的,我们需要做好一些必要的防范,来减少由于程序漏洞造成的损失.织梦的漏洞多,这个是很多人的想法.不过大家如果做好了织梦系统的文件夹权限什么的设置,很多漏洞也是用不上 ...
使用Nexus搭建Maven本地仓库
阅读目录序 Nexus 本文版权归mephisto和博客园共有,欢迎转载,但须保留此段声明,并给出原文链接,谢谢合作. 文章是哥(mephisto)写的,SourceLink 序在工作中可能存在有 ...
head/tail实现
只实现了head/tail的基本功能,默认显示十行及-n参数. 一.使用带缓冲的系统调用. write/read等系统调用是不带缓冲的,可以包装一层,使其带缓冲. t ...
socket Bio demo
最近在做socket通信,最开始是基于Bio开发(其实开发的时候也不知道这种是基于BIO).但是问题来了,客户端发的报文,服务端接收会少,为了解决问题,只能恶补一下相关知识. 服务端: import ...
Redux状态管理方法与实例
状态管理是目前构建单页应用中不可或缺的一环,也是值得花时间学习的知识点.React官方推荐我们使用Redux来管理我们的React应用,同时也提供了Redux的文档来供我们学习,中文版地址为http: ...
WinForm TreeView递归加载
这个其实通俗一点讲就是的树状分支图首先利用递归添加数据数据放入 treeView1.Nodes.Add() 中 public Form3() { InitializeComponent(); Tr ...
codevs 3288 积木大赛
题目描述 Description 春春幼儿园举办了一年一度的"积木大赛".今年比赛的内容是搭建一座宽度为 n 的大厦,大厦可以看成由 n 块宽度为1的积木组成,第i块积木的最终高度 ...
从点云到网格（三）Poisson重建
Possion重建是Kazhdan等2006年提出的网格重建方法[1].Possion重建的输入是点云及其法向量,输出是三维网格.Poisson有公开的源代码[2].PCL中也有Poisson的实现. ...
基于C/S架构的3D对战网络游戏C++框架_01服务器端与客户端需求分析
本系列博客主要是以对战游戏为背景介绍3D对战网络游戏常用的开发技术以及C++高级编程技巧,有了这些知识,就可以开发出中小型游戏项目或3D工业仿真项目. 笔者将分为以下三个部分向大家介绍(每日更新): ...
jquery中attr和prop的区别
在高版本的jquery引入prop方法后,什么时候该用prop?什么时候用attr?它们两个之间有什么区别?这些问题就出现了. 关于它们两个的区别,网上的答案很多.这里谈谈我的心得,我的心得很简单: ...

loss function

什么是loss?

Softmax分类器

Softmax与logistict回归

但是Softmax分类器与k个logistic回归分类器还是有区别的：

Softmax分类器为什么要正则化损失项？

简单实例

算法实践

Multiclass SVM

hinge loss

算法实践

已知

计算过程

正则化损失

MutiSVM VS SVM

补充实验

loss function的更多相关文章

随机推荐

热门专题