了解LR的同学们都知道，LR采用了最小化交叉熵或者最大化似然估计函数来作为Cost Function，那有个很有意思的问题来了，为什么我们不用更加简单熟悉的最小化平方误差函数（MSE）呢？

我个人理解主要有三个原因：

MSE的假设是高斯分布，交叉熵的假设是伯努利分布，而逻辑回归采用的就是伯努利分布；
MSE会导致代价函数$J(\theta)$非凸，这会存在很多局部最优解，而我们更想要代价函数是凸函数；
MSE相对于交叉熵而言会加重梯度弥散。

这里着重讨论下后边两条原因。

代价函数为什么要为凸函数？

假设对于LR我们依旧采用线性回归的MSE作为代价函数：

$$J(\theta)=\frac{1}{2m}\sum_{i=1}^{m}(h_{\theta}(x^{(i)})-y^{(i)})^2$$

其中

$$h_{\theta}(x)=\frac{1}{1+e^{-\theta^T x}}$$

这样代价函数$J(\theta)$关于算法参数$\theta$会是非凸函数，存在多个局部解，我们可以形式化的表示为下图：

如上图所示，$J(\theta)$非常复杂，这并不是我们想要的。我们想要的代价函数是关于$\theta$的凸函数，这样我们就可以轻松地根据梯度下降法等最优化手段去轻松地找到全局最优解了。

所以，我们理想的代价函数应该是凸函数，如下图所示：

因此，MSE对于LR并不是一个理想的代价函数。那么为什么交叉熵可以呢？我们先给出交叉熵的公式形式：

$$J(\theta)=-\frac{1}{m}\sum_{i=1}^{m}[y^{(i)}\log{\hat{y}^{(i)}}+(1-y^{(i)})\log{(1-\hat{y}^{(i)})}]$$

即令每个样本属于其真实标记的概率越大越好，可以证明$J(\theta)$是关于$\theta$的高阶连续可导的凸函数，因此可以根据凸优化理论求的最优解。

note：最小化交叉熵也可以理解为最大化似然估计，即利用已知样本分布，找到最有可能导致这种分布的参数值，即最优解$\theta^{*}$。

为什么MSE会更易导致梯度弥散？

我们简单求解下MSE和交叉熵对应$w$的梯度，首先是MSE：

对于单样本的Loss Function为：

$$L_{MSE}=\frac{1}{2}(y-\hat{y})^{2}$$

$L_{MSE}$对于$w$的梯度为：

$$\frac{\partial L_{MSE}}{\partial w}=(y-\hat{y})\sigma(w, b)h$$

其中$\sigma(w, b)$为sigmoid函数：

$$\sigma(w, b)=\frac{1}{1+e^{-w^{T}x+b}}$$

而以交叉熵为Loss Function：

$$L_{cross\_entropy}=-(y\log{\hat{y}}+(1-y)\log(1-\hat{y}))$$

则对应的梯度为：

$$\frac{\partial L_{cross\_entropy}}{\partial w}=(\hat{y}-y)h$$

我们对比两者的梯度绝对值可以看出MSE和交叉熵两种损失函数的梯度大小差异：

$$\frac{|\Delta_{MSE}|}{|\Delta_{cross\_entropy}|}=|\sigma^{'}(w, b)| \le 0.25$$

即MSE的梯度是交叉熵梯度的1/4。

note：

上式为什么小于0.25可以参考另一篇博文《[Machine Learning] 深度学习中消失的梯度》
Cost Function和Loss Function的区别
- Cost Function：指基于参数$w$和$b$，在所有训练样本上的总成本；
- Loss Function：指单个训练样本的损失函数。

其实可以从另外一个角度理解为什么交叉熵函数相对MSE不易导致梯度弥散：当训练结果接近真实值时会因为梯度算子极小，使得模型的收敛速度变得非常的缓慢。而由于交叉熵损失函数为对数函数，在接近上边界的时候，其仍然可以保持在高梯度状态，因此模型的收敛速度不会受损失函数的影响。

[Machine Learning] 浅谈LR算法的Cost Function的更多相关文章

浅谈分词算法（5）基于字的分词方法（bi-LSTM）
目录前言目录循环神经网络基于LSTM的分词 Embedding 数据预处理模型如何添加用户词典前言很早便规划的浅谈分词算法,总共分为了五个部分,想聊聊自己在各种场景中使用到的分词方法做 ...
Machine Learning读书会，面试&算法讲座，算法公开课，创业活动，算法班集锦
Machine Learning读书会,面试&算法讲座,算法公开课,创业活动,算法班集锦近期活动: 2014年9月3日,第8次西安面试&算法讲座视频 + PPT 的下载地址:http ...
浅谈分词算法（4）基于字的分词方法（CRF）
目录前言目录条件随机场(conditional random field CRF) 核心点线性链条件随机场简化形式 CRF分词 CRF VS HMM 代码实现训练代码实验结果参考文献 ...
浅谈分词算法（3）基于字的分词方法（HMM）
目录前言目录隐马尔可夫模型(Hidden Markov Model,HMM) HMM分词两个假设 Viterbi算法代码实现实现效果完整代码参考文献前言在浅谈分词算法(1)分词中的 ...
浅谈分词算法基于字的分词方法（HMM）
前言在浅谈分词算法(1)分词中的基本问题我们讨论过基于词典的分词和基于字的分词两大类,在浅谈分词算法(2)基于词典的分词方法文中我们利用n-gram实现了基于词典的分词方法.在(1)中,我们也讨论了 ...
浅谈 Adaboost 算法
http://blog.csdn.net/haidao2009/article/details/7514787 菜鸟最近开始学习machine learning.发现adaboost 挺有趣,就把自己 ...
浅谈Manacher算法与扩展KMP之间的联系
首先,在谈到Manacher算法之前,我们先来看一个小问题:给定一个字符串S,求该字符串的最长回文子串的长度.对于该问题的求解.网上解法颇多.时间复杂度也不尽同样,这里列述几种常见的解法. 解法一 ...
浅谈Tarjan算法
从这里开始预备知识两个数组 Tarjan 算法的应用求割点和割边求点-双连通分量求边-双连通分量求强连通分量预备知识设无向图$G_{0} = (V_{0}, E_{0})$,其中$V_ ...
浅谈 Tarjan 算法
目录简述作用 Tarjan 算法原理出场人物图示代码实现例题例题一例题二例题三例题四例题五总结简述对于初学 Tarjan 的你来说,肯定和我一开始学 Tarjan 一样无 ...

随机推荐

Delphi中常用字符串处理函数
.copy(str,pos,num) 从str字符串的pos处开始,截取num个字符的串返回. 假设str为,)=,)='def' .concat(str1,str2{,strn}) 把各自变量连接起 ...
C语言面试程序阅读整理
一.数组和指针 1.数组和指针的存储写出下面的输出结果: char str1[] = "abc"; char str2[] = "abc"; const ch ...
k8s 集群部署问题整理
1.hostname “master” could not be reached在host中没有加解析 2.curl -sSL http://localhost:10248/healthzcurl: ...
java网络爬虫基础学习（三）
尝试直接请求URL获取资源豆瓣电影 https://movie.douban.com/explore#!type=movie&tag=%E7%83%AD%E9%97%A8&sort= ...
RabbitMQ框架构建系列（一）——AMPQ协议
一.MQ 在介绍RabbitMq之前,先来说一下MQ.什么是MQ?MQ全称为Message Queue即消息队列,就是一个消息的容器, MQ是消费-生产者模型的一个典型的代表,一端往消息队列中不断写入 ...
Linux新手随手笔记1.2
重定向输入重定向:将命令输出结果写入一个文件或将一个文件内容导回到命令里面的这个过程叫做重定向 :标准(>) 输出重定向 :覆盖写入清空写入(>)/追加写入(>>) :错 ...
LOJ #6042. 「雅礼集训 2017 Day7」跳蚤王国的宰相
我可以大喊一声这就是个思博题吗? 首先如果你能快速把握题目的意思后,就会发现题目就是让你求出每个点要成为树的重心至少要嫁接多少边先说一个显然的结论,重心的答案为$0$(废话) 然后我们考虑贪心处 ...
java集合-HashSet源码解析
HashSet 无序集合类实现了Set接口内部通过HashMap实现 // HashSet public class HashSet<E> extends AbstractSet< ...
JAVA基础知识回顾（面试资料）
关于数据库知识和面试:https://www.cnblogs.com/yanqb/p/9894943.html 关于数据库知识和面试:https://www.cnblogs.com/yanqb/p/1 ...
Excel vba中访问ASP.NET MVC项目，记录访问时间，文件名称
每30秒连接一次服务器,连接成功单元格变绿色,连接失败变红色,状态单元格为17行,2列 1,打开excel文件,进入vba编辑器,新建一个modules模块,在里面先写一个每30秒执行一次ConnSe ...

[Machine Learning] 浅谈LR算法的Cost Function

代价函数为什么要为凸函数？

为什么MSE会更易导致梯度弥散？

[Machine Learning] 浅谈LR算法的Cost Function的更多相关文章

随机推荐

热门专题