了解LR的同学们都知道，LR采用了最小化交叉熵或者最大化似然估计函数来作为Cost Function，那有个很有意思的问题来了，为什么我们不用更加简单熟悉的最小化平方误差函数（MSE）呢？

我个人理解主要有三个原因：

MSE的假设是高斯分布，交叉熵的假设是伯努利分布，而逻辑回归采用的就是伯努利分布；
MSE会导致代价函数$J(\theta)$非凸，这会存在很多局部最优解，而我们更想要代价函数是凸函数；
MSE相对于交叉熵而言会加重梯度弥散。

这里着重讨论下后边两条原因。

代价函数为什么要为凸函数？

假设对于LR我们依旧采用线性回归的MSE作为代价函数：

$$J(\theta)=\frac{1}{2m}\sum_{i=1}^{m}(h_{\theta}(x^{(i)})-y^{(i)})^2$$

其中

$$h_{\theta}(x)=\frac{1}{1+e^{-\theta^T x}}$$

这样代价函数$J(\theta)$关于算法参数$\theta$会是非凸函数，存在多个局部解，我们可以形式化的表示为下图：

如上图所示，$J(\theta)$非常复杂，这并不是我们想要的。我们想要的代价函数是关于$\theta$的凸函数，这样我们就可以轻松地根据梯度下降法等最优化手段去轻松地找到全局最优解了。

所以，我们理想的代价函数应该是凸函数，如下图所示：

因此，MSE对于LR并不是一个理想的代价函数。那么为什么交叉熵可以呢？我们先给出交叉熵的公式形式：

$$J(\theta)=-\frac{1}{m}\sum_{i=1}^{m}[y^{(i)}\log{\hat{y}^{(i)}}+(1-y^{(i)})\log{(1-\hat{y}^{(i)})}]$$

即令每个样本属于其真实标记的概率越大越好，可以证明$J(\theta)$是关于$\theta$的高阶连续可导的凸函数，因此可以根据凸优化理论求的最优解。

note：最小化交叉熵也可以理解为最大化似然估计，即利用已知样本分布，找到最有可能导致这种分布的参数值，即最优解$\theta^{*}$。

为什么MSE会更易导致梯度弥散？

我们简单求解下MSE和交叉熵对应$w$的梯度，首先是MSE：

对于单样本的Loss Function为：

$$L_{MSE}=\frac{1}{2}(y-\hat{y})^{2}$$

$L_{MSE}$对于$w$的梯度为：

$$\frac{\partial L_{MSE}}{\partial w}=(y-\hat{y})\sigma(w, b)h$$

其中$\sigma(w, b)$为sigmoid函数：

$$\sigma(w, b)=\frac{1}{1+e^{-w^{T}x+b}}$$

而以交叉熵为Loss Function：

$$L_{cross\_entropy}=-(y\log{\hat{y}}+(1-y)\log(1-\hat{y}))$$

则对应的梯度为：

$$\frac{\partial L_{cross\_entropy}}{\partial w}=(\hat{y}-y)h$$

我们对比两者的梯度绝对值可以看出MSE和交叉熵两种损失函数的梯度大小差异：

$$\frac{|\Delta_{MSE}|}{|\Delta_{cross\_entropy}|}=|\sigma^{'}(w, b)| \le 0.25$$

即MSE的梯度是交叉熵梯度的1/4。

note：

上式为什么小于0.25可以参考另一篇博文《[Machine Learning] 深度学习中消失的梯度》
Cost Function和Loss Function的区别
- Cost Function：指基于参数$w$和$b$，在所有训练样本上的总成本；
- Loss Function：指单个训练样本的损失函数。

其实可以从另外一个角度理解为什么交叉熵函数相对MSE不易导致梯度弥散：当训练结果接近真实值时会因为梯度算子极小，使得模型的收敛速度变得非常的缓慢。而由于交叉熵损失函数为对数函数，在接近上边界的时候，其仍然可以保持在高梯度状态，因此模型的收敛速度不会受损失函数的影响。

[Machine Learning] 浅谈LR算法的Cost Function的更多相关文章

浅谈分词算法（5）基于字的分词方法（bi-LSTM）
目录前言目录循环神经网络基于LSTM的分词 Embedding 数据预处理模型如何添加用户词典前言很早便规划的浅谈分词算法,总共分为了五个部分,想聊聊自己在各种场景中使用到的分词方法做 ...
Machine Learning读书会，面试&算法讲座，算法公开课，创业活动，算法班集锦
Machine Learning读书会,面试&算法讲座,算法公开课,创业活动,算法班集锦近期活动: 2014年9月3日,第8次西安面试&算法讲座视频 + PPT 的下载地址:http ...
浅谈分词算法（4）基于字的分词方法（CRF）
目录前言目录条件随机场(conditional random field CRF) 核心点线性链条件随机场简化形式 CRF分词 CRF VS HMM 代码实现训练代码实验结果参考文献 ...
浅谈分词算法（3）基于字的分词方法（HMM）
目录前言目录隐马尔可夫模型(Hidden Markov Model,HMM) HMM分词两个假设 Viterbi算法代码实现实现效果完整代码参考文献前言在浅谈分词算法(1)分词中的 ...
浅谈分词算法基于字的分词方法（HMM）
前言在浅谈分词算法(1)分词中的基本问题我们讨论过基于词典的分词和基于字的分词两大类,在浅谈分词算法(2)基于词典的分词方法文中我们利用n-gram实现了基于词典的分词方法.在(1)中,我们也讨论了 ...
浅谈 Adaboost 算法
http://blog.csdn.net/haidao2009/article/details/7514787 菜鸟最近开始学习machine learning.发现adaboost 挺有趣,就把自己 ...
浅谈Manacher算法与扩展KMP之间的联系
首先,在谈到Manacher算法之前,我们先来看一个小问题:给定一个字符串S,求该字符串的最长回文子串的长度.对于该问题的求解.网上解法颇多.时间复杂度也不尽同样,这里列述几种常见的解法. 解法一 ...
浅谈Tarjan算法
从这里开始预备知识两个数组 Tarjan 算法的应用求割点和割边求点-双连通分量求边-双连通分量求强连通分量预备知识设无向图$G_{0} = (V_{0}, E_{0})$,其中$V_ ...
浅谈 Tarjan 算法
目录简述作用 Tarjan 算法原理出场人物图示代码实现例题例题一例题二例题三例题四例题五总结简述对于初学 Tarjan 的你来说,肯定和我一开始学 Tarjan 一样无 ...

随机推荐

TiDB 架构及设计实现
一. TiDB的核心特性高度兼容 MySQL 大多数情况下,无需修改代码即可从 MySQL 轻松迁移至 TiDB,分库分表后的 MySQL 集群亦可通过 TiDB 工具进行实时迁移. 水平弹性扩展 ...
python3 list列表随机选取一个元素、随机选择一个user-agent
爬虫时适当更换user-agent可以稍微规避一下代理被封的风险... from random import sample ua = [ 'Mozilla/4.0 (compatible; MSIE ...
将Windows Server 2016 打造成工作站(20161030更新)
将Windows Server 2016 打造成工作站(20161030更新) 一.基础设置 1.1.关闭自动弹窗: 「开始菜单」 - 「服务器管理器」 - 「仪表板」(或 Win + R或CMD ...
【心得】Lattice后端使用经验小结（ECP5UM，DDR3，Diamond3.10，Reveal逻辑分析）
[博客导航] [导航]FPGA相关背景下边的内容,适合初次使用Lattice的.具备FPGA开发经验的同学. 1.初次使用,还真遇到不少的坑,Lattice的工具也有不少优缺点,通过总结,希望能缩 ...
git tag 打标签
注意:在哪个分支上打tag一定要先提交该分支到远程gitlab仓库标签(tag)操作 1. 查看所有标签 git tag 默认标签是打在最新提交的commit上的 2.本地打新标签 git tag ...
selenium跳过webdriver检测并爬取淘宝我已购买的宝贝数据
简介上一个博文已经讲述了如何使用selenium跳过webdriver检测并爬取天猫商品数据,所以在此不再详细讲,有需要思路的可以查看另外一篇博文. 源代码 # -*- coding: utf-8 ...
fuel一键部署openstack
一.安装环境: 1. 所需物理主机的要求如下内存:8GB+,推荐16GB:(少于8GB的就免谈了) 磁盘:500GB+: 物理机OS:ubuntu-desktop-amd64 14.04(推荐) 或 ...
[Alpha阶段]测试报告
[Alpha]阶段测试报告在测试过程中发现的BUG 在最后的测试阶段中,我们不可避免的遇到了各种各样的BUG.虽然大多数都不是严重的BUG,但是这些细枝末节的问题的堆积,依然会很大程度上降低用户 ...
vue项目上传Github预览
最近在用Vue仿写cnode社区,想要上传到github,并通过Github pages预览,在这个过程中遇到了一些问题,因此写个笔记,以便查阅. 完成Vue项目以后,在上传到github之前,需要修 ...
仿 ELEMENTUI 实现一个简单的 Form 表单
原文:仿 ElmentUI 实现一个 Form 表单一.目标 ElementUI 中 Form 组件主要有以下功能 / 模块: Form FormItem Input 表单验证在这套组件中,有 ...

[Machine Learning] 浅谈LR算法的Cost Function

代价函数为什么要为凸函数？

为什么MSE会更易导致梯度弥散？

[Machine Learning] 浅谈LR算法的Cost Function的更多相关文章

随机推荐

热门专题