【机器学习基础】交叉熵（cross entropy）损失函数是凸函数吗？

wuliytTaotao 2024-10-16 08:05:17 原文

之所以会有这个问题，是因为在学习 logistic regression 时，《统计机器学习》一书说它的负对数似然函数是凸函数，而 logistic regression 的负对数似然函数（negative log likelihood）和交叉熵函数（cross entropy）具有一样的形式。

先给出结论，logistic regression 时，cross entropy 是凸的，但多层神经网络时，cross entropy 不是凸的。

logistic regression 时，cross entropy 是凸的：

Why is the error function minimized in logistic regression convex? -- Deepak Roy Chittajallu

多层神经网络（MLP）时，cross entropy 不是凸的：（肯定不是凸的啊，不然调参哪来这么多问题）

Cost function of neural network is non-convex? - Cross Validated

cross entropy 损失函数：(\(\hat{y}\) 为预测值，\(y\) 为真实值)

\[-y \log \hat{y}-(1-y) \log (1-\hat{y})\]

直观解释

简单点的解释是，logistic regression 时，证明两个凸函数相加还是凸函数，因为 \(y\) 不是 0 就是 1，那就要证明此时 \(- \log \hat{y}\) 和 \(- \log (1-\hat{y})\) 关于 \(w\) 都是凸函数，也就是证明 Hessian 矩阵半正定。证明看上述链接。

而 MLP 时，给出直观解释是，在神经网络的某一隐藏层交换两个神经元的权重，最后输出层得到的值不会变，这就说明如果有一个最优解，那交换神经元权重后，解仍然是最优的，那么此时就存在两个最优解了，那就不是凸函数了。

logistic regression 为什么还用梯度下降法求解呢，不直接求解析解？

在令 cross entropy 一阶导数为 0 时，就会发现无法将权重 \(w\) 提到等式左边，即无法写成 \(w = 式子\) 这种形式，所以虽然有等式约束，但直接求解析解还是挺困难。所以梯度下降法、牛顿法、拟牛顿法常用来求解 logistic regression。

References

Why is the error function minimized in logistic regression convex? -- Deepak Roy Chittajallu
Cost function of neural network is non-convex? - Cross Validated
Logistic回归能有解析解吗？ - Zzzzzzzz的回答 - 知乎
 凸还是非凸？交叉熵在softmax和neural network中的不同凸性 -- RHONYN

【机器学习基础】交叉熵（cross entropy）损失函数是凸函数吗？的更多相关文章

最大似然估计 (Maximum Likelihood Estimation), 交叉熵 (Cross Entropy) 与深度神经网络
最近在看深度学习的"花书" (也就是Ian Goodfellow那本了),第五章机器学习基础部分的解释很精华,对比PRML少了很多复杂的推理,比较适合闲暇的时候翻开看看.今天准备写 ...
交叉熵cross entropy和相对熵（kl散度）
交叉熵可在神经网络(机器学习)中作为损失函数,p表示真实标记的分布,q则为训练后的模型的预测标记分布,交叉熵损失函数可以衡量真实分布p与当前训练得到的概率分布q有多么大的差异. 相对熵(relativ ...
【机器学习基础】熵、KL散度、交叉熵
熵(entropy).KL 散度(Kullback-Leibler (KL) divergence)和交叉熵(cross-entropy)在机器学习的很多地方会用到.比如在决策树模型使用信息增益来选择 ...
理解交叉熵(cross_entropy)作为损失函数在神经网络中的作用
交叉熵的作用通过神经网络解决多分类问题时,最常用的一种方式就是在最后一层设置n个输出节点,无论在浅层神经网络还是在CNN中都是如此,比如,在AlexNet中最后的输出层有1000个节点: 而即便是R ...
UDA机器学习基础—交叉验证
交叉验证的目的是为了有在训练集中有更多的数据点,以获得最佳的学习效果,同时也希望有跟多的测试集数据来获得最佳验证.交叉验证的要点是将训练数据平分到k个容器中,在k折交叉验证中,将运行k次单独的试验,每 ...
softmax分类器+cross entropy损失函数的求导
softmax是logisitic regression在多酚类问题上的推广,\(W=[w_1,w_2,...,w_c]\)为各个类的权重因子,\(b\)为各类的门槛值.不要想象成超平面,否则很难理解 ...
深度学习中交叉熵和KL散度和最大似然估计之间的关系
机器学习的面试题中经常会被问到交叉熵(cross entropy)和最大似然估计(MLE)或者KL散度有什么关系,查了一些资料发现优化这3个东西其实是等价的. 熵和交叉熵提到交叉熵就需要了解下信息论 ...
TensorFlow笔记-06-神经网络优化-损失函数,自定义损失函数,交叉熵
TensorFlow笔记-06-神经网络优化-损失函数,自定义损失函数,交叉熵神经元模型:用数学公式比表示为:f(Σi xi*wi + b), f为激活函数神经网络是以神经元为基本单位构成的激 ...
softmax交叉熵损失函数求导
来源:https://www.jianshu.com/p/c02a1fbffad6 简单易懂的softmax交叉熵损失函数求导来写一个softmax求导的推导过程,不仅可以给自己理清思路,还可以造福 ...

随机推荐

HYSBZ 1036树链剖分
一棵树上有n个节点,编号分别为1到n,每个节点都有一个权值w.我们将以下面的形式来要求你对这棵树完成一些操作: I. CHANGE u t : 把结点u的权值改为t II. QMAX u v: 询问从 ...
Jenkins-部署java代码项目
实验环境: Jenkins:192.168.1.12 tomcat:192.168.1.7 一.新建远程代码Java项目仓库说明:这边测试是在coding上注册账户,建立远程仓库,codin ...
java面试题干货96-125
这部分主要是与Java Web和Web Service相关的面试题. 96.阐述Servlet和CGI的区别? 答:Servlet与CGI的区别在于Servlet处于服务器进程中,它通过多线程方式运行 ...
《Dotnet9》系列-开源C# WPF控件库1《MaterialDesignInXAML》强力推荐
时间如流水,只能流去不流回! 点赞再看,养成习惯,这是您给我创作的动力! 本文 Dotnet9 https://dotnet9.com 已收录,站长乐于分享dotnet相关技术,比如Winform.W ...
Intent知识详解
Intent知识详解一.什么是Intent 贴一个官方解释: An intent is an abstract description of an operation to be performed ...
HttpRunner学习9--切换测试报告模板
前言在HttpRunner中,给我们提供了 2 套测试报告模板,分别是 default_report_template.html 和 extent_report_template.html . 默认 ...
松软科技Web课堂:JavaScript 类型转换
Number() 转换数值,String() 转换字符串,Boolean() 转换布尔值. JavaScript 数据类型 JavaScript 中有五种可包含值的数据类型: 字符串(string) ...
highreport报表工具功能介绍
目前国产报表工具大部分都是Java版本,例如润乾和帆软,而C#写的报表工具国内还没有,介绍一款VS2010(C#)写的国产报表工具(highreport),采用类Excel设计,零代码实现复杂报表展示 ...
Geoserver设置style
1 背景我们在ArcMap中可以直接通过symbol功能对图层进行定制化配图.但是,如果我们将配好图的shp图层在GeoServer中发布时,会发现图层样式完全丢失了.其实原因很简单,用ArcMap ...
Android 状态栏通知 Notification
private NotificationManager manager; private Notification.Builder builder; @Override protected void ...