在Machine Learning的Regression Problem中,常用Quadratic Function来做Cost Function,用以表征Hypothesis与Y之间的差距.而通过Gradient Descent来不断调整参数,从而缩小这个Gap从而训练我们的算法. 而在Neural Network的Classification Problem中,如果依然使用Quadratic Function,则会出现学习速率过慢的问题,这时我们就需要选用Cross-entropy来做Cos…
1.说在前面 最近在学习object detection的论文,又遇到交叉熵.高斯混合模型等之类的知识,发现自己没有搞明白这些概念,也从来没有认真总结归纳过,所以觉得自己应该沉下心,对以前的知识做一个回顾与总结,特此先简单倒腾了一下博客,使之美观一些,再进行总结.本篇博客先是对交叉熵损失函数进行一个简单的总结. 2. 交叉熵的来源 2.1.信息量 交叉熵是信息论中的一个概念,要想了解交叉熵的本质,需要先从最基本的概念讲起.我们先来看看什么是信息量: 事件A:巴西队进入了2018世界杯决赛圈. 事…
https://zhuanlan.zhihu.com/p/26268559 分类问题的目标变量是离散的,而回归是连续的数值. 分类问题,都用 onehot + cross entropy training 过程中,分类问题用 cross entropy,回归问题用 mean squared error. training 之后,validation / testing 时,使用 classification error,更直观,而且是我们最关注的指标.…
其它的比gradient descent快, 在某些场合得到广泛应用的求cost function的最小值的方法 when have a large machine learning problem,一般会使用这些advanced optimization algorithm而不是gradient descent Conjugate gradient, BFGS,L-BFGS很复杂,可以在不明白详细原理的情况下进行应用(使用software libary). 可以使用Octave和matlab的…
logistic regression cost function(single example) 图像分布 logistic regression cost function(m examples) Writting cost function in a more convenient form with just one line To fit parameter θ Using gradient descent to minimize cost function 看上去和gradient…
注:代价函数(有的地方也叫损失函数,Loss Function)在机器学习中的每一种算法中都很重要,因为训练模型的过程就是优化代价函数的过程,代价函数对每个参数的偏导数就是梯度下降中提到的梯度,防止过拟合时添加的正则化项也是加在代价函数后面的.在学习相关算法的过程中,对代价函数的理解也在不断的加深,在此做一个小结. 什么是代价函数? 假设有训练样本(x, y),模型为h,参数为θ.h(θ) = θTx(θT表示θ的转置). (1)概况来讲,任何能够衡量模型预测出来的值h(θ)与真实值y之间的差异…
Model Representation To establish notation for future use, we’ll use x(i) to denote the “input” variables (living area in this example), also called input features, and y(i) to denote the “output” or target variable that we are trying to predict (pri…
之所以会有这个问题,是因为在学习 logistic regression 时,<统计机器学习>一书说它的负对数似然函数是凸函数,而 logistic regression 的负对数似然函数(negative log likelihood)和 交叉熵函数(cross entropy)具有一样的形式. 先给出结论,logistic regression 时,cross entropy 是凸的,但多层神经网络时,cross entropy 不是凸的. logistic regression 时,cr…
了解LR的同学们都知道,LR采用了最小化交叉熵或者最大化似然估计函数来作为Cost Function,那有个很有意思的问题来了,为什么我们不用更加简单熟悉的最小化平方误差函数(MSE)呢? 我个人理解主要有三个原因: MSE的假设是高斯分布,交叉熵的假设是伯努利分布,而逻辑回归采用的就是伯努利分布: MSE会导致代价函数$J(\theta)$非凸,这会存在很多局部最优解,而我们更想要代价函数是凸函数: MSE相对于交叉熵而言会加重梯度弥散. 这里着重讨论下后边两条原因. 代价函数为什么要为凸函数…
有监督学习 机器学习分为有监督学习,无监督学习,半监督学习.强化学习.对于逻辑回归来说,就是一种典型的有监督学习. 既然是有监督学习,训练集自然能够用例如以下方式表述: {(x1,y1),(x2,y2),⋯,(xm,ym)} 对于这m个训练样本,每一个样本本身有n维特征. 再加上一个偏置项x0, 则每一个样本包括n+1维特征: x=[x0,x1,x2,⋯,xn]T 当中 x∈Rn+1, x0=1, y∈{0,1} 李航博士在统计学习方法一书中给分类问题做了例如以下定义: 分类是监督学习的一个核心…