Logistic回归算法梯度公式的推导
最近学习Logistic回归算法,在网上看了许多博文,笔者觉得这篇文章http://blog.kamidox.com/logistic-regression.html写得最好。但其中有个关键问题没有讲清楚:为什么选择-log(h(x))作为成本函数(也叫损失函数)。
和线性回归算法相比,逻辑回归的预测函数是非线性的,不能使用均方差函数作为成本函数。因此如何选择逻辑回归算法的成本函数,就要多费一些事。
在正式讨论这个问题之前,先来复习一些基础知识。
一些常见函数的导数
$$
\frac{dy}{dx}(x^n) = nx^{n-1}
$$
$$
\frac{dy}{dx}log_b(x) = \frac{1}{xln(b)} \text{ 如果b=e } \frac{dy}{dx}log_e(x) = \frac{1}{x}
$$
$$
\frac{dy}{dx}(b^x)= b^xln(b) \text{ 如果b=e } \frac{dy}{dx}(e^x) = e^x
$$
求导法则
常数倍
如果f(x)=Cg(x),C是常数,那么
\[
\frac{dy}{dx}(f(x))=C\frac{dy}{dx}(g(x))
\]
函数和与函数差
如果f(x) = g1(x) + g2(x) - g3(x),那么
\[
\frac {dy}{dx}(f(x)) = \frac {dy}{dx}(g1(x)) + \frac {dy}{dx}(g2(x)) - \frac {dy}{dx}(g3(x))
\]
乘积法求导
如果h(x) = f(x)g(x),那么:
\[
h^{'}(x) = f^{'}(x)g(x) + g^{'}(x)f(x)
\]
设h(x) = y, f(x) = u, g(x)=v, 那么:
\[
\frac {dy}{dx} = v\frac {du}{dx} + u\frac {dv}{dx}
\]
商法则求导
如果h(x) = f(x)/g(x), 那么:
\[
h^{'}(x) = \frac {f^{'}(x)g(x) - g^{'}(x)f(x)}{{(g(x))}^2}
\]
y=u/v,那么:
\[
\frac{dy}{dx} = \frac{\frac{du}{dx}v - \frac{dv}{dx}u}{v^2}
\]
链式求导
如果h(x) = f(g(x)), 那么:
\[
h^{'}(x) = f^{'}(g(x))g^{'}(x)
\]
如果y是u的函数,并且u是x的函数,那么:
\[
\frac{dy}{dx} = \frac{dy}{du}\frac{du}{dx}
\]
逻辑回归算法涉及到的几个基本函数
关于数据的特征向量x和回归系数向量w的线性函数
\[
L_w(x) = w^Tx
\]
sigmoid函数
\[
g(z) = \frac{1}{1 + e^{-z}}
\]
分类预测函数
\[
h_w(x) = \frac{1}{1 + e^{-w^Tx}}
\]
逻辑回归算法是一个二分类算法,可以用1, 0表示这两种分类。算法的最终目标是找到一个合适的回归系数w, 对数据集中的任意一条数据xi满足:
\[
\begin{cases}
h_w(x_i) >= 0.5 &\text{真实分类y=1} \\
h_w(x_i) <0.5 &\text{真实分类y=0}
\end{cases}
\]
分类判断函数hw(xi)的取值区间是(0,1),可以把它看成数据xi在系数为w时属于分类1概率。由于只有两个分类,同样可以把1-hw(x)看成是x在系数为w是属于分类0的概率
选择成本函数
现在开始选择成本函数,目前还没有选择成本函数的头绪,但是我看可以先假设有一个成本函数,看看它应该满足什么条件,设成本函数为:
\[
J(w) = \begin{cases}
\frac{1}{m}\sum^m_{i=1}f(h_w(x_i)) &\text{y=1} \\
\frac{1}{m}\sum^m_{i=1}f(1- h_w(x_i)) &\text{y=0}
\end{cases}
\]
这个这个成本函数和线性回归的成本函数长得差不多,不同的是这里有一个未知函数f(u), 在线性回归中\(f(u)=(h_w(x_i) - y)^2\),这里不还不知道f(x)是什么。但根据hw(xi)的特点,反推,可以得到f(u)应该具有的第一个性质:
当u趋近于1(100%概率)时, f(u)趋近于最小值。
在梯度向下公式中,计算J(w)的梯度可以归结为计算f(u)的梯度。可以使用链式求导法计算:
\[
\frac{δ}{δw_j}f(u) = f'(u)u'x_{ij}
\]
这里的u可能是hw(xi)或1-hw(xi), u'等于h'w(xi)或-h'w(xi),因此会终涉及到对sigmoid函数的导数:
设\(g(x)=\frac{1}{1+e^{-x}}\)
$
\frac{dy}{dx}(g(x)) = \frac{0(1+e^{-x}) - 1(-e^{-x})}{(1+e^{-x})^2} = \frac{e^{-x}}{(1+e^{-x})^2}
$
$
= \frac{1}{1+e^{-x}}\frac{e^{-x}}{1+e^{-x}} = \frac{1}{1+e^{-x}}\frac{1+e^{-x}-1}{1+e^{-x}} = \frac{1}{1+e^{-x}}(\frac{1+e^{-x}}{1+e^{-x}} - \frac{1}{1+e^{-x}}) = g(x)(1-g(x))
$
把令u=g(x), 那么\(u'=u(1-u)\),代入到梯度公式中得到:
$
\frac{δ}{δw_j}f(u) = f'(u)u(1-u)x_{ij}
$
如果在这个公式的计算过程中可以消掉u或(1-u)的同时不引入其他函数,就可以大大简化梯度的计算。因此可以得到f(u)需要满足的第二个性质:
能够满足: \(f'(u)=\frac{a}{u}\), a是常数。
前文中刚好有一种函数可以满足这种要求: \(\frac{dy}{du}(ln(u))=\frac{1}{u}\),但f(u)=ln(u), 不能满足第一个性质,此时只需加一个'-'号就可以了,即: f(u)=-ln(u)。
找到f(u)后再来重写成本函数:
\[
J(w) = \begin{cases}
\frac{1}{m}\sum^m_{i=1}-ln(h_w(x_i)) &\text{y=1} \\
\frac{1}{m}\sum^m_{i=1}-ln(1- h_w(x_i)) &\text{y=0}
\end{cases}
\]
合并成一个函数:
$
J(w) = \frac{1}{m}\sum^m_{i=1}-yln(h_w(x_i)) - (1-y)ln(h_w(x_i))
$
梯度下降公式
$
w_j := w_j - \alpha\frac{δ}{δw_j}J(w)
$
$
\frac{δ}{δw_j}J(w) = \frac{δ}{δw_j}\frac{1}{m}\sum^m_{i=1}-yln(h_w(x_i)) - (1-y)ln(1- h_w(x_i))
$
$
= \frac{1}{m}\sum^m_{i=1}\frac{-y_jh_w(x_i)(1-h_w(x_i))x_{ij}}{h_w(x_i)}+\frac{-(1-y_j)(1-h_w(x_i))(1-(1-h_w(x_i))(-x_{ij})}{1-h_w(x_i)}
$
$
= \frac{1}{m}\sum^m_{i=1}-y_j(1-h_w(x_i))x_{ij}+(1-y_j)h_w(x_i)x_{ij}
$
$
= \frac{1}{m}\sum^m_{i=1}(-y + yh_w(x_i) + h_w(x_i) - yh_w(x_i))x_{ij}
= \frac{1}{m}\sum^m_{i=1}(h_w(x_i)-y_i)x_{ij}
$
最终得到梯度下降公式如下
$
w_j := w_j - \alpha\frac{δ}{δw_j}J(w) = w_j - \alpha\frac{1}{m}\sum^m_{i=1}(h_w(x_i)-y_i)x_{ij}
$
Logistic回归算法梯度公式的推导的更多相关文章
- 机器学习之Logistic 回归算法
1 Logistic 回归算法的原理 1.1 需要的数学基础 我在看机器学习实战时对其中的代码非常费解,说好的利用偏导数求最值怎么代码中没有体现啊,就一个简单的式子:θ= θ - α Σ [( hθ( ...
- 机器学习之logistic回归算法与代码实现原理
Logistic回归算法原理与代码实现 本文系作者原创,转载请注明出处:https://www.cnblogs.com/further-further-further/p/10033567.html ...
- Logistic回归与梯度上升算法
原创作品出处 原始出处 .作者信息和本声明.否则将追究法律责任.http://sbp810050504.blog.51cto.com/2799422/1608064 Logistic回归与梯度上升算法 ...
- Logistic回归,梯度上升算法理论详解和实现
经过对Logistic回归理论的学习,推导出取对数后的似然函数为 现在我们的目的是求一个向量,使得最大.其中 对这个似然函数求偏导后得到 根据梯度上升算法有 进一步得到 我们可以初始化向量为0,或者随 ...
- 机器学习算法-logistic回归算法
Logistic回归算法调试 一.算法原理 Logistic回归算法是一种优化算法,主要用用于只有两种标签的分类问题.其原理为对一些数据点用一条直线去拟合,对数据集进行划分.从广义上来讲这也是一种多元 ...
- logistic回归算法及其matlib实现
一般来说,回归不用在分类问题上,因为回归是连续型模型,而且受噪声影响比较大.如果非要使用回归算法,可以使用logistic回归. logistic回归本质上是线性回归,只是在特征到结果的映射中多加入了 ...
- 机器学习算法( 五、Logistic回归算法)
一.概述 这会是激动人心的一章,因为我们将首次接触到最优化算法.仔细想想就会发现,其实我们日常生活中遇到过很多最优化问题,比如如何在最短时间内从A点到达B点?如何投入最少工作量却获得最大的效益?如何设 ...
- matlib实现logistic回归算法(序一)
数据下载:http://archive.ics.uci.edu/ml/datasets/Adult 数据描述:http://archive.ics.uci.edu/ml/machine-learnin ...
- logistic回归原理和公式
转自:http://blog.csdn.net/ariessurfer/article/details/41310525 Logistic回归为概率型非线性回归模型,是研究二分类观察结果与一些影响因素 ...
随机推荐
- 数据后台管理(五)AOP日志
为了增加数据的安全性,在数据管理的过程中,我们需要将操作者访问时间,操作者的名称,访问的IP,访问资源的URL,执行时长,访问方法记录下来存储到数据库中,并可以通过页面查看. 1.将日志信息存储到数据 ...
- Unity5-ABSystem(三):AssetBundle加载
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明.本文链接:https://blog.csdn.net/lodypig/article/detai ...
- 根据多个成对的cron表达式生成的时间段,合并
场景:数据库一张表,有个startcron 和endcron 两个字段,根据表达式计算今天的所有时间段. 例:startcron :0 30 20 ? * * endcron :0 30 21 ? * ...
- emacs考场短配置
(set-background-color "gray15") (set-foreground-color "gray") ;;设置颜色 (global-set ...
- Vue学习笔记(五)——配置开发环境及初建项目
前言 在上一篇中,我们通过初步的认识,简单了解 Vue 生命周期的八个阶段,以及可以应用在之后的开发中,针对不同的阶段的钩子采取不同的操作,更好的实现我们的业务代码,处理更加复杂的业务逻辑. 而在这一 ...
- MYSQL5.7修改密码强度策略
---恢复内容开始--- 在MySQL5.6.6之后,ORACLE更新了mysql密码强度必须要使用大小写数字符号来设置密码,但是有时候这样还是很不方便的.所以记录一篇如何修改mysql密码强度的博文 ...
- 2、linu
一.常用linux命令 昨日内容回顾 linux基本命令 ls 查看目录和文件ls -la 查看所有文件和目录详情(包括隐藏文件, -l和-a可以单独使用)mkdirrmdirtouchcatcdrm ...
- FastDFS图片服务器单机安装步骤
前面已经讲 一张图秒懂微服务的网络架构,通过此文章可以了解FastDFS组件中单机安装流程. 单机版架构图 以下为单机FastDFS安装步骤 一.环境准备 CentOS 7.X libfastcomm ...
- vscode react自动补全html标签
第一步:点击上图左下角设置,找到Settings,搜索includeLanguages 第二步:如上图点击图中红色区域,settings.json 第三部:把代码加入,如上图红色选择区域. " ...
- php [poolwww] seemsbusy (youmayneedto increasepm.start_servers, or pm.min/max_spare_servers)错误解决方法
php [poolwww] seemsbusy (youmayneedto increasepm.start_servers, or pm.min/max_spare_servers)错误解决方法修改 ...