Logistic回归算法梯度公式的推导
最近学习Logistic回归算法,在网上看了许多博文,笔者觉得这篇文章http://blog.kamidox.com/logistic-regression.html写得最好。但其中有个关键问题没有讲清楚:为什么选择-log(h(x))作为成本函数(也叫损失函数)。
和线性回归算法相比,逻辑回归的预测函数是非线性的,不能使用均方差函数作为成本函数。因此如何选择逻辑回归算法的成本函数,就要多费一些事。
在正式讨论这个问题之前,先来复习一些基础知识。
一些常见函数的导数
$$
\frac{dy}{dx}(x^n) = nx^{n-1}
$$
$$
\frac{dy}{dx}log_b(x) = \frac{1}{xln(b)} \text{ 如果b=e } \frac{dy}{dx}log_e(x) = \frac{1}{x}
$$
$$
\frac{dy}{dx}(b^x)= b^xln(b) \text{ 如果b=e } \frac{dy}{dx}(e^x) = e^x
$$
求导法则
常数倍
如果f(x)=Cg(x),C是常数,那么
\[
\frac{dy}{dx}(f(x))=C\frac{dy}{dx}(g(x))
\]
函数和与函数差
如果f(x) = g1(x) + g2(x) - g3(x),那么
\[
\frac {dy}{dx}(f(x)) = \frac {dy}{dx}(g1(x)) + \frac {dy}{dx}(g2(x)) - \frac {dy}{dx}(g3(x))
\]
乘积法求导
如果h(x) = f(x)g(x),那么:
\[
h^{'}(x) = f^{'}(x)g(x) + g^{'}(x)f(x)
\]
设h(x) = y, f(x) = u, g(x)=v, 那么:
\[
\frac {dy}{dx} = v\frac {du}{dx} + u\frac {dv}{dx}
\]
商法则求导
如果h(x) = f(x)/g(x), 那么:
\[
h^{'}(x) = \frac {f^{'}(x)g(x) - g^{'}(x)f(x)}{{(g(x))}^2}
\]
y=u/v,那么:
\[
\frac{dy}{dx} = \frac{\frac{du}{dx}v - \frac{dv}{dx}u}{v^2}
\]
链式求导
如果h(x) = f(g(x)), 那么:
\[
h^{'}(x) = f^{'}(g(x))g^{'}(x)
\]
如果y是u的函数,并且u是x的函数,那么:
\[
\frac{dy}{dx} = \frac{dy}{du}\frac{du}{dx}
\]
逻辑回归算法涉及到的几个基本函数
关于数据的特征向量x和回归系数向量w的线性函数
\[
L_w(x) = w^Tx
\]
sigmoid函数
\[
g(z) = \frac{1}{1 + e^{-z}}
\]
分类预测函数
\[
h_w(x) = \frac{1}{1 + e^{-w^Tx}}
\]
逻辑回归算法是一个二分类算法,可以用1, 0表示这两种分类。算法的最终目标是找到一个合适的回归系数w, 对数据集中的任意一条数据xi满足:
\[
\begin{cases}
h_w(x_i) >= 0.5 &\text{真实分类y=1} \\
h_w(x_i) <0.5 &\text{真实分类y=0}
\end{cases}
\]
分类判断函数hw(xi)的取值区间是(0,1),可以把它看成数据xi在系数为w时属于分类1概率。由于只有两个分类,同样可以把1-hw(x)看成是x在系数为w是属于分类0的概率
选择成本函数
现在开始选择成本函数,目前还没有选择成本函数的头绪,但是我看可以先假设有一个成本函数,看看它应该满足什么条件,设成本函数为:
\[
J(w) = \begin{cases}
\frac{1}{m}\sum^m_{i=1}f(h_w(x_i)) &\text{y=1} \\
\frac{1}{m}\sum^m_{i=1}f(1- h_w(x_i)) &\text{y=0}
\end{cases}
\]
这个这个成本函数和线性回归的成本函数长得差不多,不同的是这里有一个未知函数f(u), 在线性回归中\(f(u)=(h_w(x_i) - y)^2\),这里不还不知道f(x)是什么。但根据hw(xi)的特点,反推,可以得到f(u)应该具有的第一个性质:
当u趋近于1(100%概率)时, f(u)趋近于最小值。
在梯度向下公式中,计算J(w)的梯度可以归结为计算f(u)的梯度。可以使用链式求导法计算:
\[
\frac{δ}{δw_j}f(u) = f'(u)u'x_{ij}
\]
这里的u可能是hw(xi)或1-hw(xi), u'等于h'w(xi)或-h'w(xi),因此会终涉及到对sigmoid函数的导数:
设\(g(x)=\frac{1}{1+e^{-x}}\)
$
\frac{dy}{dx}(g(x)) = \frac{0(1+e^{-x}) - 1(-e^{-x})}{(1+e^{-x})^2} = \frac{e^{-x}}{(1+e^{-x})^2}
$
$
= \frac{1}{1+e^{-x}}\frac{e^{-x}}{1+e^{-x}} = \frac{1}{1+e^{-x}}\frac{1+e^{-x}-1}{1+e^{-x}} = \frac{1}{1+e^{-x}}(\frac{1+e^{-x}}{1+e^{-x}} - \frac{1}{1+e^{-x}}) = g(x)(1-g(x))
$
把令u=g(x), 那么\(u'=u(1-u)\),代入到梯度公式中得到:
$
\frac{δ}{δw_j}f(u) = f'(u)u(1-u)x_{ij}
$
如果在这个公式的计算过程中可以消掉u或(1-u)的同时不引入其他函数,就可以大大简化梯度的计算。因此可以得到f(u)需要满足的第二个性质:
能够满足: \(f'(u)=\frac{a}{u}\), a是常数。
前文中刚好有一种函数可以满足这种要求: \(\frac{dy}{du}(ln(u))=\frac{1}{u}\),但f(u)=ln(u), 不能满足第一个性质,此时只需加一个'-'号就可以了,即: f(u)=-ln(u)。
找到f(u)后再来重写成本函数:
\[
J(w) = \begin{cases}
\frac{1}{m}\sum^m_{i=1}-ln(h_w(x_i)) &\text{y=1} \\
\frac{1}{m}\sum^m_{i=1}-ln(1- h_w(x_i)) &\text{y=0}
\end{cases}
\]
合并成一个函数:
$
J(w) = \frac{1}{m}\sum^m_{i=1}-yln(h_w(x_i)) - (1-y)ln(h_w(x_i))
$
梯度下降公式
$
w_j := w_j - \alpha\frac{δ}{δw_j}J(w)
$
$
\frac{δ}{δw_j}J(w) = \frac{δ}{δw_j}\frac{1}{m}\sum^m_{i=1}-yln(h_w(x_i)) - (1-y)ln(1- h_w(x_i))
$
$
= \frac{1}{m}\sum^m_{i=1}\frac{-y_jh_w(x_i)(1-h_w(x_i))x_{ij}}{h_w(x_i)}+\frac{-(1-y_j)(1-h_w(x_i))(1-(1-h_w(x_i))(-x_{ij})}{1-h_w(x_i)}
$
$
= \frac{1}{m}\sum^m_{i=1}-y_j(1-h_w(x_i))x_{ij}+(1-y_j)h_w(x_i)x_{ij}
$
$
= \frac{1}{m}\sum^m_{i=1}(-y + yh_w(x_i) + h_w(x_i) - yh_w(x_i))x_{ij}
= \frac{1}{m}\sum^m_{i=1}(h_w(x_i)-y_i)x_{ij}
$
最终得到梯度下降公式如下
$
w_j := w_j - \alpha\frac{δ}{δw_j}J(w) = w_j - \alpha\frac{1}{m}\sum^m_{i=1}(h_w(x_i)-y_i)x_{ij}
$
Logistic回归算法梯度公式的推导的更多相关文章
- 机器学习之Logistic 回归算法
1 Logistic 回归算法的原理 1.1 需要的数学基础 我在看机器学习实战时对其中的代码非常费解,说好的利用偏导数求最值怎么代码中没有体现啊,就一个简单的式子:θ= θ - α Σ [( hθ( ...
- 机器学习之logistic回归算法与代码实现原理
Logistic回归算法原理与代码实现 本文系作者原创,转载请注明出处:https://www.cnblogs.com/further-further-further/p/10033567.html ...
- Logistic回归与梯度上升算法
原创作品出处 原始出处 .作者信息和本声明.否则将追究法律责任.http://sbp810050504.blog.51cto.com/2799422/1608064 Logistic回归与梯度上升算法 ...
- Logistic回归,梯度上升算法理论详解和实现
经过对Logistic回归理论的学习,推导出取对数后的似然函数为 现在我们的目的是求一个向量,使得最大.其中 对这个似然函数求偏导后得到 根据梯度上升算法有 进一步得到 我们可以初始化向量为0,或者随 ...
- 机器学习算法-logistic回归算法
Logistic回归算法调试 一.算法原理 Logistic回归算法是一种优化算法,主要用用于只有两种标签的分类问题.其原理为对一些数据点用一条直线去拟合,对数据集进行划分.从广义上来讲这也是一种多元 ...
- logistic回归算法及其matlib实现
一般来说,回归不用在分类问题上,因为回归是连续型模型,而且受噪声影响比较大.如果非要使用回归算法,可以使用logistic回归. logistic回归本质上是线性回归,只是在特征到结果的映射中多加入了 ...
- 机器学习算法( 五、Logistic回归算法)
一.概述 这会是激动人心的一章,因为我们将首次接触到最优化算法.仔细想想就会发现,其实我们日常生活中遇到过很多最优化问题,比如如何在最短时间内从A点到达B点?如何投入最少工作量却获得最大的效益?如何设 ...
- matlib实现logistic回归算法(序一)
数据下载:http://archive.ics.uci.edu/ml/datasets/Adult 数据描述:http://archive.ics.uci.edu/ml/machine-learnin ...
- logistic回归原理和公式
转自:http://blog.csdn.net/ariessurfer/article/details/41310525 Logistic回归为概率型非线性回归模型,是研究二分类观察结果与一些影响因素 ...
随机推荐
- SpringBoot 2.0 开发案例之百倍级减肥瘦身之旅
前言 为了存我的小黄图,最近在做一款图床服务,集成了各种第三方云存储服务,目前正在内部测试阶段.项目是以Jar的形式运行在腾讯云上,不要问我为什么使用腾讯云了,因为阿里云老用户和狗不得入内. 问题凸显 ...
- 键盘常见ascii码值
回车事件最常见,码值13 ESC键: VK_ESCAPE (27) 回车键: VK_RETURN (13) TAB键: VK_TAB (9) Caps Lock键: VK_CAPITAL (20) S ...
- 《JavaScript设计模式与开发实践》-- 迭代器模式
详情个人博客:https://shengchangwei.github.io/js-shejimoshi-diedaiqi/ 迭代器模式 1.定义 迭代器模式: 是指提供一种方法顺序访问一个聚合对象中 ...
- 使用Beautiful Soup
Beautiful Soup初了解 # 解析工具Beautiful Soup,借助网页的结构和属性等特性来解析网页(简单的说就是python的一个HTML或XML的解析库)# Beautiful So ...
- mine:dp
一个小的线性dp.方法很多,八仙过海各显神通. 我想讲一下我的: #include<cstdio> #define mod 1000000007 ];][][],n;//是不是雷,右边有没 ...
- NOIP模拟 28
果然昨天和别人合照丢的脸今天都加进RP里了 T3是用了dp快速幂(???),T1,T2考试的时候把想法都写注释了. T1: #include<cstdio> using namespace ...
- 零基础小白入门IT开发指南
先自我介绍以下,本人是一枚刚毕业不到两年的某一线城市的程序员,本科阶段专业是计算机科学与技术.从大四开始出去实习到现在的编码经验也有快2年半了,两年半的时间包括实习在内任职过有4家公司,包括一家互联网 ...
- 吉利WA数
- 必知必会的JavaJDK工具
JDK中有很多用于监控诊断的系统工具,对于Java程序员来说,无疑是用来了解自己程序运行时性能好坏的强大工具. 在JDK的bin目录下就可以找到这些工具. JPS 在Linux有一个命令叫做ps,可以 ...
- 理解Spark运行模式(一)(Yarn Client)
Spark运行模式有Local,STANDALONE,YARN,MESOS,KUBERNETES这5种,其中最为常见的是YARN运行模式,它又可分为Client模式和Cluster模式.这里以Spar ...