最近学习Logistic回归算法,在网上看了许多博文,笔者觉得这篇文章http://blog.kamidox.com/logistic-regression.html写得最好。但其中有个关键问题没有讲清楚:为什么选择-log(h(x))作为成本函数(也叫损失函数)。

和线性回归算法相比,逻辑回归的预测函数是非线性的,不能使用均方差函数作为成本函数。因此如何选择逻辑回归算法的成本函数,就要多费一些事。

在正式讨论这个问题之前,先来复习一些基础知识。

一些常见函数的导数

$$
\frac{dy}{dx}(x^n) = nx^{n-1}
$$

$$
\frac{dy}{dx}log_b(x) = \frac{1}{xln(b)} \text{ 如果b=e } \frac{dy}{dx}log_e(x) = \frac{1}{x}
$$

$$
\frac{dy}{dx}(b^x)= b^xln(b) \text{ 如果b=e } \frac{dy}{dx}(e^x) = e^x
$$

求导法则

常数倍

如果f(x)=Cg(x),C是常数,那么

\[
\frac{dy}{dx}(f(x))=C\frac{dy}{dx}(g(x))
\]

函数和与函数差

如果f(x) = g1(x) + g2(x) - g3(x),那么

\[
\frac {dy}{dx}(f(x)) = \frac {dy}{dx}(g1(x)) + \frac {dy}{dx}(g2(x)) - \frac {dy}{dx}(g3(x))
\]

乘积法求导

如果h(x) = f(x)g(x),那么:

\[
h^{'}(x) = f^{'}(x)g(x) + g^{'}(x)f(x)
\]

设h(x) = y, f(x) = u, g(x)=v, 那么:

\[
\frac {dy}{dx} = v\frac {du}{dx} + u\frac {dv}{dx}
\]

商法则求导

如果h(x) = f(x)/g(x), 那么:

\[
h^{'}(x) = \frac {f^{'}(x)g(x) - g^{'}(x)f(x)}{{(g(x))}^2}
\]

y=u/v,那么:

\[
\frac{dy}{dx} = \frac{\frac{du}{dx}v - \frac{dv}{dx}u}{v^2}
\]

链式求导

如果h(x) = f(g(x)), 那么:

\[
h^{'}(x) = f^{'}(g(x))g^{'}(x)
\]

如果y是u的函数,并且u是x的函数,那么:

\[
\frac{dy}{dx} = \frac{dy}{du}\frac{du}{dx}
\]

逻辑回归算法涉及到的几个基本函数

关于数据的特征向量x和回归系数向量w的线性函数

\[
L_w(x) = w^Tx
\]

sigmoid函数

\[
g(z) = \frac{1}{1 + e^{-z}}
\]

分类预测函数

\[
h_w(x) = \frac{1}{1 + e^{-w^Tx}}
\]

逻辑回归算法是一个二分类算法,可以用1, 0表示这两种分类。算法的最终目标是找到一个合适的回归系数w, 对数据集中的任意一条数据xi满足:

\[
\begin{cases}
h_w(x_i) >= 0.5 &\text{真实分类y=1} \\
h_w(x_i) <0.5 &\text{真实分类y=0}
\end{cases}
\]

分类判断函数hw(xi)的取值区间是(0,1),可以把它看成数据xi在系数为w时属于分类1概率。由于只有两个分类,同样可以把1-hw(x)看成是x在系数为w是属于分类0的概率

选择成本函数

现在开始选择成本函数,目前还没有选择成本函数的头绪,但是我看可以先假设有一个成本函数,看看它应该满足什么条件,设成本函数为:

\[
J(w) = \begin{cases}
\frac{1}{m}\sum^m_{i=1}f(h_w(x_i)) &\text{y=1} \\
\frac{1}{m}\sum^m_{i=1}f(1- h_w(x_i)) &\text{y=0}
\end{cases}
\]

这个这个成本函数和线性回归的成本函数长得差不多,不同的是这里有一个未知函数f(u), 在线性回归中\(f(u)=(h_w(x_i) - y)^2\),这里不还不知道f(x)是什么。但根据hw(xi)的特点,反推,可以得到f(u)应该具有的第一个性质:

当u趋近于1(100%概率)时, f(u)趋近于最小值。

在梯度向下公式中,计算J(w)的梯度可以归结为计算f(u)的梯度。可以使用链式求导法计算:

\[
\frac{δ}{δw_j}f(u) = f'(u)u'x_{ij}
\]

这里的u可能是hw(xi)或1-hw(xi), u'等于h'w(xi)或-h'w(xi),因此会终涉及到对sigmoid函数的导数:

设\(g(x)=\frac{1}{1+e^{-x}}\)

$
\frac{dy}{dx}(g(x)) = \frac{0(1+e^{-x}) - 1(-e^{-x})}{(1+e^{-x})^2} = \frac{e^{-x}}{(1+e^{-x})^2}
$

$
= \frac{1}{1+e^{-x}}\frac{e^{-x}}{1+e^{-x}} = \frac{1}{1+e^{-x}}\frac{1+e^{-x}-1}{1+e^{-x}} = \frac{1}{1+e^{-x}}(\frac{1+e^{-x}}{1+e^{-x}} - \frac{1}{1+e^{-x}}) = g(x)(1-g(x))
$

把令u=g(x), 那么\(u'=u(1-u)\),代入到梯度公式中得到:

$
\frac{δ}{δw_j}f(u) = f'(u)u(1-u)x_{ij}
$

如果在这个公式的计算过程中可以消掉u或(1-u)的同时不引入其他函数,就可以大大简化梯度的计算。因此可以得到f(u)需要满足的第二个性质:

能够满足: \(f'(u)=\frac{a}{u}\), a是常数。

前文中刚好有一种函数可以满足这种要求: \(\frac{dy}{du}(ln(u))=\frac{1}{u}\),但f(u)=ln(u), 不能满足第一个性质,此时只需加一个'-'号就可以了,即: f(u)=-ln(u)。

找到f(u)后再来重写成本函数:

\[
J(w) = \begin{cases}
\frac{1}{m}\sum^m_{i=1}-ln(h_w(x_i)) &\text{y=1} \\
\frac{1}{m}\sum^m_{i=1}-ln(1- h_w(x_i)) &\text{y=0}
\end{cases}
\]

合并成一个函数:

$
J(w) = \frac{1}{m}\sum^m_{i=1}-yln(h_w(x_i)) - (1-y)ln(h_w(x_i))
$

梯度下降公式

$
w_j := w_j - \alpha\frac{δ}{δw_j}J(w)
$

$
\frac{δ}{δw_j}J(w) = \frac{δ}{δw_j}\frac{1}{m}\sum^m_{i=1}-yln(h_w(x_i)) - (1-y)ln(1- h_w(x_i))
$

$
= \frac{1}{m}\sum^m_{i=1}\frac{-y_jh_w(x_i)(1-h_w(x_i))x_{ij}}{h_w(x_i)}+\frac{-(1-y_j)(1-h_w(x_i))(1-(1-h_w(x_i))(-x_{ij})}{1-h_w(x_i)}
$

$
= \frac{1}{m}\sum^m_{i=1}-y_j(1-h_w(x_i))x_{ij}+(1-y_j)h_w(x_i)x_{ij}
$

$
= \frac{1}{m}\sum^m_{i=1}(-y + yh_w(x_i) + h_w(x_i) - yh_w(x_i))x_{ij}
= \frac{1}{m}\sum^m_{i=1}(h_w(x_i)-y_i)x_{ij}
$

最终得到梯度下降公式如下

$
w_j := w_j - \alpha\frac{δ}{δw_j}J(w) = w_j - \alpha\frac{1}{m}\sum^m_{i=1}(h_w(x_i)-y_i)x_{ij}
$

Logistic回归算法梯度公式的推导的更多相关文章

  1. 机器学习之Logistic 回归算法

    1 Logistic 回归算法的原理 1.1 需要的数学基础 我在看机器学习实战时对其中的代码非常费解,说好的利用偏导数求最值怎么代码中没有体现啊,就一个简单的式子:θ= θ - α Σ [( hθ( ...

  2. 机器学习之logistic回归算法与代码实现原理

    Logistic回归算法原理与代码实现 本文系作者原创,转载请注明出处:https://www.cnblogs.com/further-further-further/p/10033567.html ...

  3. Logistic回归与梯度上升算法

    原创作品出处 原始出处 .作者信息和本声明.否则将追究法律责任.http://sbp810050504.blog.51cto.com/2799422/1608064 Logistic回归与梯度上升算法 ...

  4. Logistic回归,梯度上升算法理论详解和实现

    经过对Logistic回归理论的学习,推导出取对数后的似然函数为 现在我们的目的是求一个向量,使得最大.其中 对这个似然函数求偏导后得到 根据梯度上升算法有 进一步得到 我们可以初始化向量为0,或者随 ...

  5. 机器学习算法-logistic回归算法

    Logistic回归算法调试 一.算法原理 Logistic回归算法是一种优化算法,主要用用于只有两种标签的分类问题.其原理为对一些数据点用一条直线去拟合,对数据集进行划分.从广义上来讲这也是一种多元 ...

  6. logistic回归算法及其matlib实现

    一般来说,回归不用在分类问题上,因为回归是连续型模型,而且受噪声影响比较大.如果非要使用回归算法,可以使用logistic回归. logistic回归本质上是线性回归,只是在特征到结果的映射中多加入了 ...

  7. 机器学习算法( 五、Logistic回归算法)

    一.概述 这会是激动人心的一章,因为我们将首次接触到最优化算法.仔细想想就会发现,其实我们日常生活中遇到过很多最优化问题,比如如何在最短时间内从A点到达B点?如何投入最少工作量却获得最大的效益?如何设 ...

  8. matlib实现logistic回归算法(序一)

    数据下载:http://archive.ics.uci.edu/ml/datasets/Adult 数据描述:http://archive.ics.uci.edu/ml/machine-learnin ...

  9. logistic回归原理和公式

    转自:http://blog.csdn.net/ariessurfer/article/details/41310525 Logistic回归为概率型非线性回归模型,是研究二分类观察结果与一些影响因素 ...

随机推荐

  1. 关于typedef和struct

    在struct中使用自身,需要加struct关键字,无论带不带typedef,例如: struct A { int a; struct A *pA; }; 在定义struct方面尽量不要使用typed ...

  2. JavaScript设计模式(代理模式)

    一.简单的单例模式: 1.未使用代理模式的情况:小明直接给女神送花 var Flower = function() {} var xiaoming = { sendFlower: function( ...

  3. java中的时区转换

    目录 java中的时区转换 一.时区的说明 二.时间的表示 三.时间戳 四.Date类和时间戳 五.java中的时区转换 java中的时区转换 一.时区的说明 地球表面按经线从东到西,被划成一个个区域 ...

  4. QHDYZ模拟赛20191027 提前透题

    你们想的美 我给你们透一下题目名称 别刷博客了快去做题

  5. csp-s模拟测试101的T3代码+注释

    因为题目过于大神所以单独拿出来说.而且既然下发std了颓代码貌似也不算可耻233 很难讲啊,所以还是写在代码注释里面吧 因为比较认真的写了不少注释,所以建议缩放到80%观看,或者拿到gedit上 1 ...

  6. AndroidOS体系结构

    首先上图一张 对照着图,我们再来看Android 系统的体系结构就爽多了.我们从底层向上进行分析. 一.Linux 内核层 Linux Kernel 基于linux2.6.其核心系统服务如安全性.内存 ...

  7. P2579 [ZJOI2005]沼泽鳄鱼(邻接矩阵,快速幂)

    题目简洁明了(一点都不好伐) 照例,化简题目 给一张图,每一个时间点有一些点不能走,(有周期性),求从起点第k秒恰好在终点的方案数,可重复,不可停留. 额dp实锤 于是就被打脸了.... 有一种东西叫 ...

  8. CentOS7 reset脚本,用于初始化新的虚拟机

    能用,有待完善 CentOS7测试 哈哈 #!/bin/bash #************************************************************** #Au ...

  9. java编程思想第四版第十一章习题

    第一题 package net.mindview.holding.test1; import java.util.ArrayList; import java.util.List; /** * 沙鼠 ...

  10. nyoj 60-谁获得了最高奖学金 (逻辑判断)

    60-谁获得了最高奖学金 内存限制:64MB 时间限制:1000ms Special Judge: No accepted:8 submit:17 题目描述:     某校的惯例是在每学期的期末考试之 ...