最近学习Logistic回归算法,在网上看了许多博文,笔者觉得这篇文章http://blog.kamidox.com/logistic-regression.html写得最好。但其中有个关键问题没有讲清楚:为什么选择-log(h(x))作为成本函数(也叫损失函数)。

和线性回归算法相比,逻辑回归的预测函数是非线性的,不能使用均方差函数作为成本函数。因此如何选择逻辑回归算法的成本函数,就要多费一些事。

在正式讨论这个问题之前,先来复习一些基础知识。

一些常见函数的导数

$$
\frac{dy}{dx}(x^n) = nx^{n-1}
$$

$$
\frac{dy}{dx}log_b(x) = \frac{1}{xln(b)} \text{ 如果b=e } \frac{dy}{dx}log_e(x) = \frac{1}{x}
$$

$$
\frac{dy}{dx}(b^x)= b^xln(b) \text{ 如果b=e } \frac{dy}{dx}(e^x) = e^x
$$

求导法则

常数倍

如果f(x)=Cg(x),C是常数,那么

\[
\frac{dy}{dx}(f(x))=C\frac{dy}{dx}(g(x))
\]

函数和与函数差

如果f(x) = g1(x) + g2(x) - g3(x),那么

\[
\frac {dy}{dx}(f(x)) = \frac {dy}{dx}(g1(x)) + \frac {dy}{dx}(g2(x)) - \frac {dy}{dx}(g3(x))
\]

乘积法求导

如果h(x) = f(x)g(x),那么:

\[
h^{'}(x) = f^{'}(x)g(x) + g^{'}(x)f(x)
\]

设h(x) = y, f(x) = u, g(x)=v, 那么:

\[
\frac {dy}{dx} = v\frac {du}{dx} + u\frac {dv}{dx}
\]

商法则求导

如果h(x) = f(x)/g(x), 那么:

\[
h^{'}(x) = \frac {f^{'}(x)g(x) - g^{'}(x)f(x)}{{(g(x))}^2}
\]

y=u/v,那么:

\[
\frac{dy}{dx} = \frac{\frac{du}{dx}v - \frac{dv}{dx}u}{v^2}
\]

链式求导

如果h(x) = f(g(x)), 那么:

\[
h^{'}(x) = f^{'}(g(x))g^{'}(x)
\]

如果y是u的函数,并且u是x的函数,那么:

\[
\frac{dy}{dx} = \frac{dy}{du}\frac{du}{dx}
\]

逻辑回归算法涉及到的几个基本函数

关于数据的特征向量x和回归系数向量w的线性函数

\[
L_w(x) = w^Tx
\]

sigmoid函数

\[
g(z) = \frac{1}{1 + e^{-z}}
\]

分类预测函数

\[
h_w(x) = \frac{1}{1 + e^{-w^Tx}}
\]

逻辑回归算法是一个二分类算法,可以用1, 0表示这两种分类。算法的最终目标是找到一个合适的回归系数w, 对数据集中的任意一条数据xi满足:

\[
\begin{cases}
h_w(x_i) >= 0.5 &\text{真实分类y=1} \\
h_w(x_i) <0.5 &\text{真实分类y=0}
\end{cases}
\]

分类判断函数hw(xi)的取值区间是(0,1),可以把它看成数据xi在系数为w时属于分类1概率。由于只有两个分类,同样可以把1-hw(x)看成是x在系数为w是属于分类0的概率

选择成本函数

现在开始选择成本函数,目前还没有选择成本函数的头绪,但是我看可以先假设有一个成本函数,看看它应该满足什么条件,设成本函数为:

\[
J(w) = \begin{cases}
\frac{1}{m}\sum^m_{i=1}f(h_w(x_i)) &\text{y=1} \\
\frac{1}{m}\sum^m_{i=1}f(1- h_w(x_i)) &\text{y=0}
\end{cases}
\]

这个这个成本函数和线性回归的成本函数长得差不多,不同的是这里有一个未知函数f(u), 在线性回归中\(f(u)=(h_w(x_i) - y)^2\),这里不还不知道f(x)是什么。但根据hw(xi)的特点,反推,可以得到f(u)应该具有的第一个性质:

当u趋近于1(100%概率)时, f(u)趋近于最小值。

在梯度向下公式中,计算J(w)的梯度可以归结为计算f(u)的梯度。可以使用链式求导法计算:

\[
\frac{δ}{δw_j}f(u) = f'(u)u'x_{ij}
\]

这里的u可能是hw(xi)或1-hw(xi), u'等于h'w(xi)或-h'w(xi),因此会终涉及到对sigmoid函数的导数:

设\(g(x)=\frac{1}{1+e^{-x}}\)

$
\frac{dy}{dx}(g(x)) = \frac{0(1+e^{-x}) - 1(-e^{-x})}{(1+e^{-x})^2} = \frac{e^{-x}}{(1+e^{-x})^2}
$

$
= \frac{1}{1+e^{-x}}\frac{e^{-x}}{1+e^{-x}} = \frac{1}{1+e^{-x}}\frac{1+e^{-x}-1}{1+e^{-x}} = \frac{1}{1+e^{-x}}(\frac{1+e^{-x}}{1+e^{-x}} - \frac{1}{1+e^{-x}}) = g(x)(1-g(x))
$

把令u=g(x), 那么\(u'=u(1-u)\),代入到梯度公式中得到:

$
\frac{δ}{δw_j}f(u) = f'(u)u(1-u)x_{ij}
$

如果在这个公式的计算过程中可以消掉u或(1-u)的同时不引入其他函数,就可以大大简化梯度的计算。因此可以得到f(u)需要满足的第二个性质:

能够满足: \(f'(u)=\frac{a}{u}\), a是常数。

前文中刚好有一种函数可以满足这种要求: \(\frac{dy}{du}(ln(u))=\frac{1}{u}\),但f(u)=ln(u), 不能满足第一个性质,此时只需加一个'-'号就可以了,即: f(u)=-ln(u)。

找到f(u)后再来重写成本函数:

\[
J(w) = \begin{cases}
\frac{1}{m}\sum^m_{i=1}-ln(h_w(x_i)) &\text{y=1} \\
\frac{1}{m}\sum^m_{i=1}-ln(1- h_w(x_i)) &\text{y=0}
\end{cases}
\]

合并成一个函数:

$
J(w) = \frac{1}{m}\sum^m_{i=1}-yln(h_w(x_i)) - (1-y)ln(h_w(x_i))
$

梯度下降公式

$
w_j := w_j - \alpha\frac{δ}{δw_j}J(w)
$

$
\frac{δ}{δw_j}J(w) = \frac{δ}{δw_j}\frac{1}{m}\sum^m_{i=1}-yln(h_w(x_i)) - (1-y)ln(1- h_w(x_i))
$

$
= \frac{1}{m}\sum^m_{i=1}\frac{-y_jh_w(x_i)(1-h_w(x_i))x_{ij}}{h_w(x_i)}+\frac{-(1-y_j)(1-h_w(x_i))(1-(1-h_w(x_i))(-x_{ij})}{1-h_w(x_i)}
$

$
= \frac{1}{m}\sum^m_{i=1}-y_j(1-h_w(x_i))x_{ij}+(1-y_j)h_w(x_i)x_{ij}
$

$
= \frac{1}{m}\sum^m_{i=1}(-y + yh_w(x_i) + h_w(x_i) - yh_w(x_i))x_{ij}
= \frac{1}{m}\sum^m_{i=1}(h_w(x_i)-y_i)x_{ij}
$

最终得到梯度下降公式如下

$
w_j := w_j - \alpha\frac{δ}{δw_j}J(w) = w_j - \alpha\frac{1}{m}\sum^m_{i=1}(h_w(x_i)-y_i)x_{ij}
$

Logistic回归算法梯度公式的推导的更多相关文章

  1. 机器学习之Logistic 回归算法

    1 Logistic 回归算法的原理 1.1 需要的数学基础 我在看机器学习实战时对其中的代码非常费解,说好的利用偏导数求最值怎么代码中没有体现啊,就一个简单的式子:θ= θ - α Σ [( hθ( ...

  2. 机器学习之logistic回归算法与代码实现原理

    Logistic回归算法原理与代码实现 本文系作者原创,转载请注明出处:https://www.cnblogs.com/further-further-further/p/10033567.html ...

  3. Logistic回归与梯度上升算法

    原创作品出处 原始出处 .作者信息和本声明.否则将追究法律责任.http://sbp810050504.blog.51cto.com/2799422/1608064 Logistic回归与梯度上升算法 ...

  4. Logistic回归,梯度上升算法理论详解和实现

    经过对Logistic回归理论的学习,推导出取对数后的似然函数为 现在我们的目的是求一个向量,使得最大.其中 对这个似然函数求偏导后得到 根据梯度上升算法有 进一步得到 我们可以初始化向量为0,或者随 ...

  5. 机器学习算法-logistic回归算法

    Logistic回归算法调试 一.算法原理 Logistic回归算法是一种优化算法,主要用用于只有两种标签的分类问题.其原理为对一些数据点用一条直线去拟合,对数据集进行划分.从广义上来讲这也是一种多元 ...

  6. logistic回归算法及其matlib实现

    一般来说,回归不用在分类问题上,因为回归是连续型模型,而且受噪声影响比较大.如果非要使用回归算法,可以使用logistic回归. logistic回归本质上是线性回归,只是在特征到结果的映射中多加入了 ...

  7. 机器学习算法( 五、Logistic回归算法)

    一.概述 这会是激动人心的一章,因为我们将首次接触到最优化算法.仔细想想就会发现,其实我们日常生活中遇到过很多最优化问题,比如如何在最短时间内从A点到达B点?如何投入最少工作量却获得最大的效益?如何设 ...

  8. matlib实现logistic回归算法(序一)

    数据下载:http://archive.ics.uci.edu/ml/datasets/Adult 数据描述:http://archive.ics.uci.edu/ml/machine-learnin ...

  9. logistic回归原理和公式

    转自:http://blog.csdn.net/ariessurfer/article/details/41310525 Logistic回归为概率型非线性回归模型,是研究二分类观察结果与一些影响因素 ...

随机推荐

  1. SpringBoot 2.0 开发案例之百倍级减肥瘦身之旅

    前言 为了存我的小黄图,最近在做一款图床服务,集成了各种第三方云存储服务,目前正在内部测试阶段.项目是以Jar的形式运行在腾讯云上,不要问我为什么使用腾讯云了,因为阿里云老用户和狗不得入内. 问题凸显 ...

  2. 键盘常见ascii码值

    回车事件最常见,码值13 ESC键: VK_ESCAPE (27) 回车键: VK_RETURN (13) TAB键: VK_TAB (9) Caps Lock键: VK_CAPITAL (20) S ...

  3. 《JavaScript设计模式与开发实践》-- 迭代器模式

    详情个人博客:https://shengchangwei.github.io/js-shejimoshi-diedaiqi/ 迭代器模式 1.定义 迭代器模式: 是指提供一种方法顺序访问一个聚合对象中 ...

  4. 使用Beautiful Soup

    Beautiful Soup初了解 # 解析工具Beautiful Soup,借助网页的结构和属性等特性来解析网页(简单的说就是python的一个HTML或XML的解析库)# Beautiful So ...

  5. mine:dp

    一个小的线性dp.方法很多,八仙过海各显神通. 我想讲一下我的: #include<cstdio> #define mod 1000000007 ];][][],n;//是不是雷,右边有没 ...

  6. NOIP模拟 28

    果然昨天和别人合照丢的脸今天都加进RP里了 T3是用了dp快速幂(???),T1,T2考试的时候把想法都写注释了. T1: #include<cstdio> using namespace ...

  7. 零基础小白入门IT开发指南

    先自我介绍以下,本人是一枚刚毕业不到两年的某一线城市的程序员,本科阶段专业是计算机科学与技术.从大四开始出去实习到现在的编码经验也有快2年半了,两年半的时间包括实习在内任职过有4家公司,包括一家互联网 ...

  8. 吉利WA数

  9. 必知必会的JavaJDK工具

    JDK中有很多用于监控诊断的系统工具,对于Java程序员来说,无疑是用来了解自己程序运行时性能好坏的强大工具. 在JDK的bin目录下就可以找到这些工具. JPS 在Linux有一个命令叫做ps,可以 ...

  10. 理解Spark运行模式(一)(Yarn Client)

    Spark运行模式有Local,STANDALONE,YARN,MESOS,KUBERNETES这5种,其中最为常见的是YARN运行模式,它又可分为Client模式和Cluster模式.这里以Spar ...