最近学习Logistic回归算法,在网上看了许多博文,笔者觉得这篇文章http://blog.kamidox.com/logistic-regression.html写得最好。但其中有个关键问题没有讲清楚:为什么选择-log(h(x))作为成本函数(也叫损失函数)。

和线性回归算法相比,逻辑回归的预测函数是非线性的,不能使用均方差函数作为成本函数。因此如何选择逻辑回归算法的成本函数,就要多费一些事。

在正式讨论这个问题之前,先来复习一些基础知识。

一些常见函数的导数

$$
\frac{dy}{dx}(x^n) = nx^{n-1}
$$

$$
\frac{dy}{dx}log_b(x) = \frac{1}{xln(b)} \text{ 如果b=e } \frac{dy}{dx}log_e(x) = \frac{1}{x}
$$

$$
\frac{dy}{dx}(b^x)= b^xln(b) \text{ 如果b=e } \frac{dy}{dx}(e^x) = e^x
$$

求导法则

常数倍

如果f(x)=Cg(x),C是常数,那么

\[
\frac{dy}{dx}(f(x))=C\frac{dy}{dx}(g(x))
\]

函数和与函数差

如果f(x) = g1(x) + g2(x) - g3(x),那么

\[
\frac {dy}{dx}(f(x)) = \frac {dy}{dx}(g1(x)) + \frac {dy}{dx}(g2(x)) - \frac {dy}{dx}(g3(x))
\]

乘积法求导

如果h(x) = f(x)g(x),那么:

\[
h^{'}(x) = f^{'}(x)g(x) + g^{'}(x)f(x)
\]

设h(x) = y, f(x) = u, g(x)=v, 那么:

\[
\frac {dy}{dx} = v\frac {du}{dx} + u\frac {dv}{dx}
\]

商法则求导

如果h(x) = f(x)/g(x), 那么:

\[
h^{'}(x) = \frac {f^{'}(x)g(x) - g^{'}(x)f(x)}{{(g(x))}^2}
\]

y=u/v,那么:

\[
\frac{dy}{dx} = \frac{\frac{du}{dx}v - \frac{dv}{dx}u}{v^2}
\]

链式求导

如果h(x) = f(g(x)), 那么:

\[
h^{'}(x) = f^{'}(g(x))g^{'}(x)
\]

如果y是u的函数,并且u是x的函数,那么:

\[
\frac{dy}{dx} = \frac{dy}{du}\frac{du}{dx}
\]

逻辑回归算法涉及到的几个基本函数

关于数据的特征向量x和回归系数向量w的线性函数

\[
L_w(x) = w^Tx
\]

sigmoid函数

\[
g(z) = \frac{1}{1 + e^{-z}}
\]

分类预测函数

\[
h_w(x) = \frac{1}{1 + e^{-w^Tx}}
\]

逻辑回归算法是一个二分类算法,可以用1, 0表示这两种分类。算法的最终目标是找到一个合适的回归系数w, 对数据集中的任意一条数据xi满足:

\[
\begin{cases}
h_w(x_i) >= 0.5 &\text{真实分类y=1} \\
h_w(x_i) <0.5 &\text{真实分类y=0}
\end{cases}
\]

分类判断函数hw(xi)的取值区间是(0,1),可以把它看成数据xi在系数为w时属于分类1概率。由于只有两个分类,同样可以把1-hw(x)看成是x在系数为w是属于分类0的概率

选择成本函数

现在开始选择成本函数,目前还没有选择成本函数的头绪,但是我看可以先假设有一个成本函数,看看它应该满足什么条件,设成本函数为:

\[
J(w) = \begin{cases}
\frac{1}{m}\sum^m_{i=1}f(h_w(x_i)) &\text{y=1} \\
\frac{1}{m}\sum^m_{i=1}f(1- h_w(x_i)) &\text{y=0}
\end{cases}
\]

这个这个成本函数和线性回归的成本函数长得差不多,不同的是这里有一个未知函数f(u), 在线性回归中\(f(u)=(h_w(x_i) - y)^2\),这里不还不知道f(x)是什么。但根据hw(xi)的特点,反推,可以得到f(u)应该具有的第一个性质:

当u趋近于1(100%概率)时, f(u)趋近于最小值。

在梯度向下公式中,计算J(w)的梯度可以归结为计算f(u)的梯度。可以使用链式求导法计算:

\[
\frac{δ}{δw_j}f(u) = f'(u)u'x_{ij}
\]

这里的u可能是hw(xi)或1-hw(xi), u'等于h'w(xi)或-h'w(xi),因此会终涉及到对sigmoid函数的导数:

设\(g(x)=\frac{1}{1+e^{-x}}\)

$
\frac{dy}{dx}(g(x)) = \frac{0(1+e^{-x}) - 1(-e^{-x})}{(1+e^{-x})^2} = \frac{e^{-x}}{(1+e^{-x})^2}
$

$
= \frac{1}{1+e^{-x}}\frac{e^{-x}}{1+e^{-x}} = \frac{1}{1+e^{-x}}\frac{1+e^{-x}-1}{1+e^{-x}} = \frac{1}{1+e^{-x}}(\frac{1+e^{-x}}{1+e^{-x}} - \frac{1}{1+e^{-x}}) = g(x)(1-g(x))
$

把令u=g(x), 那么\(u'=u(1-u)\),代入到梯度公式中得到:

$
\frac{δ}{δw_j}f(u) = f'(u)u(1-u)x_{ij}
$

如果在这个公式的计算过程中可以消掉u或(1-u)的同时不引入其他函数,就可以大大简化梯度的计算。因此可以得到f(u)需要满足的第二个性质:

能够满足: \(f'(u)=\frac{a}{u}\), a是常数。

前文中刚好有一种函数可以满足这种要求: \(\frac{dy}{du}(ln(u))=\frac{1}{u}\),但f(u)=ln(u), 不能满足第一个性质,此时只需加一个'-'号就可以了,即: f(u)=-ln(u)。

找到f(u)后再来重写成本函数:

\[
J(w) = \begin{cases}
\frac{1}{m}\sum^m_{i=1}-ln(h_w(x_i)) &\text{y=1} \\
\frac{1}{m}\sum^m_{i=1}-ln(1- h_w(x_i)) &\text{y=0}
\end{cases}
\]

合并成一个函数:

$
J(w) = \frac{1}{m}\sum^m_{i=1}-yln(h_w(x_i)) - (1-y)ln(h_w(x_i))
$

梯度下降公式

$
w_j := w_j - \alpha\frac{δ}{δw_j}J(w)
$

$
\frac{δ}{δw_j}J(w) = \frac{δ}{δw_j}\frac{1}{m}\sum^m_{i=1}-yln(h_w(x_i)) - (1-y)ln(1- h_w(x_i))
$

$
= \frac{1}{m}\sum^m_{i=1}\frac{-y_jh_w(x_i)(1-h_w(x_i))x_{ij}}{h_w(x_i)}+\frac{-(1-y_j)(1-h_w(x_i))(1-(1-h_w(x_i))(-x_{ij})}{1-h_w(x_i)}
$

$
= \frac{1}{m}\sum^m_{i=1}-y_j(1-h_w(x_i))x_{ij}+(1-y_j)h_w(x_i)x_{ij}
$

$
= \frac{1}{m}\sum^m_{i=1}(-y + yh_w(x_i) + h_w(x_i) - yh_w(x_i))x_{ij}
= \frac{1}{m}\sum^m_{i=1}(h_w(x_i)-y_i)x_{ij}
$

最终得到梯度下降公式如下

$
w_j := w_j - \alpha\frac{δ}{δw_j}J(w) = w_j - \alpha\frac{1}{m}\sum^m_{i=1}(h_w(x_i)-y_i)x_{ij}
$

Logistic回归算法梯度公式的推导的更多相关文章

  1. 机器学习之Logistic 回归算法

    1 Logistic 回归算法的原理 1.1 需要的数学基础 我在看机器学习实战时对其中的代码非常费解,说好的利用偏导数求最值怎么代码中没有体现啊,就一个简单的式子:θ= θ - α Σ [( hθ( ...

  2. 机器学习之logistic回归算法与代码实现原理

    Logistic回归算法原理与代码实现 本文系作者原创,转载请注明出处:https://www.cnblogs.com/further-further-further/p/10033567.html ...

  3. Logistic回归与梯度上升算法

    原创作品出处 原始出处 .作者信息和本声明.否则将追究法律责任.http://sbp810050504.blog.51cto.com/2799422/1608064 Logistic回归与梯度上升算法 ...

  4. Logistic回归,梯度上升算法理论详解和实现

    经过对Logistic回归理论的学习,推导出取对数后的似然函数为 现在我们的目的是求一个向量,使得最大.其中 对这个似然函数求偏导后得到 根据梯度上升算法有 进一步得到 我们可以初始化向量为0,或者随 ...

  5. 机器学习算法-logistic回归算法

    Logistic回归算法调试 一.算法原理 Logistic回归算法是一种优化算法,主要用用于只有两种标签的分类问题.其原理为对一些数据点用一条直线去拟合,对数据集进行划分.从广义上来讲这也是一种多元 ...

  6. logistic回归算法及其matlib实现

    一般来说,回归不用在分类问题上,因为回归是连续型模型,而且受噪声影响比较大.如果非要使用回归算法,可以使用logistic回归. logistic回归本质上是线性回归,只是在特征到结果的映射中多加入了 ...

  7. 机器学习算法( 五、Logistic回归算法)

    一.概述 这会是激动人心的一章,因为我们将首次接触到最优化算法.仔细想想就会发现,其实我们日常生活中遇到过很多最优化问题,比如如何在最短时间内从A点到达B点?如何投入最少工作量却获得最大的效益?如何设 ...

  8. matlib实现logistic回归算法(序一)

    数据下载:http://archive.ics.uci.edu/ml/datasets/Adult 数据描述:http://archive.ics.uci.edu/ml/machine-learnin ...

  9. logistic回归原理和公式

    转自:http://blog.csdn.net/ariessurfer/article/details/41310525 Logistic回归为概率型非线性回归模型,是研究二分类观察结果与一些影响因素 ...

随机推荐

  1. MarkDown时序图

    时序图 语法 ```sequence ``` 标题 title: 我是标题 对象 participant A participant B as b-alias 交互 sequence A->B: ...

  2. SpringBoot配置文件之Yml语法

    一 使用 YAML 而不是 Properties YAML是 JSON 的超集,因此,它是用于指定分层配置数据的便捷格式.只要 class 路径上有SnakeYAML library,SpringAp ...

  3. 哪种方式更适合在React中获取数据?

    作者:Dmitri Pavlutin 译者:小维FE 原文:dmitripavlutin.com 国外文章,笔者采用意译的方式,以保证文章的可读性. 当执行像数据获取这样的I/O操作时,你必须发起获取 ...

  4. SpringBoot之集成MyBatis

    引入工程依赖包 <dependency> <groupId>org.springframework.boot</groupId> <artifactId> ...

  5. [考试反思]1102csp-s模拟测试98:苟活

    好像没有什么粘文件得分的必要(本来就没多少分了也丢不了多少了) 而且从这次开始小绿框不代表首杀而代表手速了2333 其实我挺菜的,牛一个frepoen送掉100分才跟我并列%%%milkfun mik ...

  6. Linux上的文件管理类命令都有哪些,其常用的使用方法及其相关示例演示

    目录管理命令ls:列出指定目录下的内容格式: ls [OPTION]... [FILE]...   -a:显示所有文件包括隐藏文件   -A:显示除.和..之外的所有文件   -l,--long:显示 ...

  7. python学习之【第十二篇】:Python中的迭代器

    1.为何要有迭代器? 对于序列类型:字符串.列表.元组,我们可以使用索引的方式迭代取出其包含的元素.但对于字典.集合.文件等类型是没有索引的,若还想取出其内部包含的元素,则必须找出一种不依赖于索引的迭 ...

  8. 洛谷 P 5 3 0 4 [GXOI/GZOI2019]旅行者

    题目描述 J 国有 n 座城市,这些城市之间通过 m 条单向道路相连,已知每条道路的长度. 一次,居住在 J 国的 Rainbow 邀请 Vani 来作客.不过,作为一名资深的旅行者,Vani 只对 ...

  9. 1005 csp-s 60 凉凉

    T1 嘟嘟噜 上来一看数据范围1e9就蒙蔽,然后不知所措的打了一个 $ O(n)$的无脑算法,由于本人真的脑小,导致O(n)的柿子推了好长时间,导致心态崩了,然后........ 今天能明白了log的 ...

  10. 编程工具 | VScode 使用快捷键

    按 Press 功能 Function Ctrl + Shift + P,F1 显示命令面板 Show Command Palette Ctrl + P 快速打开 Quick Open Ctrl + ...