Logistic Regression and Classification

分类(Classification)与回归都属于监督学习，两者的唯一区别在于，前者要预测的输出变量$y$只能取离散值，而后者的输出变量是连续的。这些离散的输出变量在分类问题中通常称之为标签(Label)。

线性回归的策略同样也适用于分类吗？答案是否定的。下面结合例子简要说明理由。假设我们现在的任务是根据肿瘤大小判断是否为良性肿瘤，答案当然只有yes或no。我们用$y=1$表示良性肿瘤，用$y=0$表示恶性肿瘤。当然，如果你想用其他两个不同的值分别对应这两类肿瘤也是可以的。在下图所示的例子中，我们都使用线性回归的方式进行分类。在左图中，如果样本对应的输出值小于$0.5$，我们视其为恶性肿瘤，否则为良性肿瘤，分类效果还不错；在右图中，良性肿瘤的大小范围变广了一些，线性模型要发生偏转，如果仍然用$0.5$作为分类的阈值(Threshold)，误分类的样本所占比例就不少了。另外一方面，该分类问题中$y$只能取0或1两种值，而线性模型预测的值去可以远大于1或远小于0，极大地偏离输出变量的值。因此，我们认为用线性回归解决分类问题是不明智的。

接下来，我们以二分类为基础展开讨论。样本标签$y\in\{0,1\}$，标签为1的样本称为正样本(Positive Samples)，标签为0的样本称为负样本(Negative Samples)。我们希望假设函数$h_\theta(x)\in[0,1]$，选用logistic函数。下图为logistic函数曲线图，定义域为$(-\infty,+\infty)$，在整个定义域上都连续可导，其一阶偏导如下：

\begin{align}g'(z)&=\frac{d}{dz}\frac{1}{1+e^{-z}}\\&=-\frac{1}{(1+e^{-z})^2}\cdot \frac{d(1+e^{-z})}{dz}\\&=\frac{e^{-z}}{(1+e^{-z})^2}\\&=\frac{1}{1+e^{-z}}\cdot\left(1-\frac{1}{1+e^{-z}}\right)\\&=g(z)(1-g(z))\end{align}

我们的假设函数形式如下：

\begin{equation}h_\theta(x)=g(\theta^Tx)=\frac{1}{1+\exp(-\theta^Tx)}\end{equation}

假设分类问题中的后验概率(posterior probability)形式如下：

\begin{equation}P(y=1|x;\theta)=h_\theta(x)\end{equation}

\begin{equation}P(y=0|x;\theta)=1-h_\theta(x)\end{equation}

综合公式(7)和公式(8)，用更紧凑的形式表述：

\begin{equation}P(y|x;\theta)=h_\theta(x)^y(1-h_\theta(x))^{1-y}\end{equation}

假设所有样本相互独立，则似然函数为：\begin{align}L(\theta)&=P(\vec{y}|X;\theta)\\&=\prod_{i=1}^mP(y^{(i)}|x^{(i)};\theta)\\&=\prod_{i=1}^m(h_\theta(x^{(i)})^{y^{(i)}}(1-h_\theta(x^{(i)}))^{1-y^{(i)}}\end{align}

将公式(13)转换为对数似然函数的形式：

\begin{equation}\ell(\theta)=\log L(\theta)=\sum_{i=1}^m y^{(i)}\log h_\theta(x^{(i)})+(1-y^{(i)})\log(1-h_\theta(x^{(i)}))\end{equation}

对数似然函数$\ell(\theta)$对参数$\theta$求导：

\begin{equation}
\begin{array}{ll}
&\quad\frac{\partial\ell(\theta)}{\partial \theta_i}\\
&=\sum_{j=1}^m\left(y^{(j)}\frac{1}{g(\theta^Tx^{(j)})}-(1-y^{(j)})\frac{1}{1-g(\theta^Tx^{(j)})}\right)\\
&\quad\cdot\frac{\partial}{\partial\theta_i}g(\theta^Tx^{(j)})\\
&=\sum_{j=1}^m\left(y^{(j)}\frac{1}{g(\theta^Tx^{(j)})}-(1-y^{(j)})\frac{1}{1-g(\theta^Tx^{(j)})}\right)\\
&\quad\cdot g(\theta^Tx^{(j)})(1-g(\theta^Tx^{(j)}))\frac{\partial}{\partial\theta_i}\theta^Tx^{(j)}\\
&=\sum_{j=1}^m\left(y^{(j)}(1-g(\theta^Tx^{(j)})-(1-y^{(j)})g(\theta^Tx^{(j)})\right)x_i^{(j)}\\ &=\sum_{j=1}^m(y^{(j)}-h_\theta(x^{(j)}))x_i^{(j)}
\end{array}
\end{equation}

最后，我们可以采用梯度上升(Gradient Ascend)的策略迭代更新参数$\theta$，以使对数似然函数收敛到最大值，更新规则如下：

\begin{equation}\theta_i=\theta_i+\alpha\sum_{j=1}^m(y^{(j)}-h_\theta(x^{(j)}))x_i^{(j)}\end{equation}

我在数据集ionosphere上做了实验，实验代码在这里下载。该数据集一共有351个样本，每个样本有35个属性，其中第35个属性为'b'或'g'(表示bad或good)，是一个二分类问题。我将整个数据集抽取7成作为训练集，剩下的作为测试集，最终得到的正确率为$91.509\%$。代码中有两点要说明：1)代码中实际上还考虑了对参数$\theta$正则化处理，避免某些参数过大，我们将LGClassifier.m中的lambda设置为0即可屏蔽正则项，在lambda=0.1时，正确率是会有提升的；2)本文中的目标函数是求使似然函数最大的参数，但是我们利用的LBFGS工具包只针对使目标函数最小的优化，我们只需要在文中的目标函数前面添加负号即可将最大化问题等价转化为最小化问题；最后，在针对参数$\theta$求倒数的时候，也需要在前面添加负号。

Logistic Regression and Classification的更多相关文章

Logistic Regression求解classification问题
classification问题和regression问题类似,区别在于y值是一个离散值,例如binary classification,y值只取0或1. 方法来自Andrew Ng的Machine ...
使用sklearn和caffe进行逻辑回归 | Brewing Logistic Regression then Going Deeper
原文首发于个人博客https://kezunlin.me/post/c50b0018/,欢迎阅读! Brewing Logistic Regression then Going Deeper. Bre ...
More 3D Graphics (rgl) for Classification with Local Logistic Regression and Kernel Density Estimates (from The Elements of Statistical Learning)（转）
This post builds on a previous post, but can be read and understood independently. As part of my cou ...
Some 3D Graphics (rgl) for Classification with Splines and Logistic Regression (from The Elements of Statistical Learning)（转）
This semester I'm teaching from Hastie, Tibshirani, and Friedman's book, The Elements of Statistical ...
李宏毅机器学习笔记3：Classification、Logistic Regression
李宏毅老师的机器学习课程和吴恩达老师的机器学习课程都是都是ML和DL非常好的入门资料,在YouTube.网易云课堂.B站都能观看到相应的课程视频,接下来这一系列的博客我都将记录老师上课的笔记以及自己对 ...
Logistic Regression Using Gradient Descent -- Binary Classification 代码实现
1. 原理 Cost function Theta 2. Python # -*- coding:utf8 -*- import numpy as np import matplotlib.pyplo ...
Classification week2: logistic regression classifier 笔记
华盛顿大学 machine learning: Classification 笔记. linear classifier 线性分类器多项式: Logistic regression & 概率 ...
机器学习理论基础学习3.3--- Linear classification 线性分类之logistic regression（基于经验风险最小化）
一.逻辑回归是什么? 1.逻辑回归逻辑回归假设数据服从伯努利分布,通过极大化似然函数的方法,运用梯度下降来求解参数,来达到将数据二分类的目的. logistic回归也称为逻辑回归,与线性回归这样输出 ...
Classification and logistic regression
logistic 回归 1.问题: 在上面讨论回归问题时.讨论的结果都是连续类型.但假设要求做分类呢?即讨论结果为离散型的值. 2.解答: 假设: 当中: g(z)的图形例如以下: 由此可知:当hθ( ...

随机推荐

linux mkfs命令参数及用法详解---linux格式化文件系统命令(包括swap分区)
mkfs 命令 linux格式化磁盘命令 linux mkfs 指令:mkfs 使用权限 : 超级使用者使用方式 : mkfs [-V] [-t fstype] ...
NopCommerce架构分析之一----依赖类生成容器
NopCommerce为了实现松耦合的框架设计目的,使用了IOC框架:Autofac.据有人测试,Autofac是性能好的IOC工具. 1.在IOC中,组件首先需要在IOC中注册,有通过配置文件注册的 ...
【jQuery日期处理】两个时间大小的比较
function checkEndTime(){ var startTime=$("#startTime").val(); var start=new Date(startTime ...
memcached性能监控
在上文“在Windows .NET平台下使用Memcached”中,我给大家介绍了如何在Windows平台上部署Memecached服务端,如何在.NET平台中应用Memcached,详细介绍了两种流 ...
android——创建camera应用(译)
只是选择相机部分来翻译.下面是主要内容有些开发者可能需要Camera的接口,来定制自己程序的外观和特殊功能.创建自定义的Camera界面比使用using an Intent需要编写更多的代码,但是 ...
导出Excel帮助类
using System; using System.Collections.Generic; using System.Text; using System.Data; using System.D ...
转载crontab例行工作调度
转自:http://blog.sina.com.cn/s/blog_95ee143401017y70.html crontab [-e [UserName]|-l [UserName]|-r [Use ...
HGE初始化状态设置
HGE_FRAMEFUNC: 最重要的设置,每个HGE应用必须设置.游戏的主循环就是他了.类型为bool*(),返回真那么主循环退出,游戏也就结束了.否则进行必要的处理后返回假.必须在调用进入 ...
在App里面添加App Store中App链接的解决方法
详见stackoverflow.com/questions/433907/how-to-link-to-apps-on-the-app-store http://developer.apple.com ...
使用 EasyBCD 安装Ubuntu 14.04 Error 15: file not found错误的解决方法
今天安装Window7 和 Ubuntu 14.04 双系统时,出现如下异常,记录一下. 安装过程是参考 http://www.linuxidc.com/Linux/2014-04/100369.ht ...

Logistic Regression and Classification

Logistic Regression and Classification的更多相关文章

随机推荐

热门专题