【cs229-Lecture3】Logistic回归

参考：

http://www.itongji.cn/article/12112cH013.html

http://blog.csdn.net/zouxy09/article/details/20319673

https://class.coursera.org/ml-006/lecture/58（一定要看！）

简要认识一下Logistic函数(sigmoid曲线)：（from wiki）

Logistic函数或Logistic曲线是一种常见的S形函数，它是皮埃尔·弗朗索瓦·韦吕勒在1844或1845年在研究它与人口增长的关系时命名的。广义Logistic曲线可以模仿一些情况人口增长（P）的S形曲线。起初阶段大致是指数增长；然后随着开始变得饱和，增加变慢；最后，达到成熟时增加停止。

一个简单的Logistic函数可用下式表示：

标准LogisticS形函数

百度上比较好的Logistic模型的解释：

　logistic回归又称logistic回归分析，主要在流行病学中应用较多，比较常用的情形是探索某疾病的危险因素，根据危险因素预测某疾病发生的概率，等等。例如，想探讨胃癌发生的危险因素，可以选择两组人群，一组是胃癌组，一组是非胃癌组，两组人群肯定有不同的体征和生活方式等。这里的因变量就是是否胃癌，即“是”或“否”，为两分类变量，自变量就可以包括很多了，例如年龄、性别、饮食习惯、幽门螺杆菌感染等。自变量既可以是连续的，也可以是分类的。通过logistic回归分析，就可以大致了解到底哪些因素是胃癌的危险因素。
　　logistic回归与多重线性回归实际上有很多相同之处，最大的区别就在于他们的因变量不同，其他的基本都差不多，正是因为如此，这两种回归可以归于同一个家族，即广义线性模型（generalized linear model）。这一家族中的模型形式基本上都差不多，不同的就是因变量不同，如果是连续的，就是多重线性回归，如果是二项分布，就是logistic回归，如果是poisson分布，就是poisson回归，如果是负二项分布，就是负二项回归，等等。只要注意区分它们的因变量就可以了。

logistic回归的因变量可以是二分类的，也可以是多分类的，但是二分类的更为常用，也更加容易解释。所以实际中最为常用的就是二分类的logistic回归。

logistic回归的主要用途：一是寻找危险因素，正如上面所说的寻找某一疾病的危险因素等。二是预测，如果已经建立了logistic回归模型，则可以根据模型，预测在不同的自变量情况下，发生某病或某种情况的概率有多大。三是判别，实际上跟预测有些类似，也是根据logistic模型，判断某人属于某病或属于某种情况的概率有多大，也就是看一下这个人有多大的可能性是属于某病。

　　这是logistic回归最常用的三个用途，实际中的logistic回归用途是极为广泛的，logistic回归几乎已经成了流行病学和医学中最常用的分析方法，因为它与多重线性回归相比有很多的优势。

推导过程如下：

最后，附上一个实际问题：（from http://www.medsci.cn/shownews.asp?id=2315）

问:Logistic回归模型为什么要先做单因素,然后做多因素？

问: Logistic回归模型为什么要先做单因素,然后做多因素
有的文献上是直接做卡方检验有意义的再进入回归模型，但是有的是Logistic 单因素分析，然后在进行多因素分析，不知道这个操作过程在SPSS中如何实现？还有这两种方法的区别是什么?

答:logistic回归在分析时是否必须按照“单因素—多因素”的分析过程，是否必须先进行单因素分析，然后才能进行多因素分析？单因素分析是否必须的？
这一问题是一个很实际的，许多人在分析时总是不知道如何下手？以下阐述一下我个人的意见，不一定正确，纯属个人心得。
理论上讲，在样本足够大的情况下，最好把所有的因素都放到方程中，以矫正所有可能的混杂因素，但这是有条件的，即必须所有的这些因素之间无相关，且样本足够大。而实际中，因素之间不可能是毫无相关的。当然，这种相关程度也不一样。如果所有的因素之间相关程度都非常低，最好是没有相关，那这时我可以把所有的变量都放在方程中同时进行分析，可以不做单因素分析。
如果你的例数不够多，比如，你有100例，但是有20个因素，那这时你如果把所有因素放在方程中，结果肯定要出问题。这种情况下，最好先进行单因素分析，筛选出一部分变量，将有意义的变量放入方程进行多因素分析。当然，单因素分析时最好将p值放宽一些，比如0.1或0.15等。避免漏掉一些重要因素。
真正进行多因素分析时，是很复杂的，需要仔细验证各个因素之间的关系，一旦发现因素之间有关系，需要仔细分析。如果某一因素放入方程中后，前面的几个变量变化比较大，那就需要小心了。仔细探讨因素之间存在何种关系。
总之，如果样本不多而变量较多，可以先进行单因素分析，筛掉一些可能无意义的变量，然后进行多因素分析，这样可以保证结果更加可靠些。即使样本足够大，也不建议直接把所有的变量放入方程直接分析，一定要先弄清楚各个变量之间的相互关系，弄清楚自变量进入方程的形式，这样才能有效的进行分析。
不论任何情况，分析时必须具体问题具体分析，不能一概而论，更不能套用。即使目的相同、变量相同的数据，也不一定分析结果会一样，因为总会有抽样误差存在的，设计的好坏是不一样的。所以千万不要看一篇类似的文章，然后照搬上面的分析步骤和分析方法，这是不可取的。

算法实现：

数据：

 -0.017612    14.053064    0

 -1.395634    4.662541    1

 -0.752157    6.538620    0

 -1.322371    7.152853    0

 0.423363    11.054677    0

 0.406704    7.067335    1

 0.667394    12.741452    0

 -2.460150    6.866805    1

 0.569411    9.548755    0

 -0.026632    10.427743    0

 0.850433    6.920334    1

 1.347183    13.175500    0

 1.176813    3.167020    1

 -1.781871    9.097953    0

 -0.566606    5.749003    1

 0.931635    1.589505    1

 -0.024205    6.151823    1

 -0.036453    2.690988    1

 -0.196949    0.444165    1

 1.014459    5.754399    1

 1.985298    3.230619    1

 -1.693453    -0.557540    1

 -0.576525    11.778922    0

 -0.346811    -1.678730    1

 -2.124484    2.672471    1

 1.217916    9.597015    0

 -0.733928    9.098687    0

 -3.642001    -1.618087    1

 0.315985    3.523953    1

 1.416614    9.619232    0

 -0.386323    3.989286    1

 0.556921    8.294984    1

 1.224863    11.587360    0

 -1.347803    -2.406051    1

 1.196604    4.951851    1

 0.275221    9.543647    0

 0.470575    9.332488    0

 -1.889567    9.542662    0

 -1.527893    12.150579    0

 -1.185247    11.309318    0

 -0.445678    3.297303    1

 1.042222    6.105155    1

 -0.618787    10.320986    0

 1.152083    0.548467    1

 0.828534    2.676045    1

 -1.237728    10.549033    0

 -0.683565    -2.166125    1

 0.229456    5.921938    1

 -0.959885    11.555336    0

 0.492911    10.993324    0

 0.184992    8.721488    0

 -0.355715    10.325976    0

 -0.397822    8.058397    0

 0.824839    13.730343    0

 1.507278    5.027866    1

 0.099671    6.835839    1

 -0.344008    10.717485    0

 1.785928    7.718645    1

 -0.918801    11.560217    0

 -0.364009    4.747300    1

 -0.841722    4.119083    1

 0.490426    1.960539    1

 -0.007194    9.075792    0

 0.356107    12.447863    0

 0.342578    12.281162    0

 -0.810823    -1.466018    1

 2.530777    6.476801    1

 1.296683    11.607559    0

 0.475487    12.040035    0

 -0.783277    11.009725    0

 0.074798    11.023650    0

 -1.337472    0.468339    1

 -0.102781    13.763651    0

 -0.147324    2.874846    1

 0.518389    9.887035    0

 1.015399    7.571882    0

 -1.658086    -0.027255    1

 1.319944    2.171228    1

 2.056216    5.019981    1

 -0.851633    4.375691    1

 -1.510047    6.061992    0

 -1.076637    -3.181888    1

 1.821096    10.283990    0

 3.010150    8.401766    1

 -1.099458    1.688274    1

 -0.834872    -1.733869    1

 -0.846637    3.849075    1

 1.400102    12.628781    0

 1.752842    5.468166    1

 0.078557    0.059736    1

 0.089392    -0.715300    1

 1.825662    12.693808    0

 0.197445    9.744638    0

 0.126117    0.922311    1

 -0.679797    1.220530    1

 0.677983    2.556666    1

 0.761349    10.693862    0

 -2.168791    0.143632    1

 1.388610    9.341997    0

 0.317029    14.739025    0

用R语言可视化：

 data <- read.table("D:\\MachineLearning\\Sample\\LogisticRegression\\data.txt",header=T)

 attach(data)

 plot(xpos,ypos,col=ifelse(factor(type)==,"blue", "red"))

如图：

接下来，我们的目的就是找到一条直线，能够尽可能准确地把这两类点分隔开。

【cs229-Lecture3】Logistic回归的更多相关文章

机器学习 —— 基础整理（五）线性回归；二项Logistic回归；Softmax回归及其梯度推导；广义线性模型
本文简单整理了以下内容: (一)线性回归 (二)二分类:二项Logistic回归 (三)多分类:Softmax回归 (四)广义线性模型闲话:二项Logistic回归是我去年入门机器学习时学的第一个模 ...
logistic回归和最大熵
回顾发现,李航的<统计学习方法>有些章节还没看完,为了记录,特意再水一文. 0 - logistic分布如<统计学习方法>书上,设X是连续随机变量,X服从logistic分布 ...
Logistic回归与梯度上升算法
原创作品出处原始出处 .作者信息和本声明.否则将追究法律责任.http://sbp810050504.blog.51cto.com/2799422/1608064 Logistic回归与梯度上升算法 ...
机器学习笔记—Logistic 回归
前面我们介绍了线性回归,为捕获训练集中隐藏的线性模型,提高预测准确率,我们寻找最佳参数 θ,使得预测值与真实值误差尽量小,也就是使均方误差最小.而经过验证,最小均方误差是符合最大似然估计理论的. 在 ...
神经网络、logistic回归等分类算法简单实现
最近在github上看到一个很有趣的项目,通过文本训练可以让计算机写出特定风格的文章,有人就专门写了一个小项目生成汪峰风格的歌词.看完后有一些自己的小想法,也想做一个玩儿一玩儿.用到的原理是深度学习里 ...
机器学习——Logistic回归
1.基于Logistic回归和Sigmoid函数的分类 2.基于最优化方法的最佳回归系数确定 2.1 梯度上升法参考:机器学习--梯度下降算法 2.2 训练算法:使用梯度上升找到最佳参数 Logis ...
logistic回归
logistic回归回归就是对已知公式的未知参数进行估计.比如已知公式是$y = a*x + b$,未知参数是a和b,利用多真实的(x,y)训练数据对a和b的取值去自动估计.估计的方法是在给定训练样 ...
Logistic回归 python实现
Logistic回归算法优缺点: 1.计算代价不高,易于理解和实现2.容易欠拟合,分类精度可能不高3.适用数据类型:数值型和标称型算法思想: 其实就我的理解来说,logistic回归实际上就是加了 ...
Logistic回归的使用
Logistic回归的使用和缺失值的处理从疝气病预测病马的死亡率数据集: UCI上的数据,368个样本,28个特征测试方法: 交叉测试实现细节: 1.数据中因为存在缺失值所以要进行预处理,这点 ...
如何在R语言中使用Logistic回归模型
在日常学习或工作中经常会使用线性回归模型对某一事物进行预测,例如预测房价.身高.GDP.学生成绩等,发现这些被预测的变量都属于连续型变量.然而有些情况下,被预测变量可能是二元变量,即成功或失败.流失或 ...

随机推荐

fence-agents kvm 实验
1, Method of installing fence-agents on linux: $ git clone https://github.com/ClusterLabs/fence-agen ...
Windows7双系统卸载Ubuntu
正确的删除ubuntu方法如下: 第1步,修复MBR 1.进入win7,下载个软件MbrFix.exe,放在C:\windows\system32文件夹中 2.点击开始>所有程序>附件&g ...
【转】MongoDB学习笔记(查询)
原文地址 MongoDB学习笔记(查询) 基本查询: 构造查询数据. > db.test.findOne() { "_id" : ObjectId("4fd58ec ...
PHP多文件上传操作
在前一篇文章里讲到了关于PHP文件上传原理和简单操作举例是单文件上传. http://www.cnblogs.com/lichenwei/p/3879566.html 其实多文件上传和单文件上传大同小 ...
如何设置Jquery UI Menu 菜单为横向展示
Jquery UI Menu 默认是纵向展示的.Jquey UI Menu 设置API,http://api.jqueryui.com/menu/#option-position 修改对应的CSS可 ...
mysql日期问题
1.在java中,在当前时间的基础上增加30天.Date d = new Date(); SimpleDateFormat df = new SimpleDateFormat("yyyy ...
ITIL之“变更管理”
首先要说明的是ITIL的变更是指“上线系统的变更”,而不是指系统建设的变更. ITIL的变更的流程如下: 整个变更管理在实际操作中有几个注意点: 1. 现存的企业中,变更咨询委员会(CAB)可能只有信 ...
Yslow-23条军规
YslowYahoo发布的一款基于FireFox的插件,主要是为了提高网页性能而设计的,下面是它提倡了23条规则,还是很不错的,分享一下: 1.减少HTTP请求次数合并图片.CSS.JS,改进首次访 ...
linux环境中通过useradd命令,创建用户的时候指定用户的base-dir
需求说明: 今天一个同事,问了一个这样的问题,在linux环境中,创建用户的时候,默认的是在/home目录下创建一个与用户名相同的家目录, 如何能够将这个/home更换成一个其他的,比如/opt/ap ...
linux环境中,如何查看某个软件包,都依赖哪些软件包?被哪些软件包依赖?
需求描述: 今天查看主机上的一个软件ghostscript,准备删除,就先看下这个软件都依赖哪些软件, 然后呢被哪些软件依赖操作过程: 1.查看这个软件依赖哪些软件(rpm方式查询) [root@t ...

【cs229-Lecture3】Logistic回归

问:Logistic回归模型为什么要先做单因素,然后做多因素？

【cs229-Lecture3】Logistic回归的更多相关文章

随机推荐

热门专题