Logistic 回归模型的参数估计为什么不能采用最小二乘法？

　　logistic回归模型的参数估计问题，是可以用最小二乘方法的思想进行求解的，但和经典的（或者说用在经典线性回归的参数估计问题）最小二乘法不同，是用的是“迭代重加权最小二乘法”（IRLS, Iteratively Reweighted Least Squares）。本质上不能使用经典的最小二乘法的原因在于，logistic回归模型的参数估计问题不能“方便地”定义“误差”或者“残差”。

下面是对经典线性回归问题和logistic回归问题的一些讨论。

（1）最小二乘/最小二乘法、最小二乘估计和极大似然估计的区别

　　最小二乘/最小二乘法可以看成是一种朴素的思想，即如果某种差异可以量化为实数，那么我们就可以（自然地）把这些差异的平方相加，将这个和作为一种目标函数。我记得我们高代有节课专门讲过“二乘”的矩阵形式，以及相关的“最小”这一优化目标的矩阵运算等等。

　　最二乘估计是指用最小二乘法对统计模型中的参数进行估计的估计方法。除了最小二乘估计，还有常用的极大似然估计、矩估计等参数估计的方法。

　　对经典线性回归模型的参数估计来说，最小二乘估计和极大似然估计的结果是等价的，换句话说，对于其他模型，这种等价性就可能不成立。

　　对于logistic回归模型来说，极大似然估计是没有解析解（closed form solution）的。最小二乘估计和极大似然估计的不同在于优化的目标函数不同。最小二乘估计因为是用的最小二乘法，目标函数就是前面提到的那种“自然地”对“误差”或者“残差”的处理方式（这里“误差”和“残差”之所以加引号，是因为我们为了理解方便赋予了操作对象“某种差异”实际的意义）；

　　极大似然估计的目标函数是似然函数。可见，前者的目标函数依赖于我们对“误差”的选取，而后者依赖于数据的具体概率分布。最小二乘估计有很多良好的性质，这些性质是不依赖于具体概率分布的，仅需要满足Gauss-Markov假设即可。

（2）经典线性回归模型和logistic回归模型的区别

经典线性回归模型常用的形式是

$y=\textbf{X}\beta+\epsilon$ （*），

其中 $\epsilon$ 服从0均值 $\sigma^2$ 的正态分布（或者更一般的，服从Gauss-Markov假设：0均值、等方差、不相关，即不一定是正态的）；

logistic回归模型常用的形式是

$\rm{Pr}(Y=y)=\pi^y(1-\pi)^{1-y}$ , $\rm {logit}(\pi)=\textbf{X}\beta$ （**）

如果只看这两种表示方式，可能会觉得这两个模型差别很大，比如说，logistic模型（**）怎么没有误差项呢？ $y$ 在（*）里面是服从有2个参数的正态分布 $N(\mu,\sigma^2)$ ，在（**）里面是服从1个参数的伯努利分布 $Bernoulli (p)$ ，为什么 $\textbf{X}\beta$ 在（**）中模拟了全部的未知参数，而在（*）中只模拟了一个参数 $\mu$ 。

实际上，logistic模型可以看成是 $\textbf{X}\beta$ 加上一个logistic 误差项，即

$y=1,\textbf{X}\beta+\epsilon>0$ $y=0, \textbf{X}\beta+\epsilon \leq0$

其中 $\epsilon$ 服从标准的logistic分布。这样，logistic模型就有一个潜变量的表达形式：

$z=\textbf{X}\beta+\epsilon$ , $y=f(z)$

这里的潜变量连接函数 $f()$ 具体说就是大于零取1，其他情况取0。这样来说，（*）和（**）都可以写成有误差项的表示。

另一方面，从条件期望的表示来看，

模型（*）可以写成： $\mathbb{E} (Y=y | \textbf{X})=\mu$ , $\textbf{X}\beta=g(\mu)=\mu$

模型（**）可以写成： $\mathbb{E} (Y=y | \textbf{X})=\pi$ , $\textbf{X}\beta=h(\pi)=\rm{logit}(\pi)=\log(\frac{\pi}{1-\pi})$

可见两个模型分别靠一个函数 $g,h$ 将 $\textbf{X}\beta$ 和参数相连接，只是 $g$ 具体来说是identity函数， $h$

是logit函数。这类模型都可以统一到广义线性回归模型GLM里面。

最后再点一下题，经典的最小二乘法可以处理比较方便写出“残差”的模型的参数估计，比如（*）中的“残差”是连续的实数，因为 $\textbf{X}\beta$ 是模拟的“均值”；而在（**）中的“残差”是离散的0和1，因为 $\textbf{X}\beta$ 模拟的是产生这些0和1的“概率”。但是如果换成极大似然估计，这些差异都可以统一起来，用极大化似然函数的方法进行求解。

转自：链接：https://www.zhihu.com/question/23817253/answer/85998617

Logistic 回归模型的参数估计为什么不能采用最小二乘法？的更多相关文章

如何在R语言中使用Logistic回归模型
在日常学习或工作中经常会使用线性回归模型对某一事物进行预测,例如预测房价.身高.GDP.学生成绩等,发现这些被预测的变量都属于连续型变量.然而有些情况下,被预测变量可能是二元变量,即成功或失败.流失或 ...
SPSS数据分析—二分类Logistic回归模型
对于分类变量,我们知道通常使用卡方检验,但卡方检验仅能分析因素的作用,无法继续分析其作用大小和方向,并且当因素水平过多时,单元格被划分的越来越细,频数有可能为0,导致结果不准确,最重要的是卡方检验不能 ...
logistic回归模型
一.模型简介线性回归默认因变量为连续变量,而实际分析中,有时候会遇到因变量为分类变量的情况,例如阴性阳性.性别.血型等.此时如果还使用前面介绍的线性回归模型进行拟合的话,会出现问题,以二分类变量为例 ...
二分类Logistic回归模型
Logistic回归属于概率型的非线性回归,分为二分类和多分类的回归模型.这里只讲二分类. 对于二分类的Logistic回归,因变量y只有“是.否”两个取值,记为1和0.这种值为0/1的二值品质型变量 ...
SPSS数据分析—配对Logistic回归模型
Lofistic回归模型也可以用于配对资料,但是其分析方法和操作方法均与之前介绍的不同,具体表现在以下几个方面1.每个配对组共有同一个回归参数,也就是说协变量在不同配对组中的作用相同2.常数项随着配 ...
Softmax回归——logistic回归模型在多分类问题上的推广
Softmax回归 Contents [hide] 1 简介 2 代价函数 3 Softmax回归模型参数化的特点 4 权重衰减 5 Softmax回归与Logistic 回归的关系 6 Softma ...
SPSS分析技术：无序多元Logistic回归模型；美国总统大选的预测历史及预测模型
SPSS分析技术:无序多元Logistic回归模型:美国总统大选的预测历史及预测模型在介绍有序多元Logistic回归分析的理论基础时,介绍过该模型公式有一个非常重要的假设,就是自变量对因变量多个类 ...
SPSS数据分析—多分类Logistic回归模型
前面我们说过二分类Logistic回归模型,但分类变量并不只是二分类一种,还有多分类,本次我们介绍当因变量为多分类时的Logistic回归模型. 多分类Logistic回归模型又分为有序多分类Logi ...
机器学习笔记（四）Logistic回归模型实现
一.Logistic回归实现 (一)特征值较少的情况 1. 实验数据吴恩达<机器学习>第二课时作业提供数据1.判断一个学生能否被一个大学录取,给出的数据集为学生两门课的成绩和是否被录取 ...

随机推荐

centos网络配置、虚拟机克隆
查看网卡命令: ifconfig 查看网络配置 ifconfig -a 查看隐藏网卡 window下使用ipconfig 网络配置设置静态IP,修改/etc/sysconfig/network-sc ...
Symfony Bundle开发视频教程分享
之前分享了自己录制的<Symfony 5全面开发>视频教程,收到的反馈不错,说学到了东西,讲的很深入等等. 上一次分享的链接:自己录制的Symfony5视频教程,免费分享给大家学习. 小晒 ...
idea教程--Maven 骨架介绍
简单的说,Archetype是Maven工程的模板工具包.一个Archetype定义了要做的相同类型事情的初始样式或模型.这个名称给我们提供来了一个一致的生成Maven工程的方式.Archetype会 ...
2019CCPC Final K. Russian Dolls on the Christmas Tree
题目大意一棵 $n(1\leq n\leq 2\times 10^5)$ 个节点以 $1$ 为根的树,分别求以 $1\sim n$ 为根的子树中有多少个节点编号连续的段. \(T(1\l ...
docker学习笔记（6）——docker场景问题汇总（centos7 由于内核版本低带来的一系列问题，docker彻底卸载，安装、启动日志报错分析）
参考资料: https://nachuan.blog.csdn.net/article/details/96041277 https://www.cnblogs.com/xzkzzz/p/962765 ...
Django后台管理的使用
Django后台管理的使用参考文章:https://www.runoob.com/django/django-admin-manage-tool.html 1.编写好models 直接在admin. ...
rocketmq常见问题
rocketmq常见问题以下是关于RocketMQ项目的常见问题使用「新创建的Consumer ID从哪里开始消费消息?」 1)如果发送的消息在三天之内,那么消费者会从服务器中保存的第一条消息开 ...
JAVA ArrayList集合底层源码分析
目录 ArrayList集合一.ArrayList的注意事项二. ArrayList 的底层操作机制源码分析(重点,难点.) 1.JDK8.0 2.JDK11.0 ArrayList集合一.Ar ...
原生JS添加事件方法
事件事件添加方式 EvenTarget.addEventListener(EvenName, functionName, option); EventName: example => clic ...
SP3734题解
题意: 有 $n$ 列表格,第 $i$ 列有 $a_i$ 个格子,问在 $n$ 列表格中有多少种放置 $k$ 个棋子的方法使没有棋子在同一列和同一行.(如果中间有一个"格 ...

Logistic 回归模型的参数估计为什么不能采用最小二乘法？

Logistic 回归模型的参数估计为什么不能采用最小二乘法？的更多相关文章

随机推荐

热门专题