回归分析 3.X 多元线性回归
多元线性回归模型
参数估计
模型表示
我们先将模型
\[y_{i}=\beta_{0}+\beta_{1} x_{i 1}+\cdots+\beta_{p} x_{i k}+\epsilon_{i}, \quad i=1, \cdots, n
\]表示为下列矩阵形式
\[\mathbf{y}=\mathbf{X} \boldsymbol{\beta}+\varepsilon
\]其中
\[\begin{aligned}
\mathbf{y} &=\left[\begin{array}{c}
y_{1} \\y_{2} \\\vdots \\y_{n}
\end{array}\right], \quad \mathbf{X}=\left[\begin{array}{ccccc}
1 & x_{11} & x_{12} & \cdots & x_{1 k} \\1 & x_{21} & x_{22} & \cdots & x_{2 k} \\\vdots & \vdots & \vdots & & \vdots \\1 & x_{n 1} & x_{n 2} & \cdots & x_{n k}
\end{array}\right] \\
\boldsymbol{\beta}=\left[\begin{array}{c}
\beta_{0} \\\beta_{1} \\\vdots \\\beta_{k}
\end{array}\right], \quad \boldsymbol{\varepsilon}=\left[\begin{array}{c}
\varepsilon_{1} \\\varepsilon_{2} \\\vdots \\
\varepsilon_{n}
\end{array}\right]
\end{aligned}
\]
将上述表示里的 \(\beta\) 换成 \(\hat{\beta}\) , 则就得到相应的拟合值向量和残差向量
\[\hat{\mathbf{y}}=\mathbf{X} \hat{\beta}, \quad \hat{\varepsilon}=\mathbf{y}-\hat{\mathbf{y}}
\]
于是前面的残差平方和就可以表示为
\[S(\beta)=\sum_{i=1}^{n} \varepsilon_{i}^{2}=\varepsilon^{\prime} \varepsilon=(\mathbf{y}-\mathbf{X} \beta)^{\prime}(\mathbf{y}-\mathbf{X} \beta)=\mathbf{y}^{\prime} \mathbf{y}-2 \beta^{\prime} \mathbf{X}^{\prime} \mathbf{y}+\beta^{\prime} \mathbf{X}^{\prime} \mathbf{X} \beta
\]
求解
经过优化得到 \(\beta\) 的闭式解
\(\mathbf{X}^{\prime} \mathbf{X} \hat{\beta}=\mathbf{X}^{\prime} \mathbf{y} \Rightarrow \hat{\beta}=\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \mathbf{X}^{\prime} \mathbf{y}\)
拟合值向量
拟合值向量为
\(\hat{y}=\mathbf{X} \hat{\beta}=\mathbf{X}\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \mathbf{X}^{\prime} y=H y\)
\(H\) 为投影矩阵, \(Hy\) 相当于把 \(y\) 投影到平面
估计的置信区间
由于
\[\frac{\hat{\beta}_{j}-\beta_{j}}{\text { s.e. }\left(\hat{\beta}_{j}\right)} \sim t_{n-k-1}
\]
所以 \(\beta_{j}\) 的 \(1-\alpha\) 置信区间为
\(\hat{\beta}_{j} \pm t_{n-k-1}(1-\alpha / 2) \cdot \text { s.e. }\left(\hat{\beta}_{j}\right)\)
估计的性质
误差的期望与方差:
\(E(\varepsilon)=\boldsymbol{0},~Cov(\varepsilon)=\sigma^2I_n\)
无偏性
由于
\(\hat{\boldsymbol{\beta}}=\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \mathbf{X}^{\prime} \mathbf{y}=\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \mathbf{X}^{\prime}(\mathbf{X} \boldsymbol{\beta}+\boldsymbol{\varepsilon})=\boldsymbol{\beta}+\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \mathbf{X}^{\prime} \varepsilon\)
所以
\(E(\hat{\beta})=\beta+\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \mathbf{X}^{\prime} E(\varepsilon)=\beta\), 为线性估计
方差
因为
\(\hat{\boldsymbol{\beta}}-E(\hat{\boldsymbol{\beta}})=\hat{\boldsymbol{\beta}}-\boldsymbol{\beta}=\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \mathbf{X}^{\prime} \varepsilon\)
所以
\((\hat{\boldsymbol{\beta}}-E(\hat{\boldsymbol{\beta}}))(\hat{\boldsymbol{\beta}}-E(\hat{\boldsymbol{\beta}}))^{\prime}=\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \mathbf{X}^{\prime} \varepsilon \varepsilon^{\prime} \mathbf{X}\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1}\)
协方差为\[\begin{array}{c}
\operatorname{Cov}(\hat{\boldsymbol{\beta}})=\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \mathbf{X}^{\prime} E\left(\varepsilon \varepsilon^{\prime}\right) \mathbf{X}\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \\
=\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \mathbf{X}^{\prime} \sigma^{2} I_{n} \mathbf{X}\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1}=\sigma^{2}\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1}
\end{array}\]
回归方差的估计
因为
\[\begin{array}{c}
\hat{\varepsilon}=
y-\hat{y} \\
=y-Hy \\
=(I-H)y\\
=(I-H)(X\beta+\varepsilon)\\
=X\beta-X(X'X)^{-1}X'X\beta+(I-H)\varepsilon\\
=(I-H)\varepsilon
\end{array}\]
有
\[\begin{aligned}
E(SS_{res})&=
\hat{\varepsilon}^{\top}\hat{\varepsilon}\\
&=\varepsilon^{\top}(I-H)^{\top}(I-H)\varepsilon\\
&=\varepsilon^{\top}(I-H)\varepsilon
\end{aligned}
\]
所以
\[\begin{aligned}
E\left(SS{\text {res }}\right) &=E\left(\sum_{i}\sum_{j} M_{i j} \varepsilon_{i} \varepsilon_{j}\right) \\
&=\sum_{i}^{n} M_{ii} \sigma^{2} \\
&=\sigma^{2} \operatorname{tr}(M) \\
&=\sigma^{2} \operatorname{tr}(I-H) \\
&=\sigma^{2} \operatorname{tr}(I)-\sigma^{2} \operatorname{tr}(H) \\
&=n \sigma^{2}-\sigma^{2} \operatorname{tr}\left(I_{p}\right) \\
&=(n-p) \sigma^{2} \\
&=\sigma^{2}(n-k-1)
\end{aligned}\]
所以
\[E(\frac{SS_{res}}{(n-k-1)})=\sigma^2
\]
所以方差的估计量为
\(\hat{\sigma}^{2}=\frac{1}{n-k-1} \sum_{i=1}^{n}\left(y_{i}-\hat{\beta}_{0}-\hat{\beta}_{1} x_{i 1}-\cdots-\hat{\beta}_{k} x_{i k}\right)^{2}\)
估计方差性质
无偏性
证明 我们要先验证下列这些结论
- \(E\left(\varepsilon^{\prime} A \varepsilon\right)=\sigma^{2} \operatorname{tr}(A)\)
- \(\operatorname{tr}\left(I_{n}\right)=n\)
- \(\operatorname{tr}(H)=\operatorname{tr}\left(X\left(X^{\prime} X\right)^{-1} X^{\prime}\right)=k+1\) (要用到性质 \(\operatorname{tr}(A B)= \operatorname{tr}(B A))\)。
- \(\hat{y}=H y, \quad \hat{\varepsilon}=\left(I_{n}-H\right) \varepsilon\)
- 帽子矩阵 \(H\) 和 \(I_{n}-H\) 都是对称幂等矩阵
于是
\(E\left(S S_{r e s}\right)=E(\hat{\varepsilon}^{\prime} \hat{\varepsilon})=E[\varepsilon^{\prime}(I_{n}-H) \varepsilon]=\sigma^{2} \operatorname{tr}\left(I_{n}-H\right)=\sigma^{2}(n-k-1)\)
所以
\(E\left(\hat{\sigma}^{2}\right)=\sigma^{2}\)
估计的标准误差
\(S.E.\left(\hat{\beta}_{i}\right)=\sqrt{\hat{Var(\beta_i)}}=\hat{\sigma} \sqrt{C_{i i}}\)
区间估计
响应变量条件均值的置信区间
\(\text { 记 } x_{0}=\left(1, x_{01}, x_{02}, \cdots, x_{0 k}\right)^{\prime} \text {, 则 } E\left(y \mid x_{0}\right)=x_{0}^{\prime} \beta\), 所以点估计为 \(\hat{y_0}=x_0'\hat{\beta}\)
且
\(E\left(\hat{y}_{0}\right)=x_{0}^{\prime} \beta, \quad \operatorname{Var}\left(\hat{y}_{0}\right)=x_{0}^{\prime} \operatorname{Cov}(\hat{\beta}) x_{0}=\sigma^{2} x_{0}^{\prime}\left(X^{\prime} X\right)^{-1} x_{0}\)
所以
\[\frac{\hat{y}_{0}-E\left(y \mid x_{0}\right)}{\sigma \sqrt{x_{0}^{\prime}\left(X^{\prime} X\right)^{-1} x_{0}}} \sim N(0,1)
\]\[\frac{\hat{y}_{0}-E\left(y \mid x_{0}\right)}{{\hat{\sigma}} \sqrt{x_{0}^{\prime}\left(X^{\prime} X\right)^{-1} x_{0}}} \sim t_{n-k-1}
\]
所以 \(E\left(y \mid x_{0}\right)\) 的置信区间为
\[\hat{y}_{0} \pm t_{n-k-1}(1-\alpha / 2) \cdot \hat{\sigma} \sqrt{x_{0}^{\prime}\left(X^{\prime} X\right)^{-1} x_{0}}
\]
未知观测值的置信区间
如果要对给定 \(x=x_{0}\) 时的响应变量值进行预测, 则显然点预测交 \(\hat{y}_{0}=x_{0}^{\prime} \hat{\beta}\) , 则预测误差为 \(e_{0}=y_{0}-\hat{y}_{0}=x_{0}^{\prime} \beta+\epsilon_{0}-x_{0}^{\prime} \hat{\beta}\) 满足
\[E\left(e_{0}\right)=0, \quad \operatorname{Var}\left(e_{0}\right)=\sigma^{2}\left[1+x_{0}^{\prime}\left(X^{\prime} X\right)^{-1} x_{0}\right]
\]
于是
\[\frac{y_{0}-\hat{y}_{0}}{\sigma \sqrt{1+x_{0}^{\prime}\left(X^{\prime} X\right)^{-1} x_{0}}} \sim N(0,1)
\]\[\frac{y_{0}-\hat{y}_{0}}{\hat{\sigma} \sqrt{1+x_{0}^{\prime}\left(X^{\prime} X\right)^{-1} x_{0}}} \sim t_{n-k-1}
\]
从而 \(y_{0}\) 的预测区间为
\[\hat{y}_{0} \pm t_{n-k-1}(1-\alpha / 2) \cdot \hat{\sigma} \sqrt{1+x_{0}^{\prime}\left(X^{\prime} X\right)^{-1} x_{0}}
\]
标准化回归系数
意义
避免只根据回归系数的大小误判解释变量在模型中的重要性
做法
假设标准化之前的回归结果是 \(y_{i}=\hat{\beta}_{0}+\hat{\beta}_{1} x_{i 1}+\hat{\beta}_{2} x_{i 2}+\hat{u}_{i}\)
由于 \(\left(\bar{x}_{1}, \bar{x}_{2}, \bar{y}\right)\) 在样本回归线上, 因此
\[\bar{y}=\hat{\beta}_{0}+\hat{\beta}_{1} \bar{x}_{1}+\hat{\beta}_{2} \bar{x}_{2}
\]
两式相减并除以被解释变量的样本标准差得到
\[\frac{y_{i}-\bar{y}}{\hat{\sigma}_{y}}=\frac{\hat{\sigma}_{x_{1}}}{\hat{\sigma}_{y}} \hat{\beta}_{1} \cdot \frac{x_{i 1}-\bar{x}_{1}}{\hat{\sigma}_{x_{1}}}+\frac{\hat{\sigma}_{x_{2}}}{\hat{\sigma}_{y}} \hat{\beta}_{1} \cdot \frac{x_{i 2}-\bar{x}_{2}}{\hat{\sigma}_{x_{2}}}+\frac{\hat{u}_{i}}{\hat{\sigma}_{y}}
\]
得到标准化前后估计之间的关系
\[\hat{b}_{j}=\frac{\hat{\sigma}_{x_{j}}}{\hat{\sigma}_{y}} \hat{\beta}_{j}
\]
多重共线性
解释变量之间的近似线性相关关系
影响
当存在完全共线性时,矩阵 \(X'X\) 是奇异的;当存在严重的近似 共线性时,\(X'X\) 就会接近奇异
此时 \(\operatorname{Var}(\hat{\beta})\) 作为 \(\sigma^{2}\left(X^{\prime} X\right)^{-1}\) 的对角元, 就会比较大。
事实上, 可以证明
\[\operatorname{Var}\left(\hat{\beta}_{j}\right)=\frac{\sigma^{2}}{S_{x_{j} x_{j}}} \cdot \frac{1}{1-R_{j}^{2}}
\]
其中 \(R_{j}^{2}\) 为回归 \(x_{j} \sim x_{1}+\cdots+x_{j-1}+x_{j+1}+\cdots+x_{k}\) 的决定系数 \(R^{2}\) , 度量了 \(x_{j}\) 和其它解释变量之间的共线性程度。
在建模事件中, 把 \(1 /\left(1-R_{j}^{2}\right)\) 定义为方差膨胀因子,
\[V I F_{j}=\frac{1}{1-R_{j}^{2}}
\]
通常, 如果 VIF 大于 10 , 可以认为存在较严重的多重共线性。
假设检验
回归显著性检验
所有变量显著性检验
原假设与备择假设
\[\begin{array}{l}
H_{0}: \beta_{1}=\beta_{2}=\cdots=\beta_{k}=0 \\
\leftrightarrow H_{1}: \exists 1 \leq j \leq k, \quad \beta_{j} \neq 0
\end{array}\]
需要构造检验统计量
因为我们假设模型有 \(\varepsilon \sim N_n(0,\sigma^2I_n)\)
因此有\[\frac{SS_{res}}{\sigma^2}=\frac{\varepsilon'(I_n-H)\varepsilon}{\sigma^2}=\frac{\varepsilon'Q\Sigma Q^\top\varepsilon}{\sigma^2}=\frac{(Q^\varepsilon)'}{\sigma}\Sigma\frac{Q^\top\varepsilon}{\sigma}=y'\Sigma y=\sum_{i=1}^{n-p}y_i^2\sim\chi^2(n-p)
\]
因此构造$$F_{0}=\frac{M S_{r e g}}{M S_{r e s}}=\frac{S S_{r e g} / k}{S S_{r e s} /(n-k-1)} \stackrel{H_{0}}{\sim} F_{k, n-k-1}$$
当原假设成立时, \(F_0\) 会小, 所以当 \(F_0>F_{k,n-k-1}(1-\alpha)\), 拒绝原假设
单个变量显著性检验
原假设与备择假设
\[H_{0}: \beta_{j}=0 \leftrightarrow H_{1}: \beta_{j} \neq 0
\]
检验统计量
\[t_{0}=\frac{\hat{\beta}_{j}}{\text { s.e. }\left(\hat{\beta}_{j}\right)}=\frac{\hat{\beta}_{j}}{\sigma \sqrt{C_{j j}}} \cdot \frac{\sigma}{\hat{\sigma}}=\frac{\hat{\beta}_{j} / \sigma \sqrt{C_{j j}}}{\sqrt{\frac{1}{n-k-1} \cdot \frac{S S_{r e s}}{\sigma^{2}}}} \stackrel{H_{0}}{\sim} t_{n-k-1}
\]
当 \(t_0>t_{n-k-1}(1-\alpha/2)\), 拒绝原假设
子集显著性检验 (检验解释变量的某个子集是联合不显著的)
原假设与备择假设
\[H_{0}: \beta_{3}=0, \beta_{4}=0, \beta_{5}=0
\]
检验原理:
无约束的模型相对于约束模型添加了三个变量,这将导致模型拟 合优度的增加,即残差平方和的减小和回归平方和的增大,我们可以通过比较这两个模型残差平方和的差值是否足够大来检验原假设是否可以被拒绝,如果足够大,就意味着新加入模型的三个变量(对模型拟合的影响)是显著的.
检验统计量
\[F_{0}=\frac{\left(S S_{r e s}^{H_{0}}-S S_{r e s}\right) / r}{S S_{r e s} /(n-k-1)}
\]
当 \(F0\) 大于 \(F_{r,n−k−1}\) 分布的 \((1 − α)\) 分位点时,拒绝原假设.
当 \(r =1\) 时,上面的 \(F\) 检验和 \(t\) 显著性检验是等价的,事实上, \(F_{1,n−k−1} = t^2_{n−k−1}\).
拟合优度改进
\(R^2\) 原本存在的问题
当添加的变量与解释变量无关或其对解释变量的影响不显著时,这种拟合优度上的增加就是没有意义的
因此我们需要对传统的 \(R^2\) 进行改进
\(R_{adj}\)
\[R^{2}=\frac{S S_{r e g}}{S S_{T}}=1-\frac{S S_{r e s}}{S S_{T}}, \quad R_{a d j}^{2}=1-\frac{S S_{\text {res }} /(n-k-1)}{S S_{T} /(n-1)}
\]
通过添加自由度来调整
回归分析 3.X 多元线性回归的更多相关文章
- R语言解读多元线性回归模型
转载:http://blog.fens.me/r-multi-linear-regression/ 前言 本文接上一篇R语言解读一元线性回归模型.在许多生活和工作的实际问题中,影响因变量的因素可能不止 ...
- [机器学习Lesson4]多元线性回归
1. 多元线性回归定义 多元线性回归也被称为多元线性回归. 我们现在介绍方程的符号,我们可以有任意数量的输入变量. 这些多个特征的假设函数的多变量形式如下: hθ(x)=θ0+θ1x1+θ2x2+θ3 ...
- ML之多元线性回归
转自:http://www.cnblogs.com/zgw21cn/archive/2009/01/07/1361287.html 1.多元线性回归模型 假定被解释变量与多个解释变量之间具有线性关系, ...
- day-12 python实现简单线性回归和多元线性回归算法
1.问题引入 在统计学中,线性回归是利用称为线性回归方程的最小二乘函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析.这种函数是一个或多个称为回归系数的模型参数的线性组合.一个带有一个自变 ...
- 100天搞定机器学习|Day3多元线性回归
前情回顾 [第二天100天搞定机器学习|Day2简单线性回归分析][1],我们学习了简单线性回归分析,这个模型非常简单,很容易理解.实现方式是sklearn中的LinearRegression,我们也 ...
- coursera机器学习笔记-多元线性回归,normal equation
#对coursera上Andrew Ng老师开的机器学习课程的笔记和心得: #注:此笔记是我自己认为本节课里比较重要.难理解或容易忘记的内容并做了些补充,并非是课堂详细笔记和要点: #标记为<补 ...
- 多元线性回归 ——模型、估计、检验与预测
一.模型假设 传统多元线性回归模型 最重要的假设的原理为: 1. 自变量和因变量之间存在多元线性关系,因变量y能够被x1,x2-.x{k}完全地线性解释:2.不能被解释的部分则为纯粹的无法观测到的误差 ...
- 多元线性回归----Java简单实现
http://www.cnblogs.com/wzm-xu/p/4062266.html 多元线性回归----Java简单实现 学习Andrew N.g的机器学习课程之后的简单实现. 课程地址:h ...
- 多元线性回归模型的特征压缩:岭回归和Lasso回归
多元线性回归模型中,如果所有特征一起上,容易造成过拟合使测试数据误差方差过大:因此减少不必要的特征,简化模型是减小方差的一个重要步骤.除了直接对特征筛选,来也可以进行特征压缩,减少某些不重要的特征系数 ...
- Andrew Ng机器学习课程笔记--week2(多元线性回归&正规公式)
1. 内容概要 Multivariate Linear Regression(多元线性回归) 多元特征 多元变量的梯度下降 特征缩放 Computing Parameters Analytically ...
随机推荐
- 记录Typescript的学习调试笔记(比 javascript更具面向对象,强类型检查,静态字段,适合现代的大团队分工与管理风格).
1.)先来一段Typescript的环境安装. 安装nodejs ,下载地址:https://nodejs.org/en/download/ //(node-v12.1 ...
- kafka详解(04) - kafka监控 可视化工具
kafka详解(04) - kafka监控 可视化工具 Kafka监控Eagle 1)修改kafka启动命令 修改kafka-server-start.sh命令中 if [ "x$KAFKA ...
- Postman实现UI自动化测试
转载请注明出处️ 作者:测试蔡坨坨 原文链接:caituotuo.top/1db4fa44.html 你好,我是测试蔡坨坨. 看到这篇文章的标题,是不是有小伙伴会感到惊讶呢? Postman不是做接口 ...
- day03-Spring管理Bean-IOC-01
Spring管理Bean-IOC 1.Spring配置/管理bean介绍 Bean管理包括两方面: 创建bean对象 给bean注入属性 Bean的配置方式: 基于xml文件配置方式 基于注解配置方式 ...
- MornHus--一个野生蒟蒻的生成
野生蒟蒻一个. 蒟蒻的洛谷首页:MornHus 蒟蒻已经遗弃的CSDN首页:MornHus 写博的内容: 主要就是平时写写算法的笔记,有的时候写点数学题,有的时候还会搞一些奇怪的东西[doge] 大蒟 ...
- 日常JS数据各种操作方法总结~~欢迎大家留言板补充哦~~
需求情景一: <!DOCTYPE html> <html lang="en"> <head> <meta charset="UT ...
- 分布式事务 | 使用 dotnetcore/CAP 的本地消息表模式
本地消息表模式 本地消息表模式,其作为柔性事务的一种,核心是将一个分布式事务拆分为多个本地事务,事务之间通过事件消息衔接,事件消息和上个事务共用一个本地事务存储到本地消息表,再通过定时任务轮询本地消息 ...
- Unity之生成扫描二维码
Unity之生成扫描二维码 Unity之生成扫描二维码 前言 开篇 Unity版本及使用插件 正题 前期准备 首先生成二维码 然后需要扫描二维码 该使用了 挂载脚本绑定按钮和输入框 运行内容 生成二维 ...
- 怎么把Java,PHP,Vue等项目上传到GitHub,码云等
一.到github或者码云上建立一个私有或公开仓库(这里以github为例) 创建成功后我们得到了一个仓库地址,github上的操作完成,现在去项目内捣鼓 二.提交本地文件并推送 1.我是用命令的格式 ...
- FLASH-CH32F203替换STM32F103 FLASH快速编程移植说明
因CH32F203 相对于STM32 flash 操作多了快速编程模式,该文档说明主要目的是为了方便客户在原先ST 工程的基础上实现flash 快速编程模式的快速移植. 1.在stm32f10x.h ...