回归分析 3.X 多元线性回归
多元线性回归模型
参数估计
模型表示
我们先将模型
\[y_{i}=\beta_{0}+\beta_{1} x_{i 1}+\cdots+\beta_{p} x_{i k}+\epsilon_{i}, \quad i=1, \cdots, n
\]表示为下列矩阵形式
\[\mathbf{y}=\mathbf{X} \boldsymbol{\beta}+\varepsilon
\]其中
\[\begin{aligned}
\mathbf{y} &=\left[\begin{array}{c}
y_{1} \\y_{2} \\\vdots \\y_{n}
\end{array}\right], \quad \mathbf{X}=\left[\begin{array}{ccccc}
1 & x_{11} & x_{12} & \cdots & x_{1 k} \\1 & x_{21} & x_{22} & \cdots & x_{2 k} \\\vdots & \vdots & \vdots & & \vdots \\1 & x_{n 1} & x_{n 2} & \cdots & x_{n k}
\end{array}\right] \\
\boldsymbol{\beta}=\left[\begin{array}{c}
\beta_{0} \\\beta_{1} \\\vdots \\\beta_{k}
\end{array}\right], \quad \boldsymbol{\varepsilon}=\left[\begin{array}{c}
\varepsilon_{1} \\\varepsilon_{2} \\\vdots \\
\varepsilon_{n}
\end{array}\right]
\end{aligned}
\]
将上述表示里的 \(\beta\) 换成 \(\hat{\beta}\) , 则就得到相应的拟合值向量和残差向量
\[\hat{\mathbf{y}}=\mathbf{X} \hat{\beta}, \quad \hat{\varepsilon}=\mathbf{y}-\hat{\mathbf{y}}
\]
于是前面的残差平方和就可以表示为
\[S(\beta)=\sum_{i=1}^{n} \varepsilon_{i}^{2}=\varepsilon^{\prime} \varepsilon=(\mathbf{y}-\mathbf{X} \beta)^{\prime}(\mathbf{y}-\mathbf{X} \beta)=\mathbf{y}^{\prime} \mathbf{y}-2 \beta^{\prime} \mathbf{X}^{\prime} \mathbf{y}+\beta^{\prime} \mathbf{X}^{\prime} \mathbf{X} \beta
\]
求解
经过优化得到 \(\beta\) 的闭式解
\(\mathbf{X}^{\prime} \mathbf{X} \hat{\beta}=\mathbf{X}^{\prime} \mathbf{y} \Rightarrow \hat{\beta}=\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \mathbf{X}^{\prime} \mathbf{y}\)
拟合值向量
拟合值向量为
\(\hat{y}=\mathbf{X} \hat{\beta}=\mathbf{X}\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \mathbf{X}^{\prime} y=H y\)
\(H\) 为投影矩阵, \(Hy\) 相当于把 \(y\) 投影到平面
估计的置信区间
由于
\[\frac{\hat{\beta}_{j}-\beta_{j}}{\text { s.e. }\left(\hat{\beta}_{j}\right)} \sim t_{n-k-1}
\]
所以 \(\beta_{j}\) 的 \(1-\alpha\) 置信区间为
\(\hat{\beta}_{j} \pm t_{n-k-1}(1-\alpha / 2) \cdot \text { s.e. }\left(\hat{\beta}_{j}\right)\)
估计的性质
误差的期望与方差:
\(E(\varepsilon)=\boldsymbol{0},~Cov(\varepsilon)=\sigma^2I_n\)
无偏性
由于
\(\hat{\boldsymbol{\beta}}=\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \mathbf{X}^{\prime} \mathbf{y}=\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \mathbf{X}^{\prime}(\mathbf{X} \boldsymbol{\beta}+\boldsymbol{\varepsilon})=\boldsymbol{\beta}+\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \mathbf{X}^{\prime} \varepsilon\)
所以
\(E(\hat{\beta})=\beta+\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \mathbf{X}^{\prime} E(\varepsilon)=\beta\), 为线性估计
方差
因为
\(\hat{\boldsymbol{\beta}}-E(\hat{\boldsymbol{\beta}})=\hat{\boldsymbol{\beta}}-\boldsymbol{\beta}=\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \mathbf{X}^{\prime} \varepsilon\)
所以
\((\hat{\boldsymbol{\beta}}-E(\hat{\boldsymbol{\beta}}))(\hat{\boldsymbol{\beta}}-E(\hat{\boldsymbol{\beta}}))^{\prime}=\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \mathbf{X}^{\prime} \varepsilon \varepsilon^{\prime} \mathbf{X}\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1}\)
协方差为\[\begin{array}{c}
\operatorname{Cov}(\hat{\boldsymbol{\beta}})=\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \mathbf{X}^{\prime} E\left(\varepsilon \varepsilon^{\prime}\right) \mathbf{X}\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \\
=\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \mathbf{X}^{\prime} \sigma^{2} I_{n} \mathbf{X}\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1}=\sigma^{2}\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1}
\end{array}\]
回归方差的估计
因为
\[\begin{array}{c}
\hat{\varepsilon}=
y-\hat{y} \\
=y-Hy \\
=(I-H)y\\
=(I-H)(X\beta+\varepsilon)\\
=X\beta-X(X'X)^{-1}X'X\beta+(I-H)\varepsilon\\
=(I-H)\varepsilon
\end{array}\]
有
\[\begin{aligned}
E(SS_{res})&=
\hat{\varepsilon}^{\top}\hat{\varepsilon}\\
&=\varepsilon^{\top}(I-H)^{\top}(I-H)\varepsilon\\
&=\varepsilon^{\top}(I-H)\varepsilon
\end{aligned}
\]
所以
\[\begin{aligned}
E\left(SS{\text {res }}\right) &=E\left(\sum_{i}\sum_{j} M_{i j} \varepsilon_{i} \varepsilon_{j}\right) \\
&=\sum_{i}^{n} M_{ii} \sigma^{2} \\
&=\sigma^{2} \operatorname{tr}(M) \\
&=\sigma^{2} \operatorname{tr}(I-H) \\
&=\sigma^{2} \operatorname{tr}(I)-\sigma^{2} \operatorname{tr}(H) \\
&=n \sigma^{2}-\sigma^{2} \operatorname{tr}\left(I_{p}\right) \\
&=(n-p) \sigma^{2} \\
&=\sigma^{2}(n-k-1)
\end{aligned}\]
所以
\[E(\frac{SS_{res}}{(n-k-1)})=\sigma^2
\]
所以方差的估计量为
\(\hat{\sigma}^{2}=\frac{1}{n-k-1} \sum_{i=1}^{n}\left(y_{i}-\hat{\beta}_{0}-\hat{\beta}_{1} x_{i 1}-\cdots-\hat{\beta}_{k} x_{i k}\right)^{2}\)
估计方差性质
无偏性
证明 我们要先验证下列这些结论
- \(E\left(\varepsilon^{\prime} A \varepsilon\right)=\sigma^{2} \operatorname{tr}(A)\)
- \(\operatorname{tr}\left(I_{n}\right)=n\)
- \(\operatorname{tr}(H)=\operatorname{tr}\left(X\left(X^{\prime} X\right)^{-1} X^{\prime}\right)=k+1\) (要用到性质 \(\operatorname{tr}(A B)= \operatorname{tr}(B A))\)。
- \(\hat{y}=H y, \quad \hat{\varepsilon}=\left(I_{n}-H\right) \varepsilon\)
- 帽子矩阵 \(H\) 和 \(I_{n}-H\) 都是对称幂等矩阵
于是
\(E\left(S S_{r e s}\right)=E(\hat{\varepsilon}^{\prime} \hat{\varepsilon})=E[\varepsilon^{\prime}(I_{n}-H) \varepsilon]=\sigma^{2} \operatorname{tr}\left(I_{n}-H\right)=\sigma^{2}(n-k-1)\)
所以
\(E\left(\hat{\sigma}^{2}\right)=\sigma^{2}\)
估计的标准误差
\(S.E.\left(\hat{\beta}_{i}\right)=\sqrt{\hat{Var(\beta_i)}}=\hat{\sigma} \sqrt{C_{i i}}\)
区间估计
响应变量条件均值的置信区间
\(\text { 记 } x_{0}=\left(1, x_{01}, x_{02}, \cdots, x_{0 k}\right)^{\prime} \text {, 则 } E\left(y \mid x_{0}\right)=x_{0}^{\prime} \beta\), 所以点估计为 \(\hat{y_0}=x_0'\hat{\beta}\)
且
\(E\left(\hat{y}_{0}\right)=x_{0}^{\prime} \beta, \quad \operatorname{Var}\left(\hat{y}_{0}\right)=x_{0}^{\prime} \operatorname{Cov}(\hat{\beta}) x_{0}=\sigma^{2} x_{0}^{\prime}\left(X^{\prime} X\right)^{-1} x_{0}\)
所以
\[\frac{\hat{y}_{0}-E\left(y \mid x_{0}\right)}{\sigma \sqrt{x_{0}^{\prime}\left(X^{\prime} X\right)^{-1} x_{0}}} \sim N(0,1)
\]\[\frac{\hat{y}_{0}-E\left(y \mid x_{0}\right)}{{\hat{\sigma}} \sqrt{x_{0}^{\prime}\left(X^{\prime} X\right)^{-1} x_{0}}} \sim t_{n-k-1}
\]
所以 \(E\left(y \mid x_{0}\right)\) 的置信区间为
\[\hat{y}_{0} \pm t_{n-k-1}(1-\alpha / 2) \cdot \hat{\sigma} \sqrt{x_{0}^{\prime}\left(X^{\prime} X\right)^{-1} x_{0}}
\]
未知观测值的置信区间
如果要对给定 \(x=x_{0}\) 时的响应变量值进行预测, 则显然点预测交 \(\hat{y}_{0}=x_{0}^{\prime} \hat{\beta}\) , 则预测误差为 \(e_{0}=y_{0}-\hat{y}_{0}=x_{0}^{\prime} \beta+\epsilon_{0}-x_{0}^{\prime} \hat{\beta}\) 满足
\[E\left(e_{0}\right)=0, \quad \operatorname{Var}\left(e_{0}\right)=\sigma^{2}\left[1+x_{0}^{\prime}\left(X^{\prime} X\right)^{-1} x_{0}\right]
\]
于是
\[\frac{y_{0}-\hat{y}_{0}}{\sigma \sqrt{1+x_{0}^{\prime}\left(X^{\prime} X\right)^{-1} x_{0}}} \sim N(0,1)
\]\[\frac{y_{0}-\hat{y}_{0}}{\hat{\sigma} \sqrt{1+x_{0}^{\prime}\left(X^{\prime} X\right)^{-1} x_{0}}} \sim t_{n-k-1}
\]
从而 \(y_{0}\) 的预测区间为
\[\hat{y}_{0} \pm t_{n-k-1}(1-\alpha / 2) \cdot \hat{\sigma} \sqrt{1+x_{0}^{\prime}\left(X^{\prime} X\right)^{-1} x_{0}}
\]
标准化回归系数
意义
避免只根据回归系数的大小误判解释变量在模型中的重要性
做法
假设标准化之前的回归结果是 \(y_{i}=\hat{\beta}_{0}+\hat{\beta}_{1} x_{i 1}+\hat{\beta}_{2} x_{i 2}+\hat{u}_{i}\)
由于 \(\left(\bar{x}_{1}, \bar{x}_{2}, \bar{y}\right)\) 在样本回归线上, 因此
\[\bar{y}=\hat{\beta}_{0}+\hat{\beta}_{1} \bar{x}_{1}+\hat{\beta}_{2} \bar{x}_{2}
\]
两式相减并除以被解释变量的样本标准差得到
\[\frac{y_{i}-\bar{y}}{\hat{\sigma}_{y}}=\frac{\hat{\sigma}_{x_{1}}}{\hat{\sigma}_{y}} \hat{\beta}_{1} \cdot \frac{x_{i 1}-\bar{x}_{1}}{\hat{\sigma}_{x_{1}}}+\frac{\hat{\sigma}_{x_{2}}}{\hat{\sigma}_{y}} \hat{\beta}_{1} \cdot \frac{x_{i 2}-\bar{x}_{2}}{\hat{\sigma}_{x_{2}}}+\frac{\hat{u}_{i}}{\hat{\sigma}_{y}}
\]
得到标准化前后估计之间的关系
\[\hat{b}_{j}=\frac{\hat{\sigma}_{x_{j}}}{\hat{\sigma}_{y}} \hat{\beta}_{j}
\]
多重共线性
解释变量之间的近似线性相关关系
影响
当存在完全共线性时,矩阵 \(X'X\) 是奇异的;当存在严重的近似 共线性时,\(X'X\) 就会接近奇异
此时 \(\operatorname{Var}(\hat{\beta})\) 作为 \(\sigma^{2}\left(X^{\prime} X\right)^{-1}\) 的对角元, 就会比较大。
事实上, 可以证明
\[\operatorname{Var}\left(\hat{\beta}_{j}\right)=\frac{\sigma^{2}}{S_{x_{j} x_{j}}} \cdot \frac{1}{1-R_{j}^{2}}
\]
其中 \(R_{j}^{2}\) 为回归 \(x_{j} \sim x_{1}+\cdots+x_{j-1}+x_{j+1}+\cdots+x_{k}\) 的决定系数 \(R^{2}\) , 度量了 \(x_{j}\) 和其它解释变量之间的共线性程度。
在建模事件中, 把 \(1 /\left(1-R_{j}^{2}\right)\) 定义为方差膨胀因子,
\[V I F_{j}=\frac{1}{1-R_{j}^{2}}
\]
通常, 如果 VIF 大于 10 , 可以认为存在较严重的多重共线性。
假设检验
回归显著性检验
所有变量显著性检验
原假设与备择假设
\[\begin{array}{l}
H_{0}: \beta_{1}=\beta_{2}=\cdots=\beta_{k}=0 \\
\leftrightarrow H_{1}: \exists 1 \leq j \leq k, \quad \beta_{j} \neq 0
\end{array}\]
需要构造检验统计量
因为我们假设模型有 \(\varepsilon \sim N_n(0,\sigma^2I_n)\)
因此有\[\frac{SS_{res}}{\sigma^2}=\frac{\varepsilon'(I_n-H)\varepsilon}{\sigma^2}=\frac{\varepsilon'Q\Sigma Q^\top\varepsilon}{\sigma^2}=\frac{(Q^\varepsilon)'}{\sigma}\Sigma\frac{Q^\top\varepsilon}{\sigma}=y'\Sigma y=\sum_{i=1}^{n-p}y_i^2\sim\chi^2(n-p)
\]
因此构造$$F_{0}=\frac{M S_{r e g}}{M S_{r e s}}=\frac{S S_{r e g} / k}{S S_{r e s} /(n-k-1)} \stackrel{H_{0}}{\sim} F_{k, n-k-1}$$
当原假设成立时, \(F_0\) 会小, 所以当 \(F_0>F_{k,n-k-1}(1-\alpha)\), 拒绝原假设
单个变量显著性检验
原假设与备择假设
\[H_{0}: \beta_{j}=0 \leftrightarrow H_{1}: \beta_{j} \neq 0
\]
检验统计量
\[t_{0}=\frac{\hat{\beta}_{j}}{\text { s.e. }\left(\hat{\beta}_{j}\right)}=\frac{\hat{\beta}_{j}}{\sigma \sqrt{C_{j j}}} \cdot \frac{\sigma}{\hat{\sigma}}=\frac{\hat{\beta}_{j} / \sigma \sqrt{C_{j j}}}{\sqrt{\frac{1}{n-k-1} \cdot \frac{S S_{r e s}}{\sigma^{2}}}} \stackrel{H_{0}}{\sim} t_{n-k-1}
\]
当 \(t_0>t_{n-k-1}(1-\alpha/2)\), 拒绝原假设
子集显著性检验 (检验解释变量的某个子集是联合不显著的)
原假设与备择假设
\[H_{0}: \beta_{3}=0, \beta_{4}=0, \beta_{5}=0
\]
检验原理:
无约束的模型相对于约束模型添加了三个变量,这将导致模型拟 合优度的增加,即残差平方和的减小和回归平方和的增大,我们可以通过比较这两个模型残差平方和的差值是否足够大来检验原假设是否可以被拒绝,如果足够大,就意味着新加入模型的三个变量(对模型拟合的影响)是显著的.
检验统计量
\[F_{0}=\frac{\left(S S_{r e s}^{H_{0}}-S S_{r e s}\right) / r}{S S_{r e s} /(n-k-1)}
\]
当 \(F0\) 大于 \(F_{r,n−k−1}\) 分布的 \((1 − α)\) 分位点时,拒绝原假设.
当 \(r =1\) 时,上面的 \(F\) 检验和 \(t\) 显著性检验是等价的,事实上, \(F_{1,n−k−1} = t^2_{n−k−1}\).
拟合优度改进
\(R^2\) 原本存在的问题
当添加的变量与解释变量无关或其对解释变量的影响不显著时,这种拟合优度上的增加就是没有意义的
因此我们需要对传统的 \(R^2\) 进行改进
\(R_{adj}\)
\[R^{2}=\frac{S S_{r e g}}{S S_{T}}=1-\frac{S S_{r e s}}{S S_{T}}, \quad R_{a d j}^{2}=1-\frac{S S_{\text {res }} /(n-k-1)}{S S_{T} /(n-1)}
\]
通过添加自由度来调整
回归分析 3.X 多元线性回归的更多相关文章
- R语言解读多元线性回归模型
转载:http://blog.fens.me/r-multi-linear-regression/ 前言 本文接上一篇R语言解读一元线性回归模型.在许多生活和工作的实际问题中,影响因变量的因素可能不止 ...
- [机器学习Lesson4]多元线性回归
1. 多元线性回归定义 多元线性回归也被称为多元线性回归. 我们现在介绍方程的符号,我们可以有任意数量的输入变量. 这些多个特征的假设函数的多变量形式如下: hθ(x)=θ0+θ1x1+θ2x2+θ3 ...
- ML之多元线性回归
转自:http://www.cnblogs.com/zgw21cn/archive/2009/01/07/1361287.html 1.多元线性回归模型 假定被解释变量与多个解释变量之间具有线性关系, ...
- day-12 python实现简单线性回归和多元线性回归算法
1.问题引入 在统计学中,线性回归是利用称为线性回归方程的最小二乘函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析.这种函数是一个或多个称为回归系数的模型参数的线性组合.一个带有一个自变 ...
- 100天搞定机器学习|Day3多元线性回归
前情回顾 [第二天100天搞定机器学习|Day2简单线性回归分析][1],我们学习了简单线性回归分析,这个模型非常简单,很容易理解.实现方式是sklearn中的LinearRegression,我们也 ...
- coursera机器学习笔记-多元线性回归,normal equation
#对coursera上Andrew Ng老师开的机器学习课程的笔记和心得: #注:此笔记是我自己认为本节课里比较重要.难理解或容易忘记的内容并做了些补充,并非是课堂详细笔记和要点: #标记为<补 ...
- 多元线性回归 ——模型、估计、检验与预测
一.模型假设 传统多元线性回归模型 最重要的假设的原理为: 1. 自变量和因变量之间存在多元线性关系,因变量y能够被x1,x2-.x{k}完全地线性解释:2.不能被解释的部分则为纯粹的无法观测到的误差 ...
- 多元线性回归----Java简单实现
http://www.cnblogs.com/wzm-xu/p/4062266.html 多元线性回归----Java简单实现 学习Andrew N.g的机器学习课程之后的简单实现. 课程地址:h ...
- 多元线性回归模型的特征压缩:岭回归和Lasso回归
多元线性回归模型中,如果所有特征一起上,容易造成过拟合使测试数据误差方差过大:因此减少不必要的特征,简化模型是减小方差的一个重要步骤.除了直接对特征筛选,来也可以进行特征压缩,减少某些不重要的特征系数 ...
- Andrew Ng机器学习课程笔记--week2(多元线性回归&正规公式)
1. 内容概要 Multivariate Linear Regression(多元线性回归) 多元特征 多元变量的梯度下降 特征缩放 Computing Parameters Analytically ...
随机推荐
- python之路38 SQL注入问题 索引触发器 事务 存储过程 函数 流程控制
SQL注入问题 怪像1:输对用户名就可以登录成功 怪像2:不需要对的用户名和密码也可以登录成功 SQL注入:利用特殊符号的组合产生特殊的含义 从而避开正常的业务逻辑 select * from use ...
- 第k个数【模板题】
第k个数 给定一个长度为 \(n\) 的整数数列,以及一个整数 \(k\),请用快速选择算法求出数列从小到大排序后的第 \(k\) 个数. 输入格式 第一行包含两个整数 \(n\) 和 \(k\). ...
- [C++]C++11:Function与Bind
std::function 它是函数.函数对象.函数指针.和成员函数的包装器,可以容纳任何类型的函数对象,函数指针,引用函数,成员函数的指针. 以统一的方式处理函数.函数对象.函数指针.和成员函数. ...
- Odoo View 常用技巧
隐藏Field <field name="currency_id" invisible="True"/> <field name=" ...
- SpringMVC学习笔记 - 第二章 - SSM整合案例 - 技术整合、统一结果封装、统一异常处理、前后联调、拦截器
[前置内容]Spring 学习笔记全系列传送门: Spring学习笔记 - 第一章 - IoC(控制反转).IoC容器.Bean的实例化与生命周期.DI(依赖注入) Spring学习笔记 - 第二章 ...
- 表单标签补充及css层叠样式
表单标签补充及css层叠样式 一.表单知识点补充 1.获取用户输入的标签两大重要属性 name属性:类似于字典的键 value属性:类似于与字典的值 # form表单朝后端发送数据的时候,标签必须得有 ...
- ClickHouse(12)ClickHouse合并树MergeTree家族表引擎之AggregatingMergeTree详细解析
目录 建表语法 查询和插入数据 数据处理逻辑 ClickHouse相关资料分享 AggregatingMergeTree引擎继承自 MergeTree,并改变了数据片段的合并逻辑.ClickHouse ...
- 一款备受欢迎的用户脚本管理器插件TampermonKey-油猴脚本管理器安装与使用
Tampermonkey简介 Tampermonkey是一款备受欢迎的浏览器扩展和用户脚本管理器,它适用于目前各种主流浏览器. 方便的脚本管理(正在运行的脚本和可以运行的脚本在图标处显示一览无余) 脚 ...
- vuluhub_jangow-01-1.0.1
前言 靶机:jangow-01-1.0.1 攻击机:kali linux2022.4 靶机描述 打靶ing 靶机探测 使用nmap扫描网段 点击查看代码 ┌──(root㉿kali)-[/home/k ...
- 调用HttpClient.PostAsync时传token等值
做内部接口转发时加token验证需要传token值过去,有如下两种方式 string jsonContent = JsonConvert.SerializeObject(args); using(va ...