R--线性回归诊断（一）

线性回归诊断--R

【转载时请注明来源】：http://www.cnblogs.com/runner-ljt/

Ljt 勿忘初心无畏未来

作为一个初学者，水平有限，欢迎交流指正。

在R中线性回归，一般使用lm函数就可以得到线性回归模型，但是得到的模型到底合不合适？在我们使用所得到的线性模型之前就需要进行回归诊断。

线性回归的诊断，主要是检验线性回归模型的假设是否成立。

线性回归模型 y=Θ₀+Θ₁x₁+Θ₂x₂+.......+Θ_mx_m+ε （自变量与因变量之间是线性关系）

基本假设：

（1）随机干扰项 ε 服从零均值，同方差，零协方差（相互独立）的正态分布

E(ε_i)=0 ; var(ε_i)=σ²;cov(ε_i, εj)=0 ;

ε_i~N(0,σ²)

（2）随机干扰项 ε 与解释变量间不相关

cov(X_i , ε_i) =0

（一）显著性检验

（1）回归方程显著性 F 检验：看自变量 X₁ , X₂ .....X_m 从整体上对随机变量Y是否有明显的影响。

原假设 H₀：Θ₁=Θ₂=.....=Θ_m=0 （H₀若被接受则表明随机变量Y与X₁ , X₂ .....X_m之间的关系由线性回归模型表示不合适）

P值<α : 拒绝原假设。即在显著性水平 α 下，Y 与 X₁ , X₂ .....X_m有显著的线性关系，回归方程是显著的。（自变量全体对因变量产生线性影响）

（2）回归系数显著性 t 检验：看单个的自变量 X_i对Y是否有明显影响。

原假设 H_0i ：Θ_i =0 （H_0i 若被接受则表明自变量X_i对因变量Y的线性效果不显著）

P值<α : 拒绝原假设。即在显著性水平 α 下，Y 与 X_i 有显著的线性关系。

对于一元线性回归这两种检验是等价的；

对于多元线性回归，这两种检验是不等价的:

F检验显著，说明Y对自变量X₁ , X₂ .....X_m 整体的线性回归效果是显著的，但不等于Y对每个自变量X_i的效果都显著;反之，某个或某几个X_i 的系数不显著，回归方程显著性的F检验仍然有可能是显著的。由于某些自变量不显著，因而在多元回归中并不是包含在回归方程中的自变量越多越好，需要剔除对Y无显著影响的自变量。

（二）拟合优度

拟合优度用于检验回归方程对样本观测值的拟合程度。

样本决定系数 R²= SSR/SST = 1 - SSE/SST （R²属于[0,1] ）

R²越接近 1 ，表明回归拟合的效果越好；

R²越接近 0 ，表明回归拟合的效果越差。

与F检验相比，R²可以更清楚直观地反映回归拟合的效果，但是并不能作为严格的显著性检验。需要指出的是，拟合优度并不是检验模型优劣的唯一标准，有时为了使模型从结构上有较合理的经济解释，在样本量n 较大时，R²等于0.7左右我们也给回归模型以肯定态度。需要注意的是 R²与回归方程汇中自变量的数目以及样本量n有关，当样本量n与自变量的个数接近时，R²易接近于1，其中隐含着一些虚假的成分。

下面结合实例对R语言中线性拟合函数lm的结果进行分析

>

>

> head(bank)

       y     x1     x2    x3     x4

1 1018.4  96259 2239.1 50760 1132.3

2 1258.9  97542 2619.4 39370 1146.4

3 1359.4  98705 2976.1 44530 1159.9

4 1545.6 100072 3309.1 39790 1175.8

5 1761.6 101654 3637.9 33130 1212.3

6 1960.8 103008 4020.5 34710 1367.0

>

> fline<-lm(y~x1+x2+x3+x4,data=bank)

> summary(fline)

Call:

lm(formula = y ~ x1 + x2 + x3 + x4, data = bank)

Residuals:

    Min      1Q  Median      3Q     Max

-487.35  -78.89   -2.65  137.02  403.78 

Coefficients:

              Estimate Std. Error t value Pr(>|t|)

(Intercept) -4.168e+03  1.193e+03  -3.495 0.002998 **

x1           5.842e-02  1.216e-02   4.805 0.000194 ***

x2           4.142e-01  3.218e-02  12.871 7.41e-10 ***

x3          -1.384e-02  8.520e-03  -1.624 0.123826

x4          -7.062e-01  1.750e-01  -4.035 0.000959 ***

---

Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 217.7 on 16 degrees of freedom

Multiple R-squared:  0.9982,	Adjusted R-squared:  0.9978

F-statistic:  2222 on 4 and 16 DF,  p-value: < 2.2e-16

>

>

回归结果的诊断：

（1）F-statistic

回归方程显著性 F 检验中的F统计量，其P值<2.2e-16<0.05 ，表明Y 与 X₁ , X₂ ,X₃,X₄有显著的线性关系，回归方程整体是显著的。

（2）Coefficients

Estimate 即回归系数的估计值，其对应的 P(>|t|)为各回归系数t检验的P值。

从回归结果看，X3的P值为0.123826>0.05,表明X3对Y没有显著影响，应考虑删除变量X3；其他三个变量的P值都<0.05,对Y 都有显著的影响。

---------以上两个回归检验的结果也表明，自变量整体对于因变量有显著影响，并不表明每个自变量对因变量都有显著影响。

（3）Multiple R-squared ; Adjusted R-squared

分别表示 ‘拟合优度’ ，‘修正的拟合优度’

拟合优度值为 0.9982 很接近于 1 ，表明回归方程对样本观测值的拟合程度较高。

R--线性回归诊断（一）的更多相关文章

R--线性回归诊断（二）
线性回归诊断--R [转载时请注明来源]:http://www.cnblogs.com/runner-ljt/ Ljt 勿忘初心无畏未来作为一个初学者,水平有限,欢迎交流指正. R--线性回 ...
ISLR系列：(1)线性回归 Linear Regression
Linear Regression 此博文是 An Introduction to Statistical Learning with Applications in R 的系列读书笔记,作为本 ...
Python爱好者社区历史文章列表（每周append更新一次）
2月22日更新: 0.Python从零开始系列连载: Python从零开始系列连载(1)——安装环境 Python从零开始系列连载(2)——jupyter的常用操作 Python从零开始系列连载( ...
nmap速查表v1.0（中文版）
基本语法: #nmap [扫描方式] [命令选项] {目标} 扫描目标格式: IPv4 地址: 192.168.1.1IPv6 地址:AABB:CCDD::FF%eth0主机名:www.target. ...
nmap速查表v1.0
基本语法: #nmap [扫描方式] [命令选项] {目标} 扫描目标格式: IPv4 地址: 192.168.1.1IPv6 地址:AABB:CCDD::FF%eth0主机名:www.targe ...
【极值问题】【CF1063B】 Labyrinth
传送门 Description 给你一个\(n~\times~m\)的矩阵,一开始你在第\(r\)行第\(c\)列.你的上下移动不受限制,向左最多移动\(x\)次,向右最多移动\(y\)次.求你最多能 ...
洛谷 P2155 BZOJ 2186 codevs 2301 [SDOI2008]沙拉公主的困惑
题目描述大富翁国因为通货膨胀,以及假钞泛滥,政府决定推出一项新的政策:现有钞票编号范围为1到N的阶乘,但是,政府只发行编号与M!互质的钞票.房地产第一大户沙拉公主决定预测一下大富翁国现在所有真钞票的 ...
树形dp专题总结
树形dp专题总结大力dp的练习与晋升原题均可以在网址上找到技巧总结 1.换根大法 2.状态定义应只考虑考虑影响的关系 3.数据结构与dp的合理结合(T11) 4.抽直径解决求最长链的许多类问题( ...
[原]CentOS7安装Rancher2.1并部署kubernetes (二)---部署kubernetes
################## Rancher v2.1.7 + Kubernetes 1.13.4 ################ ##################### ...

随机推荐

更快实现Android多级树形选择列表
快速实现Android多级树形列表,这个库是在鸿洋多级树形列表demo中修改而来. 解决的问题: 1. 支持ID为int类型和String类型. 2. 支持多级复选框选中,使用只需一行代码. 3. 支 ...
深入Java虚拟机（1）——Java体系结构
Java体系结构 Java体系结构包括四个独立但相关的技术: 1.Java程序设计语言 2.Java class文件格式 3.Java应用编程接口(API) 4.Java虚拟机当编写并运行一个Jav ...
关于在arm裸板编程时使用printf问题的解决方法
在ARM裸板驱动编程中,是不允许程序直接调用C库程序的.为什么呢?因为此时kernel还没有被加载,所以在封装在kernel层的C库的API是用不了的,那怎么办? 在开发过程中,printf的功能我不 ...
剑指Offer——如何做好自我介绍
剑指Offer--如何做好自我介绍前言自我特点+经历梳理各位老师好,我叫某某某,XX人.研究生三年级,就读于某某大学信息科学与工程学院软件工程专业.主要使用的开发语言是Java,熟悉基本数据 ...
Oracle11g R2创建PASSWORD_VERIFY_FUNCTION对应密码复杂度验证函数步骤
Oracle11g R2创建PASSWORD_VERIFY_FUNCTION对应密码复杂度验证函数步骤运行测试环境:数据库服务器Oracle Linux 5.8 + Oracle 11g R2数据库 ...
根据ccid取得账户，更改某段值再创建账户，返回新的ccid
CREATE OR REPLACE PACKAGE cux_cuxaprebate_utl IS * =============================================== * ...
【Unity Shader】2D动态云彩
写在前面赶在年前写一篇文章.之前翻看2015年的SIGGRAPH Course(关于渲染的可以去selfshadow的博客里找到,很全)的时候看到了关于体积云的渲染.这个课程讲述了开发者为游戏< ...
关于Windows下程序执行的说明
估计有很多人首次都是通过Windows(微软的操作系统)来使用计算机的,Windows的设计导致很多人认为所有程序只要双击一下就可以被正确执行了,所以一大堆初学程序设计的童鞋就会遇到些疑问: 为什么双 ...
Java命名和目录接口——JNDI
JNDI即Java命名和目录接口(JavaNaming and Directory Interface),它属于J2EE规范范畴,是J2EE的核心技术之一,提供了一组接口.类和关于命名空间的概念.JD ...
DBoW2应用
图像对应的bag-of-words向量\(v_t\) 假设词典总共有\(W\)个单词,那么每一幅图像能够用一个\(W\)维的向量表示 \((t_1, t_2, t_3, ..., t_W)\)其中 \ ...

R--线性回归诊断（一）

R--线性回归诊断（一）的更多相关文章

随机推荐

热门专题