R与数据分析旧笔记(八)多重共线性
多重共线性(线性代数叫线性相关)
多重共线性(线性代数叫线性相关)
1.什么是多重共线性
2.多重共线性对回归模型的影响
3.利用计算特征根发现多重共线性
4.Kappa()函数
例题1
考虑一个有六个回归自变量的线性回归问题,原始数据列在下表中,这里共有12组数据,除第一组外,自变量的其余11组数据满足线性关系
试用求矩阵条件数的方法,分析出自变量间存在多重共线性。
| 序号 | |||||||
|---|---|---|---|---|---|---|---|
| 1 | 10.006 | 8.000 | 1.000 | 1.000 | 1.000 | 0.541 | -0.099 |
| 2 | 9.737 | 8.000 | 1.000 | 1.000 | 0.000 | 0.130 | 0.070 |
| 3 | 15.087 | 8.000 | 1.000 | 1.000 | 0.000 | 2.116 | 0.115 |
| 4 | 8.422 | 0.000 | 0.000 | 9.000 | 1.000 | -2.397 | 0.252 |
| 5 | 8.625 | 0.000 | 0.000 | 9.000 | 1.000 | -0.046 | 0.017 |
| 6 | 16.289 | 0.000 | 0.000 | 9.000 | 1.000 | 0.365 | 1.504 |
| 7 | 5.958 | 2.000 | 7.000 | 0.000 | 1.000 | 1.996 | -0.865 |
| 8 | 9.313 | 2.000 | 7.000 | 0.000 | 1.000 | 0.228 | -0.055 |
| 9 | 12.960 | 2.000 | 7.000 | 0.000 | 1.000 | 1.380 | 0.502 |
| 10 | 5.541 | 0.000 | 0.000 | 0.000 | 10.000 | 0.257 | 0.101 |
| 11 | 8.756 | 0.000 | 0.000 | 0.000 | 10.000 | 0.257 | 0.101 |
| 12 | 10.937 | 0.000 | 0.000 | 0.000 | 10.000 | 0.440 | 0.432 |
解:用数据框方法输入数据,由自变量中心化和标准化得到的矩阵
本质上就由这些自变量生成的相关矩阵,再用
kappa()函数求出矩阵的条件数,用
eigen()函数求出矩阵的最小特征值和相应的特征向量,求解问题的R程序如下(程序名:exam0618.R)
> collinear<-data.frame(
+ Y=c(10.006, 9.737, 15.087, 8.422, 8.625, 16.289,
+ 5.958, 9.313, 12.960, 5.541, 8.756, 10.937),
+ X1=rep(c(8, 0, 2, 0), c(3, 3, 3, 3)),
+ X2=rep(c(1, 0, 7, 0), c(3, 3, 3, 3)),
+ X3=rep(c(1, 9, 0), c(3, 3, 6)),
+ X4=rep(c(1, 0, 1, 10), c(1, 2, 6, 3)),
+ X5=c(0.541, 0.130, 2.116, -2.397, -0.046, 0.365,
+ 1.996, 0.228, 1.38, -0.798, 0.257, 0.440),
+ X6=c(-0.099, 0.070, 0.115, 0.252, 0.017, 1.504,
+ -0.865, -0.055, 0.502, -0.399, 0.101, 0.432)
+ )
> XX<-cor(collinear[2:7])
> kappa(XX,exact=T)
[1] 2195.908
得到,条件数是,认为有严重的多重共线性。
进一步,找出哪些变量是多重共线性的。计算矩阵的特征值和相应的特征向量
> eigen(XX)
$values
[1] 2.428787365 1.546152096 0.922077664 0.793984690 0.307892134 0.001106051
$vectors
[,1] [,2] [,3] [,4] [,5] [,6]
[1,] -0.3907189 0.33968212 0.67980398 -0.07990398 0.2510370 -0.447679719
[2,] -0.4556030 0.05392140 -0.70012501 -0.05768633 0.3444655 -0.421140280
[3,] 0.4826405 0.45332584 -0.16077736 -0.19102517 -0.4536372 -0.541689124
[4,] 0.1876590 -0.73546592 0.13587323 0.27645223 -0.0152087 -0.573371872
[5,] -0.4977330 0.09713874 -0.03185053 0.56356440 -0.6512834 -0.006052127
[6,] 0.3519499 0.35476494 -0.04864335 0.74817535 0.4337463 -0.002166594
得到
即
由于前的系数近似为0,因此,有
所以存在着使得
这说明变量存在多重共线性,与题目中给的变量是相同的。
注意:kappa()函数也可以求线性模型的条件数,但实际上是计算由计算自变量构成矩阵的条件数,即
kappa(lm.model)=
R与数据分析旧笔记(八)多重共线性的更多相关文章
- R与数据分析旧笔记(十八完结) 因子分析
因子分析 因子分析 降维的一种方法,是主成分分析的推广和发展 是用于分析隐藏在表面现象背后的因子作用的统计模型.试图用最少的个数的不可测的公共因子的线性函数与特殊因子之和来描述原来观测的每一分量 因子 ...
- R与数据分析旧笔记(⑦)回归诊断
回归诊断 回归诊断 1.样本是否符合正态分布假设? 2.是否存在离群值导致模型发生较大误差? 3.线性模型是否合理? 4.误差是否满足独立性.等方差.正态分布等假设条件? 5.是否存在多重共线性 正态 ...
- R与数据分析旧笔记(五)数学分析基本
R语言的各种分布函数 rnorm(n,mean=0,sd=1)#高斯(正态) rexp(n,rate=1)#指数 rgamma(n,shape,scale=1)#γ分布 rpois(n,lambda) ...
- R与数据分析旧笔记(三)不知道取什么题目
连线图 > a=c(2,3,4,5,6) > b=c(4,7,8,9,12) > plot(a,b,type="l") 多条曲线效果 plot(rain$Toky ...
- R与数据分析旧笔记(一)基本数学函数的使用
创建向量矩阵 > x1=c(2,3,6,8) > x2=c(1,2,3,4) > a1=(1:100) > length(a1) [1] 100 > length(x1) ...
- R与数据分析旧笔记(十七) 主成分分析
主成分分析 主成分分析 Pearson于1901年提出的,再由Hotelling(1933)加以发展的一种多变量统计方法 通过析取主成分显出最大的个别差异,也用来削减回归分析和聚类分析中变量的数目 可 ...
- R与数据分析旧笔记(十六) 基于密度的方法:DBSCAN
基于密度的方法:DBSCAN 基于密度的方法:DBSCAN DBSCAN=Density-Based Spatial Clustering of Applications with Noise 本算法 ...
- R与数据分析旧笔记(十五) 基于有代表性的点的技术:K中心聚类法
基于有代表性的点的技术:K中心聚类法 基于有代表性的点的技术:K中心聚类法 算法步骤 随机选择k个点作为"中心点" 计算剩余的点到这个k中心点的距离,每个点被分配到最近的中心点组成 ...
- R与数据分析旧笔记(十三) 聚类初步
聚类 聚类 关键度量指标:距离 常用距离 绝对值距离 绝对值距离也称为"棋盘距离"或"城市街区距离". 欧氏(Euclide)距离 闵可夫斯基(Minkowsk ...
随机推荐
- linux下创建用户并且限定用户主目录
Linux 系统是一个多用户多任务的分时操作系统,任何一个要使用系统资源的用户,都必须首先向系统管理员申请一个账号,然后以这个账号的身份进入系统.用户的账号 一方面可以帮助系统管理员对使用系统的用户进 ...
- JavaScript 工作必知(九)function 说起 闭包问题
大纲 Function Caller 返回函数调用者 Callee 调用自身 作用域 闭包 function 函数格式 function getPrototyNames(o,/*optional*/ ...
- React系列(一):React入门
React简介 1.由来 React是有Facebook开发出来用于构建前端界面的JS组件库,由于其背后的强大背景,使得这款库在技术开发上完全没有问题. 2.React的优势 解决大规模项目开发中数据 ...
- html系列教程--embed fieldset legend figure figurecaption
<embed> 标签:定义嵌入的内容 <embed src="" type="" /> embed属性: 1.src:嵌入内容地址 2. ...
- 内存管理——Cocos2d-x学习历程(五)
Cocos2d-x采用了引用计数与自动回收的内存管理机制. 1.每个对象包含一个用来控制生命周期的引用计数器,它就是CCObject的成员变量m_u- Reference.我们可以通过retainCo ...
- (转载)JS中的prototype
原文地址:http://www.cnblogs.com/yjf512/archive/2011/06/03/2071914.html#!comments JS中的phototype是JS中比较难理解的 ...
- HTTP协议中的1xx,2xx,3xx,4xx,5xx状态码分别表示什么,列举常见错误码及含义
转自:http://m.blog.csdn.net/blog/u013857407/21741847 HTTP协议状态码,是指在HTTP协议运作中由客户端发出请求连接,服务端建立连接,客户端发出HTT ...
- CPU核心数
Process.ProcessorAffinity 属性: public IntPtr ProcessorAffinity { get; set; }属性值:位掩码,表示关联进程内的线程可以在其上运行 ...
- Others in life
耗电量主要是与电机有关,800W电机在48V下的工作电流大约是800/48=16.7A,因此其工作时间主要取决于电池的容量,如果电池容量是20Ah,那么大概也就连续工作1个小时左右,也就是30-40k ...
- oracle正则表达式regexp_like的用法详解
oracle正则表达式regexp_like的用法详解 /*ORACLE中的支持正则表达式的函数主要有下面四个:1,REGEXP_LIKE :与LIKE的功能相似2,REGEXP_INSTR :与IN ...