R in action读书笔记（11）-第八章：回归-- 选择“最佳”的回归模型

8.6 选择“最佳”的回归模型

8.6.1 模型比较

用基础安装中的anova()函数可以比较两个嵌套模型的拟合优度。所谓嵌套模型，即它的一

些项完全包含在另一个模型中

用anova()函数比较

> states<-as.data.frame(state.x77[,c("Murder","Population","Illiteracy","Income","Frost")])

> fit1<-lm(Murder~Population+Illiteracy+Income+Frost,data=states)

>fit2<-lm(Murder~Population+Illiteracy,data=states)

> anova(fit2,fit1)

Analysis of Variance Table

Model 1: Murder ~ Population + Illiteracy

Model 2: Murder ~ Population + Illiteracy + Income +Frost

Res.Df RSS Df Sum of Sq F Pr(>F)

1 47289.25

2 45289.17 2 0.078505 0.0061 0.9939

AIC（AkaikeInformation Criterion，赤池信息准则）也可以用来比较模型，它考虑了模型的

统计拟合度以及用来拟合的参数数目。AIC值越小的模型要优先选择，它说明模型用较少的参数

获得了足够的拟合度。

> AIC(fit1,fit2)

df AIC

fit1 6 241.6429

fit2 4 237.6565

8.6.2变量选择

1. 逐步回归stepwise method

逐步回归中，模型会一次添加或者删除一个变量，直到达到某个判停准则为止。向前

逐步回归（forward stepwise）每次添加一个预测变量到模型中，直到添加变量不会使模型有所改

进为止。向后逐步回归（backward stepwise）从模型包含所有预测变量开始，一次删除一个变量

直到会降低模型质量为止。而向前向后逐步回归（stepwise stepwise，通常称作逐步回归

），结合了向前逐步回归和向后逐步回归的方法，变量每次进入一个，但是每一步

中，变量都会被重新评价，对模型没有贡献的变量将会被删除，预测变量可能会被添加、删除好

几次，直到获得最优模型为止。。MASS包中的stepAIC()函数可以实现

逐步回归模型（向前、向后和向前向后），依据的是精确AIC准则。

> library(MASS)

>fit1<-lm(Murder~Population+Illiteracy+Income+Frost,data=states)

>stepAIC(fit1,direction="backward")

Start: AIC=97.75

Murder ~ Population +Illiteracy + Income + Frost

Df Sum of Sq RSS AIC

- Frost 1 0.021 289.19 95.753

- Income 1 0.057 289.22 95.759

<none> 289.17 97.749

- Population 1 39.238 328.41 102.111

- Illiteracy 1 144.264 433.43 115.986

Step: AIC=95.75

Murder ~ Population +Illiteracy + Income

Df Sum of Sq RSS AIC

- Income 1 0.057 289.25 93.763

<none> 289.19 95.753

- Population 1 43.658332.85 100.783

- Illiteracy 1 236.196 525.38 123.605

Step: AIC=93.76

Murder ~ Population +Illiteracy

Df Sum of Sq RSS AIC

<none> 289.25 93.763

- Population 1 48.517 337.76 99.516

- Illiteracy 1 299.646588.89 127.311

Call:

lm(formula = Murder ~Population + Illiteracy, data = states)

Coefficients:

(Intercept) Population Illiteracy

1.6515497 0.0002242 4.0807366

2. 全子集回归

全子集回归可用leaps包中的regsubsets()函数实现。你能通过R平方、调整R平方或

Mallows Cp统计量等准则来选择“最佳”模型

> library("leaps", lib.loc="d:/ProgramFiles/R/R-3.1.3/library")

>leaps<-regsubsets(Murder~Population+Illiteracy+Income+Frost,data=states,nbest=4)

> plot(leaps,scal="adjr2")

> library(car)

> subsets(leaps,statistic="cp",main="cpplot for all subsets regression")

> abline(1,1,lty=2,col="red")

8.7 深层次分析

8.7.1 交叉验证

所谓交叉验证，即将一定比例的数据挑选出来作为训练样本，另外的样本作保留样本，先在

训练样本上获取回归方程，然后在保留样本上做预测。由于保留样本不涉及模型参数的选择，该

样本可获得比新数据更为精确的估计。在k 重交叉验证中，样本被分为k个子样本，轮流将k1个子样本组合作为训练集，另外1个子样本作为保留集。这样会获得k 个预测方程，记录k 个保留样本的预测表现结果，然后求其平均值。[当n 是观测总数目，k 为n 时，该方法又称作刀切法（jackknifing）]bootstrap 包中的crossval() 函数可以实现k 重交叉验证。

fit<-lm(mpg~hp+wt+hp:wt,data=mtcars)

shrinkage<-function(fit,k=10){

require(bootstrap)

theta.fit<-function(x,y){lsfit(x,y)}

theta.predict<-function(fit,x){cbind(1,x)%*%fit$coef}

x<-fit$model[,2:ncol(fit$model)]

y<-fit$model[,1]

results<-crossval(x,y,theta.fit,theta.predict,ngroup=k)

r2<-cor(y,fit$fitted.values)^2

r2cv<-cor(y,results$cv.fit)^2

cat("original r-square=",r2,"\n")

cat(k,"fold cross-validated r-square =",r2cv,"\n")

cat("change=",r2-r2cv),"\n")

}

R in action读书笔记（11）-第八章：回归-- 选择“最佳”的回归模型的更多相关文章

R in action读书笔记（14）第十一章中级绘图之一：散点图（高能预警）
第十一章中级绘图本章内容: 二元变量和多元变量关系的可视化绘制散点图和折线图理解相关图学习马赛克图和关联图本章用到的函数有: plot hexbin ablines iplot scatte ...
R in action读书笔记（10）-第八章：回归-- 异常观测值改进措施
8.4 异常观测值 8.4.1 离群点 car包也提供了一种离群点的统计检验方法.outlierTest()函数可以求得最大标准化残差绝对值Bonferroni调整后的p值: > library ...
R in action读书笔记（9）-第八章：回归 -回归诊断
8.3回归诊断 > fit<-lm(weight~height,data=women) > par(mfrow=c(2,2)) > plot(fit) 为理解这些图形,我们来回 ...
R in action读书笔记（8）-第八章：回归（上）
8.1回归的多面性 8.2 OLS回归 OLS回归拟合模型形式: 为了能够恰当地解释oLs模型的系数,数据必须满足以下统计假设. 口正态性对于固定的自变量值,因变量值成正态分布. 口独立性Yi值之间相 ...
R in action读书笔记（20）第十五章处理缺失数据的高级方法
处理缺失数据的高级方法 15.1 处理缺失值的步骤一个完整的处理方法通常包含以下几个步骤: (1) 识别缺失数据: (2) 检查导致数据缺失的原因: (3) 删除包含缺失值的实例或用合理的数值代替( ...
R in action读书笔记（19）第十四章主成分和因子分析
第十四章:主成分和因子分析本章内容主成分分析探索性因子分析其他潜变量模型主成分分析(PCA)是一种数据降维技巧,它能将大量相关变量转化为一组很少的不相关变量,这些无关变量称为主成分.探索性因 ...
R in action读书笔记（12）第九章方差分析
第九章方差分析 9.2 ANOVA 模型拟合 9.2.1 aov()函数 aov(formula, data = NULL, projections =FALSE, qr = TRUE, contra ...
R in action读书笔记（5）-第七章：基本统计分析
7.1描述性统计分析 > vars<-c("mpg","hp","wt") > head(mtcars[vars]) ...
R in action读书笔记（22）第十六章高级图形进阶（下）
16.2.4 图形参数在lattice图形中,lattice函数默认的图形参数包含在一个很大的列表对象中,你可通过trellis.par.get()函数来获取,并用trellis.par.set() ...

随机推荐

github的提交源码到服务器
github是现代的代码库,各种牛人,各种开源,也是现在大公司招聘的一个考察点, 这里介绍一下怎样把本地源码提交到github上. 首先我们需要在github上创建一个respository. 2,输 ...
大话设计模式C++实现-第14章-观察者模式
一.UML图关键词:Subject维护一个Observer列表.Subject运行Notify()时就运行列表中的每一个Observer的Update(). 二.概念观察者模式:定义了一种一对多的 ...
加载之ready和onload
页面加载完成有两种事件,一是ready,表示文档结构已经加载完成(不包含图片等非文字媒体文件),二是onload,指示页面包含图片等文件在内的所有元素都加载完成. 真不知道这个标题该怎么取,暂时就先凑 ...
javaScript查找HTML元素
1.通过id查找例:查找id="intro"元素 var x=document.getElementById("intro"); 2.通过标签名查找例:查找 ...
BZOJ2283: [Sdoi2011]火星移民
Description 在2xyz年,人类已经移民到了火星上.由于工业的需要,人们开始在火星上采矿.火星的矿区是一个边长为N的正六边形,为了方便规划,整个矿区被分为6*N*N个正三角形的区域(如图1) ...
Outlook 2007 发送邮件
4 登入以投票 Hi, http://social.msdn.microsoft.com/Forums/zh-TW/6c063b27-7e8a-4963-ad5f-ce7e5ffb2c64/how-t ...
Java-Runoob-高级教程-实例-字符串：12. Java 实例 - 字符串优化
ylbtech-Java-Runoob-高级教程-实例-字符串:12. Java 实例 - 字符串优化 1.返回顶部 1. Java 实例 - 字符串优化 Java 实例以下实例演示了通过 Str ...
js函数定义参数只要写名称就可以了
js函数定义参数只要写名称就可以了以下为标准: function add(type) { } 不要写成下面这个样子 function add(var type) { } 哎妹的老何ja ...
使用oracle的保留字作为字段名称并进行操作的方法
项目中调取业主的数据库时发现,其中一个表的一个字段名为:update,所以当我用数据库查询语句进行查询的时候总会出错.从网上查询之后发现原来很简单,只要把update加上双引号就好了,例如: sele ...
bzoj 2005: [Noi2010]能量采集【莫比乌斯反演】
注意到k=gcd(x,y)-1,所以答案是 \[ 2*(\sum_{i=1}^{n}\sum_{i=1}^{m}gcd(i,j))-n*m \] 去掉前面的乘和后面的减,用莫比乌斯反演来推,设n< ...

R in action读书笔记（11）-第八章：回归-- 选择“最佳”的回归模型

R in action读书笔记（11）-第八章：回归-- 选择“最佳”的回归模型的更多相关文章

随机推荐

热门专题