使用R做回归分析整体上是比较常规的一类数据分析内容,下面我们具体的了解用R语言做回归分析的过程。

首先,我们先构造一个分析的数据集

x<-data.frame(y=c(102,115,124,135,148,156,162,176,183,195),
var1=runif(10,min=1,max=50),
var2=runif(10,min=100,max=200),
var3=c(235,321,412,511,654,745,821,932,1020,1123))

接下来,我们进行简单的一元回归分析,选择y作为因变量,var1作为自变量。

一元线性回归的简单原理:假设有关系y=c+bx+e,其中c+bx 是y随x变化的部分,e是随机误差。可以很容易的用函数lm()求出回归参数b,c并作相应的假设检验。

model<-lm(y~var1,data=x)
summary(model)

Call:

lm(formula = x$y ~ x$var1 + 1)

Residuals:

Min 1Q Median 3Q Max

-47.630 -18.654 -3.089 21.889 52.326

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 168.4453 15.2812 11.023 1.96e-09 ***

x$var1 -0.4947 0.4747 -1.042 0.311

Signif. codes: 0 ‘’ 0.001 ‘’ 0.01 ‘’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 30.98 on 18 degrees of freedom

Multiple R-squared: 0.05692, Adjusted R-squared: 0.004525

F-statistic: 1.086 on 1 and 18 DF, p-value: 0.3111

从回归的结果来看,p值为0.311,变量var1不不显著,正常情况下p值小于0.05则认为有高的显著性水平。

另外,R方位0.05692 距离1太远,说明两者之间不存在相关性。

我们进一步也对,y和var3做线性回归分析

model<-lm(y~var3,data=x)
summary(model)

Call:

lm(formula = y ~ var3, data = x)

Residuals:

Min 1Q Median 3Q Max

-3.0805 -0.9080 0.6566 1.0255 2.1451

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 81.431990 1.399442 58.19 8.45e-12 ***

var3 0.100632 0.001902 52.92 1.80e-11 ***

Signif. codes: 0 ‘’ 0.001 ‘’ 0.01 ‘’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.73 on 8 degrees of freedom

Multiple R-squared: 0.9972, Adjusted R-squared: 0.9968

F-statistic: 2801 on 1 and 8 DF, p-value: 1.802e-11

从结果来看,常数项和var3的显著性水平都非常理想,同事R方达到0.99,整个模型的拟合度很高,可以说明两者间存在强的线性相关。

接下来,我们可以利用这个模型做些预测

pre<-data.frame(var3=c(56,36))
predict(model,pre,interval="prediction",level=0.95) fit lwr upr

1 87.06737 82.07491 92.05983

2 85.05474 80.01387 90.09560

以上是预测结果

接下来,我们进一步了解下多元线性回归,多元线性回归是在y与多个自变量之间建立模型,寻找他们之间的线性关系。

在多元回归分析过程中,由于我们不知道因变量和那几个自变量之间存在线性关系,如果一个一个的检验,整个过程将变得非常繁琐。

好在R中有自动进行逐步回归的函数,我们只要根据函数运行结果,选择合适模型,并检验各项参数就可以了。

接下来,看下具体的步骤,还是以之前的数据集作为分析样本,我们来了解下,如何进行逐步回归分析

model<-lm(y~.,data=x)
summary(model)

Call:

lm(formula = y ~ ., data = x)

Residuals:

Min 1Q Median 3Q Max

-2.6684 -1.0831 0.5114 1.1158 2.3292

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 83.620109 5.047503 16.567 3.08e-06 ***

var1 -0.028906 0.057383 -0.504 0.632

var2 -0.009072 0.027438 -0.331 0.752

var3 0.100484 0.002414 41.621 1.29e-08 ***

Signif. codes: 0 ‘’ 0.001 ‘’ 0.01 ‘’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.936 on 6 degrees of freedom

Multiple R-squared: 0.9973, Adjusted R-squared: 0.996

F-statistic: 745.2 on 3 and 6 DF, p-value: 4.191e-08

这里我们对y与所有自变量进行回归的结果来看,var1和var2的效果不显著,var3的显著性水平较高,说明这个模型并不是最优解。

mstep<-step(model)

Start: AIC=16.11

y ~ var1 + var2 + var3

   Df Sum of Sq    RSS    AIC
  • var2 1 0.4 22.9 14.286
  • var1 1 1.0 23.4 14.520

    22.5 16.105
  • var3 1 6493.5 6516.0 70.794

Step: AIC=14.29

y ~ var1 + var3

   Df Sum of Sq    RSS    AIC
  • var1 1 1.0 23.9 12.727

    22.9 14.286
  • var3 1 8136.6 8159.5 71.044

Step: AIC=12.73

y ~ var3

   Df Sum of Sq    RSS    AIC

23.9 12.727

  • var3 1 8378.5 8402.4 69.337

从结果的AIC现象来看,最后一个只有y和var3进行回归时,AIC值最小,(注:逐步回归过程中,AIC值越小,说明模型的拟合度越好)

依据这个信息我们就可以建立模型model<-lm(y~var3,data=x)

当然,由于数据集的相对比较简单的关系,这里逐步回归的结果比较明显,现实的情况可能更为复杂,需要我们进行进一步的检验以及手动剔除参数等操作。

用R语言 做回归分析的更多相关文章

  1. R语言建立回归分析,并利用VIF查看共线性问题的例子

    R语言建立回归分析,并利用VIF查看共线性问题的例子 使用R对内置longley数据集进行回归分析,如果以GNP.deflator作为因变量y,问这个数据集是否存在多重共线性问题?应该选择哪些变量参与 ...

  2. R语言 逐步回归分析

    逐步回归分析是以AIC信息统计量为准则,通过选择最小的AIC信息统计量,来达到删除或增加变量的目的. R语言中用于逐步回归分析的函数 step()    drop1()     add1() #1.载 ...

  3. [译]用R语言做挖掘数据《四》

    回归 一.实验说明 1. 环境登录 无需密码自动登录,系统用户名shiyanlou,密码shiyanlou 2. 环境介绍 本实验环境采用带桌面的Ubuntu Linux环境,实验中会用到程序: 1. ...

  4. R语言做相关性分析

    衡量随机变量相关性的方法主要有三种:pearson相关系数,spearman相关系数,kendall相关系数: 1.       pearson相关系数,亦即皮尔逊相关系数 pearson相关系数用来 ...

  5. [译]用R语言做挖掘数据《七》

    时间序列与数据挖掘 一.实验说明 1. 环境登录 无需密码自动登录,系统用户名shiyanlou,密码shiyanlou 2. 环境介绍 本实验环境采用带桌面的Ubuntu Linux环境,实验中会用 ...

  6. [译]用R语言做挖掘数据《六》

    异常值检测 一.实验说明 1. 环境登录 无需密码自动登录,系统用户名shiyanlou,密码shiyanlou 2. 环境介绍 本实验环境采用带桌面的Ubuntu Linux环境,实验中会用到程序: ...

  7. [译]用R语言做挖掘数据《五》

    介绍 一.实验说明 1. 环境登录 无需密码自动登录,系统用户名shiyanlou,密码shiyanlou 2. 环境介绍 本实验环境采用带桌面的Ubuntu Linux环境,实验中会用到程序: 1. ...

  8. [译]用R语言做挖掘数据《三》

    决策树和随机森林 一.实验说明 1. 环境登录 无需密码自动登录,系统用户名shiyanlou,密码shiyanlou 2. 环境介绍 本实验环境采用带桌面的Ubuntu Linux环境,实验中会用到 ...

  9. [译]用R语言做挖掘数据《二》

    数据探索 一.实验说明 1. 环境登录 无需密码自动登录,系统用户名shiyanlou,密码shiyanlou 2. 环境介绍 本实验环境采用带桌面的Ubuntu Linux环境,实验中会用到程序: ...

随机推荐

  1. EF 关系描述

    网络上常常看到有ef 1对1 1对多等关系的描述,按照我的理解,其根本就是为了呈现出一个视图,我最近设计了一个ef关系,请大家看一看. 需求描述 在gps车辆信息管理中,有个开户需求,其根本就是三种关 ...

  2. [Java]利用拦截器和自定义注解做登录以及权限验证

    1.自定义注解 需要验证登录的注解 package com.etaofinance.wap.common; import java.lang.annotation.Documented; import ...

  3. AngularJS中数据双向绑定(two-way data-binding)

    1.切换工作目录 git checkout step-4 #切换分支,切换到第4步 npm start #启动项目 2.代码 app/index.html Search: <input ng-m ...

  4. NUnit使用方法

    单元测试是一个成熟项目必不可少的一个环节,NUnit很好的提供了测元测试的一些方法,以下是我得出的一点点经验以及NUnit的一点点实际应用中用到的内容.写的有点儿乱,不懂下面留言.谢谢~ 准备NUni ...

  5. JS实现等比例缩放图片

    JS实现等比例缩放图片 2014-01-19 21:57 by 龙恩0707, 40 阅读, 0 评论, 收藏, 编辑 JS实现等比例缩放图片 有时候我们前端页面只有500×500像素的宽和高的布局, ...

  6. Ajax+Ashx实现以及封装成控件的实现

    asp.net 后台多线程异步处理时的 进度条实现一(Ajax+Ashx实现以及封装成控件的实现) 工作好长时间了,这期间许多功能也写成了不少的控件来使用,但是,都只是为了代码的结构清析一些而已.而这 ...

  7. IceMx.Mvc

    IceMx.Mvc 我的js MVC 框架 开篇 开篇 这篇文章是后补的,前端时间想写一些对于js开发的一些理解,就直接写了,后来发现很唐突,所以今天在这里补一个开篇. 我的js Mvc 框架 基于实 ...

  8. Ubuntu12.04安装配置Theano

    上次写了一个关于DL的开篇内容,本来说是要继续跟进的,后来教研室里面出了一些事情,加上写论文.和隔壁教研室做实验,就一直拖到现在.早就让小K配置环境研究研究Theano,这货和我一样也发拖延症了,理由 ...

  9. ASP.NET Web API的核心对象:HttpController

    ASP.NET Web API的核心对象:HttpController 对于ASP.NET Web API来说,所谓的Web API定义在继承自ApiController的类中,可能ApiContro ...

  10. iOS 开发问题集锦(三)

    iOS 开发问题集锦(三) 介于群里大部分童鞋都是新手,为了大家能够更好的提问,并且提的问题能更好的得到回答,下面写几点提问时的注意事项: 1.认真对待你的问题,在提问题前有过认真的思考: 2.先在 ...