数据描述

非学位职业培训机构的178个学员的数据，目的是了解什么样的学员可能获得更好的学习效果

数据预处理

打开数据，查看一部分数据并锁定数据（这样之后可以直接使用变量名而不用$来指定数据）

grades=read.table('E:/SWlearning/R/assighment/RegressionAnalysis/Report/ins1.csv',

	    header=TRUE,sep=',')

head(grades)

attach(grades)

*结果显示*
![](https://img2018.cnblogs.com/blog/1735913/201907/1735913-20190708012514121-2111444166.jpg)

*将变量名改成英文*
```
names(grades)=c('aveGrades','gender','birth','firmType','eduBG','eduGrd')

<br/>

响应变量（因变量）：因变量.平均成绩（aveGrades）

自变量：性别(gender)，出生日期(birth)，企业性质(firmType)，最高学历(eduBG)，最高学历毕业时间(eduGrd)

<br/>

*检查相应变量的正态性*

shapiro.test(aveGrades)

<br/>

*结果显示*

    Shapiro-Wilk normality test

data: aveGrades

W = 0.89736, p-value = 9.286e-10

<br/>

p值非常的小故拒绝原假设，即拒绝数据是正态分布的原假设

<br/>

*接下来用BoxCox的方法，建立新的相应变量从而保证其正态性，注意BoxCox.ar是包TSA里的函数*

library(TSA)

boxcox=BoxCox.ar(aveGrades,lambda = seq(4, 8, 0.1))

![](https://img2018.cnblogs.com/blog/1735913/201907/1735913-20190708001102266-825029461.png)

<br/>

*查看最优的lamda值*

boxcox$mle

![](https://img2018.cnblogs.com/blog/1735913/201907/1735913-20190708001643889-1008648487.png)

<br/>

*建立新的响应变量*

aveGrades_mod=grades$aveGrades^6.6

<br/>

*检验新的响应变量的正态性*

shapiro.test(aveGrades_mod)

<br/>

*结果显示*

    Shapiro-Wilk normality test

data: aveGrades_mod

W = 0.99007, p-value = 0.2522

<br/>

p值达到了我们期望的结果，不拒绝原假设，即接受新的响应变量是正态分布的假设

<br/>

#描述性统计分析

<br/>

*注意我们的因变量中，出生日期(birth)和最高学历毕业时间(eduGrd)不是离散变量，我们将以十年的单位将这两个变量分类

出生日期(birth)中最大是 1952-6-26，最小是 1979-11-10，分成五十年代(1），六十年代(2)， 七十年代(3)

最高学历毕业时间(eduGrd)中最大是 1982-1-1，最小是 2004-3-1，分为八十年代(1)，九十年代(2)， 零零后(3)*

<br/>

*第一步

将出生日期(birth)和最高学历毕业时间(eduGrd)变成日期型变量以便之后的操作*

birthmod=as.Date(grades$birth)

eduGrdmod=as.Date(grades$eduGrd)

<br/>

*第二步

我们先对出生年月进行分类*

//d1~d4分别是四个时间节点，用来将数据分成五十年代(1），六十年代(2)，七十年代(3)

d1=as.Date('1950/1/1')

d2=as.Date('1960/1/1')

d3=as.Date('1970/1/1')

d4=as.Date('1980/1/1')

//计算出生日期(birthmod)中的数据个数

s=0

for(i in birthmod){

s=s+1

}

//建立新的数值型变量。因为birthmod是日期型变量，不能直接赋数值型的值如1，2，3

birth_mod=1:s

//开始分类

for(i in 1:s){

fac1=birthmod[i]-d1>0 & birthmod[i]-d2<=0

fac2=birthmod[i]-d2>0 & birthmod[i]-d3<=0

fac3=birthmod[i]-d3>0 & birthmod[i]-d4<=0

if(fac1){birth_mod[i]=1}

if(fac2){birth_mod[i]=2}

if(fac3){birth_mod[i]=3}

}

//给新变量birth_mod三个水平1,2,3

levels(birth_mod)=c(1,2,3)

//将数据类型变成factor，以便之后的统计

birth_mod=as.factor(birth_mod)

<br/>

*对最高学历毕业时间是同样的程序*

d5=as.Date('1990/1/1')

d6=as.Date('2000/1/1')

d7=as.Date('2010/1/1')

s=0

for(i in eduGrdmod){

s=s+1

}

eduGrd_mod=1:s

for(i in 1:s){

fac3=eduGrdmod[i]-d4>0 & eduGrdmod[i]-d5<=0;fac3

fac4=eduGrdmod[i]-d5>0 & eduGrdmod[i]-d6<=0;fac4

fac5=eduGrdmod[i]-d6>0 & eduGrdmod[i]-d7<=0;fac5

if(fac3){eduGrd_mod[i]=1}

if(fac4){eduGrd_mod[i]=2}

if(fac5){eduGrd_mod[i]=3}

}

levels(eduGrd_mod)=c(1,2,3)

eduGrd_mod=as.factor(eduGrd_mod)

<br/>

*第三步

建立新的数据集grades_mod，注意此处的响应变量（aveGrades）没有用之前为了正态性修改的新的响应变量（aveGrades_mod），这里用aveGrades是为了结果好看，且不影响我们进行描述性统计分析*

grades_mod=cbind(grades$aveGrades,grades[2],birth_mod,grades[4:5],eduGrd_mod)

summary(grades_mod)

*结果显示*

grades$aveGrades gender birth_mod firmType eduBG eduGrd_mod

Min. :50.00 男:133 1:10 国企:95 本科 :148 1: 48

1st Qu.:77.00 女: 45 2:85 民企:43 大专 : 25 2:104

Median :81.00 3:83 外企:40 硕士 : 2 3: 26

Mean :79.72 硕士或以上: 3

3rd Qu.:84.00

Max. :91.00

<br/>

*第四步

我们还想知道，各个因变量不同水平对应的学员平均成绩*

//编写一个输出均值，标准差，最大值，中位数，最小值的函数

stats = function(x){

m = mean(x)

sd= sd(x)

max = max(x)

median = median(x)

min= min(x)

return=c(m,sd,max,median,min)

}

//aggregate是一个重新显示数据的函数，比如在aggdata1中，能显示按性别分类后，男性学员和女性学员对应的平均成绩的均值，标准差，最大值，中位数，最小值，FUN是function函数的意思

aggdata1= aggregate(grades['aveGrades'],

by=list(gender),FUN=stats);aggdata1

aggdata2= aggregate(grades['aveGrades'],

by=list(birth_mod),FUN=stats)

aggdata3= aggregate(grades['aveGrades'],

by=list(firmType),FUN=stats)

aggdata4= aggregate(grades['aveGrades'],

by=list(eduBG),FUN=stats);aggdata

aggdata5= aggregate(grades['aveGrades'],

by=list(eduGrd_mod),FUN=stats)

//按行将数据重叠起来

aggdata=rbind(aggdata1,aggdata2,aggdata3,aggdata4,aggdata5);aggdata

<br/>

*结果显示*

![](https://img2018.cnblogs.com/blog/1735913/201907/1735913-20190708011343463-1771958398.jpg)

<br/>

#模型分析

*接下来我们将进行方差分析*

*第一步*

//进行方差分析的函数是aov，_{前面是响应变量，注意此时我们得保证响应变量的正态性，所以用的是新的响应变量（aveGrades_mod）而非原始数据，}后面是自变量，在此模型中还包括了所有的交互项

res.ano1=aov(aveGrades_mod~gender+birth_mod+firmType+eduBG+eduGrd_mod+

gender:birth_mod+gender:firmType+gender:eduBG+gender:eduGrd_mod+

birth_mod:firmType+birth_mod:eduBG+birth_mod:eduGrd_mod+

firmType:eduBG+firmType:eduGrd_mod+

eduBG:eduGrd_mod)

//显示方差分析结果

res1=summary(res.ano1);res1

<br/>

*结果显示*

![](https://img2018.cnblogs.com/blog/1735913/201907/1735913-20190708011207541-1321247253.jpg)

<br/>

*第二步

剔除没通过显著性检验的变量， 用剩下的变量再做一次方差分析*

res.ano2=aov(aveGrades_mod~gender+birth_mod+eduBG+

gender:firmType+gender:eduGrd_mod+

birth_mod:firmType+

firmType:eduBG)

res2=summary(res.ano2);res2

<br/>

*结果显示*

![](https://img2018.cnblogs.com/blog/1735913/201907/1735913-20190708011600024-39296887.jpg)

<br/>

*第三步

剔除没通过显著性检验的变量， 用剩下的变量再做一次方差分析*

res.ano3=aov(aveGrades_mod~gender+birth_mod+eduBG+

gender:eduGrd_mod+

birth_mod:firmType)

res3=summary(res.ano3);res3

<br/>

*结果显示*

![](https://img2018.cnblogs.com/blog/1735913/201907/1735913-20190708011718650-636663783.jpg)

<br/>

性别(gender)，出生日期(birth_mod)，最高学历(eduBG)以及交互作用， 性别:最高学历毕业日期(gender:eduGrd_mod)，出生日期:企业性质(birth_mod:firmType)都通过了在 0.1 水平下的显著性检验

拒绝原假设，即变量的水平不同会显著影响成绩，如性别中，男生和女生的成绩显著不同，而企业性质的不同不影响学员的成绩

初次用R的实际案例数据分析的更多相关文章

用 R 进行高频金融数据分析简介
作者:李洪成摘自:http://cos.name/wp-content/uploads/2013/11/ChinaR2013SH_Nov03_04_LiHongcheng.pdf 高频数据金融市场 ...
R vs Python，数据分析中谁与争锋？
R和Python两者谁更适合数据分析领域?在某些特定情况下谁会更有优势?还是一个天生在各方面都比另一个更好? 当我们想要选择一种编程语言进行数据分析时,相信大多数人都会想到R和Python——但是从这 ...
R语言-上海二手房数据分析
案例:通过分析上海的二手房的数据,分析出性价比(地段,价格,未来的升值空间)来判断哪个区位的二手房性价比最高 1.载入包 library(ggplot2) library(Hmisc) library ...
分类算法的R语言实现案例
最近在读<R语言与网站分析>,书中对分类.聚类算法的讲解通俗易懂,和数据挖掘理论一起看的话,有很好的参照效果. 然而,这么好的讲解,作者居然没提供对应的数据集.手痒之余,我自己动手整理了一 ...
R中的空间数据分析
> library(sp) > library(maptools) > library(raster) > library(rgeos) > maxd3 = readAs ...
92、R语言分析案例
1.读取数据 > bank=read.table("bank-full.csv",header=TRUE,sep=";") > 2.查看数据结构 & ...
【R】爬虫案例
爬取豆瓣相册 library(RCurl) library(XML) myHttpheader <- c("User-Agent"="Mozilla/5.0 (Wi ...
【翻译】Awesome R资源大全中文版来了，全球最火的R工具包一网打尽，超过300+工具，还在等什么？
0.前言虽然很早就知道R被微软收购,也很早知道R在统计分析处理方面很强大,开始一直没有行动过...直到直到12月初在微软技术大会,看到我软的工程师演示R的使用,我就震惊了,然后最近在网上到处了解和 ...
R统计分析处理
[翻译]Awesome R资源大全中文版来了,全球最火的R工具包一网打尽,超过300+工具,还在等什么? 阅读目录 0.前言 1.集成开发环境 2.语法 3.数据操作 4.图形显示 5.HTML部件 ...

随机推荐

使用Debug Diagnostic Tool排除内存泄漏故障
在我之前的博文中(SQL Server内存泄漏),我解释了如何使用“!heap”命令识别哪个模块泄漏了内存.有时我们使用“!d”命令来找到模型或者使用搜索内存命令(s)不能通过显示内存找到原因. 在这 ...
fgets实现
char *fgets(char *s, int n, FILE *stream) { register int c; register char *cs; cs = s; while(--n > ...
北京地铁出行线路规划系统项目总结(Java+Flask+Vue实现)
北京地铁出行线路规划系统项目总结 GitHub仓库地址:https://github.com/KeadinZhou/SE-Subway Demo地址:http://10.66.2.161:8080/ ...
JS格式化JSON串显示在表格中
JS代码如下,这里用了jq的语法: <script type="text/javascript"> $(function(){ var text = $("# ...
mysql_innodb存储引擎的优化
采用innodb作为存储引擎时的优化 innodb_buffer_pool_size 如果用 Innodb,那么这是一个重要变量.相对于 MyISAM 来说,Innodb对于 buffer size ...
echarts-中的事件-- demo1.on('事件类型', function (params) {}
ECharts 支持常规的鼠标事件类型,包括 'click'.'dblclick'.'mousedown'.'mousemove'. 'mouseup'.'mouseover'.'mouseout'. ...
Linux命令——trap
简介 trap是shell内置命令,它对硬件信号和其他事件做出响应.trap定义并激活信号处理过程,信号处理过程是当shell接收信号或其他特殊条件时要运行的处理过程. 语法 trap [-lp] [ ...
精通awk系列
安装新版本gawk awk有很多种版本,例如nawk.gawk.gawk是GNU awk,它的功能很丰富. 本教程采用的是gawk 4.2.0版本,4.2.0版本的gawk是一个比较大的改版,新支持的 ...
Linux系统下root密码遗忘等系统故障的修复方法 - 运维总结
IDC机房有一台centos系统的服务器,由于这台服务器的系统装了好长时间,且root密码中间更新过几次,后面去机房现场维护时,登陆密码遗忘了,悲催啊~没办法,只能开机进入“单用户模式”进行密码重置了 ...
浙大&川大提出脉冲版ResNet：继承ResNet优势，实现当前最佳
浙大&川大提出脉冲版ResNet:继承ResNet优势,实现当前最佳选自arXiv,作者:Yangfan Hu等,机器之心编译. 脉冲神经网络(SNN)具有生物学上的合理性,并且其计算潜能和 ...

初次用R的实际案例数据分析

这是一次教授布置的期末作业，也是书籍《商务数据分析与应用》的一个课后作业

数据描述

数据预处理

初次用R的实际案例数据分析的更多相关文章

随机推荐

热门专题