R语言数据分析系列六

—— by comaple.zhang

上一节讲了R语言作图，本节来讲讲当你拿到一个数据集的时候怎样下手分析，数据分析的第一步。探索性数据分析。

统计量，即统计学里面关注的数据集的几个指标。经常使用的例如以下：最小值，最大值，四分位数，均值，中位数，众数，方差，标准差。极差，偏度，峰度

先来解释一下各个量得含义，浅显就不说了，这里主要说一下不常见的

众数：出现次数最多的

方差：每一个样本值与均值的差得平方和的平均数

标准差：又称均方差，是方差的二次方根。用来衡量一个数据集的集中性

极差：最大值与最小值仅仅差

偏度：相对于正态分布而言假设波峰出如今左边，就表明长尾出如今右边。成为右偏态（正偏态）偏度值>0，分布反之为左偏太（负偏态）偏度值<0

峰度：也是相对于正太分布的。正态分布的峰度为3。假设峰度>3图形越胖，越矮。称为厚尾。峰度<3 图形越瘦，越高，称为瘦尾

本节数据集：

我们採用MASS包的Insurance数据集，该数据集为某保险公司的车险数据。

"District" "Group" "Age" "Holders" "Claims"

按列一次表示：家庭住址区域。投保汽车排量，投保人年龄，投保人数量，要求索赔的数量

安装包与载入数据集：

install.pacakges('MASS') # 安装包

library(MASS) #载入包

data(Insurance) # 载入数据集

ins <- Insurance #拷贝一份数据

探索行数据分析

R包自带的函数summary能够给出数据的概括：

summary(ins)

District Group Age Holders Claims

1:16 <1l :16 <25 :16 Min. : 3.00 Min. : 0.00

2:16 1-1.5l:16 25-29:16 1st Qu.: 46.75 1st Qu.: 9.50

3:16 1.5-2l:16 30-35:16 Median : 136.00 Median : 22.00

4:16 >2l :16 >35 :16 Mean : 364.98 Mean : 49.23

3rd Qu.:327.50 3rd Qu.: 55.50

Max. :3582.00 Max. :400.00

我们发现对于因子类型向量该方法给出了频度分布，对于连续型变量该方法给出了,最小值。第一四分位数。中位数，均值，第三四分位数，最大值

从结果中我们能够看到Holders列的数据中位数明显远小于均值，这说明这个数据集是个偏数据集，总体数据集中在3——327.5之间。我们能够通过点图来继续查看：

plot(ins$Holders)

点图看的可能不是非常直观，我们期望直观的看到数据的变化，能够通过直方图来展示：

col <- c(brewer.pal(9,'YlOrRd')[1:9])

h<-hist(ins$Holders,breaks=12,col=col)

xfit <-seq(min(ins$Holders),max(ins$Holders),length=40)

yfit <-dnorm(xfit,mean=mean(ins$Holders),sd=sd(ins$Holders))

yfit <- yfit*diff(h$mids[1:2]) *length(ins$Holders)

lines(xfit,yfit,col='red',lwd=2)

方差与标准差

来计算Holders列的方差和标准差：

var(ins$Holders)

sd(ins$Holders)

事实上单变量的方差和标准差是没有太大意义的。对照才干够看出数据集的异同。

假设我们要分析用户依照年龄分组后的统计值该怎样计算呢。aggregate函数为我们提供了非常好的方法例如以下：

agg<-aggregate(ins[4:5],by=list(age=ins$Age),sd)

pie(agg$Claims,labels=agg$age)

agg

age Holders Claims

1 <25 80.41797 16.55181

2 25-29 141.11414 22.63184

3 30-35 177.34353 24.23694

4 >35 941.66603 103.52228

相当于依照age列 group by 后的分组统计量。

watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvY29tYXBsZQ==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center" alt="">

偏度和峰度：

为了计算偏度和峰度我们能够自己实现函数stat例如以下：

stat <- function(x,na.omit=F){

 if(na.omit)  x <- x[!is.na(x)]

  m<- mean(x)

  n<- length(x)

  s<- sd(x)

 skew <- sum((x-m)^3/s^3)/n

 kurt <- sum((x-m)^4/s^4)/n - 3

 return(c(n=round(n),mean=m,stdev=s,skew=skew,kurtosis=kurt))

}

sapply(ins[4:5],stat)

Holders Claims

n 64.000000 64.000000

mean 364.984375 49.234375

stdev 622.770601 71.162399

skew 3.127833 2.877292

kurtosis 10.999610 9.377258

我们能够看到，Holders和Claims的偏度都是大于零的，那么就是说明，这两个变量都是正偏态分布也就是说数据偏向左边，而峰度值都非常高。那么说明这两个变量都存在离群点。

同样，我们可以使用的开箱图观察，本节已经介绍，这里不再赘述。

R语言数据分析系列六的更多相关文章

R语言数据分析系列之四
R语言数据分析系列之四 -- by comaple.zhang 说到统计分析我们就离不开随机变量,所谓随机变量就是数学家们为了更好的拟合现实世界的数据而建立的数学模型.有了她我们甚至能够来预測一个站点 ...
R语言数据分析系列之五
R语言数据分析系列之五 -- by comaple.zhang 本节来讨论一下R语言的基本图形展示,先来看一张效果图吧. watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi ...
R语言数据分析利器data.table包—数据框结构处理精讲
R语言数据分析利器data.table包-数据框结构处理精讲 R语言data.table包是自带包data.frame的升级版,用于数据框格式数据的处理,最大的特点快.包括两个方面,一方面是写的快,代 ...
R学习:《R语言数据分析与挖掘实战》PDF代码
分三个部分:基础篇.实战篇.提高篇.基础篇介绍了数据挖掘的基本原理,实战篇介绍了一个个真实案例,通过对案例深入浅出的剖析,使读者在不知不觉中通过案例实践获得数据挖掘项目经验,同时快速领悟看似难懂的数据 ...
R语言数据分析
CSDN博客:包括R语言基础.R语言数据挖掘.hadoop大数据及spark等 http://blog.csdn.net/qq_16365849 R语言及数据分析 http://blog.csdn.n ...
R语言数据分析利器data.table包 —— 数据框结构处理精讲
R语言data.table包是自带包data.frame的升级版,用于数据框格式数据的处理,最大的特点快.包括两个方面,一方面是写的快,代码简洁,只要一行命令就可以完成诸多任务,另一方面是处理 ...
R语言实战（六）重抽样与自助法
本文对应<R语言实战>第12章:重抽样与自助法之前学习的基本统计分析.回归分析.方差分析,是假定观测数据抽样自正态分布或者其他性质较好的理论分布,进而进行的假设检验和总体参数的置信区间估 ...
中部：执具 | R语言数据分析（北京邮电大学）自整理笔记
第5章工欲善其事.必先利其器代码,是延伸我们思想最好的工具. 第6章基础编程--用别人的包和函数讲述自己的故事 6.1编程环境 1.R语言的三段论大前提:计算机语言程序=算法+数据结构小前提:R ...
Go语言入门系列(六)之再探函数
Go语言入门系列前面的文章: Go语言入门系列(三)之数组和切片 Go语言入门系列(四)之map的使用 Go语言入门系列(五)之指针和结构体的使用在Go语言入门系列(二)之基础语法总结这篇文章中已经 ...

随机推荐

让c#的exe只要被修改就无法运行，支持混淆和数字证书
原文:让c#的exe只要被修改就无法运行,支持混淆和数字证书首先用sdk的sn工具或者makecert工具生成公钥和密钥,推荐makecert,做自己的证书,我做了一个受信任的根证书放在受信任的根证 ...
Win10使用中的一些问题
闲来无事,怒装Win10.使用上总体来说还是不错的,比Win8好一个档次吧. 不过呢在使用中遇到两个很郁闷的问题.权且几下 1.Win10激活使用工具:激活工具 2.激活后浏览器被挟持这让我现在非 ...
PHP制作pdf文档方法
原文:PHP制作pdf文档方法本篇博客是在看完 php+mysql web书以后自己的测试代码,虽然是测试代码,但不是简单的粘贴复制,为了学习thinkPHP框架,自己就用这个来做的,而且这本书已经 ...
使用Python做科学计算初探（转）
今天在搞定Django框架的blog搭建后,尝试一下python的科学计算能力. python的科学计算有三剑客:numpy,scipy,matplotlib. numpy负责数值计算,矩阵操作等: ...
【Android进阶】Application对象的详解
1:Application是什么? Application和Activity,Service一样,是android框架的一个系统组件,当android程序启动时系统会创建一个 application对 ...
【十三】注入框架RoboGuice采用:(Logging via Ln)
上一篇我们简单的介绍了一下RoboGuice的使用([十二]注入框架RoboGuice使用:(Your First Injected ContentProvider)),今天我们来看下Log日志使用. ...
docker 现实---联网多台物理主机，容器桥到物理网络(三）
docker 默认桥接卡docker0 只有当这个单元中的所有容器桥接卡.例如,在主机虚拟网络适配器容器看通常称为veth*** 和docker只要把这些卡桥接在一起,例如下面的附图: waterm ...
redis基础的字符串类型
redis —— 第二篇基础的字符串类型我们都知道redis是采用C语言开发,那么在C语言中表示string都是采用char[]数组的,然后你可能会想,那还不简单,当我执行如下命令,肯定是直接塞 ...
古老server源代码迁移到新server
因为老vsts资源server不久,准备存档,现在在旧的需要server该代码仍然在使用的所有迁移到新的vstsserver在. 因此,我们需要迁移所有需要也许是习惯了新的代码vsts在之上.代码的迁 ...
BP简单的理解神经网络
先用3类样本训练,在測试.. 刚開始学习的人有错的地方,,请大家多多指导.. 一些好的博客: http://blog.csdn.net/starxu85/article/details/314353 ...

R语言数据分析系列六

R语言数据分析系列六

—— by comaple.zhang

本节数据集：

探索行数据分析

R语言数据分析系列六的更多相关文章

随机推荐

热门专题