R语言实战（三）基本图形与基本统计分析

本文对应《R语言实战》第6章：基本图形；第7章：基本统计分析

==================================================================================================================================================

本章讨论的图形，主要用于分析数据前，对数据的初步掌握。想要对数据有一个初步的印象，最好的方式就是观察它，也就是将数据可视化。在这个过程中，我们不必要过于纠结图形是否漂亮美观，而重点关注各个简单图形的含义：观察数据的哪个方面时需要用到哪些图形。

条形图：主要展示类别型变量的分布（频数）

barplot(height)

简单条形图

堆砌条形图和分组条形图

均值条形图（用aggregate()函数处理后，得到各组均值、中位值等，即经过折叠的数据）

棘状图（对堆砌条形图进行重缩放，将不同分组高度归一化，用于比较不同组内相同分类占比的不同。package: vcd:: spine()）

饼图：不推荐使用，因为相对于面积，人对长度的判断更精确。

pie(x, labels)

直方图：展示了连续型变量的分布情况

hist(x)

可以在直方图上添加核密度图或者正态分布曲线辅助观察数据分布

核密度图：也可以用来观察连续型变量分布，可以在直方图上叠加

#直接绘图：

plot(density(x))

#在直方图上叠加：

hist(mtcars$mpg)

#如果数据中有许多结（tie, 数据中出现相同的值）用以下语句打散

rug(jitter(mtcars$mpg))

#添加核密度曲线

lines(density(mtcars$mpg))

箱线图：通过绘制绘制连续型变量的五数总括，即最小值、下四分位数、中位数、上四分位数、最大值，描述连续型变量分布

boxplot(x)

并列箱线图：跨组比较（单因子或交叉因子。交叉因子：formula形如mpg ~ am.f * cyl.f）

boxplot(formula, data = dataframe)

小提琴图：是箱线图的变种，由箱线图与核密度图结合而来，package: vioplot

并不流行

点图：提供了一种在简单水平刻度上绘制大量有标签值的方法

dotchart(x, labels = )

对于少量数据有较为显著的洞察力，对于大量数据的实用性较差

==================================================================================================================================================

基本统计分析：

描述性统计分析

#极值、均值、分位数

summary()

#变量与观测的数量、缺失值和唯一值的数量、平均值、分位数、五个最大最小值

library(Hmisc)

describe()

#对数据框或时间序列进行分析

library(pastecs)

stat.desc(x, basic = TRUE, desc = TRUE, norm = FALSE, p = 0.95)

#basic = TRUE(默认)，计算所有值、空值、缺失值数量，最值、值域、总和

#desc = TRUE(默认)，中位数、平均数及其标准误、平均数置信度为95%的置信区间、方差、标准差以及变异系数

#norm = TRUE(不是默认)，返回正态分布统计量，包括偏度和峰度

#扩展

#非缺失值的数量、平均数、标准差、中位数、截尾均值、绝对中位差、最值、值域、偏度、峰度、平均值的标准误

library(psych)

describe()

分组计算描述性统计量

#by()函数

vars <- c(“mpg”, “hp”, “wt”)

dstats <- function(x) (c(mean = mean(x), sd = sd(x)))

by(mtcars[vars], mtcars$am, dstats)

#自定义统计量

library(doBy)

summaryBy(formula, data = dataframe, FUN = function)

#概述统计量

library(psych)

describe.by(data, variables)

#package reshape

#melt() cast()简洁但是需要熟练使用

频数表和列联表

table(var1, var2, …, varN)	使用N个类别型变量创建一个N维列联表
xtabs(formula, data)	根据一个公式和一个矩阵或一个数据框创建一个N维列联表
prop.table(table, margins)	依margins定义的边际列表将表中条目表示为分数形式
margin.table(table, margins)	依margins定义的边际列表计算表中条目的和
addmargins(table, margins)	将概述边margins（默认是求和结果）放入表中
ftable(table)	创建一个紧凑的“平铺”式列联表

注意：table()函数默认忽略缺失值（NA）要将NA视为一个有效的类别，需要设置参数useNA = “ifany”

生成二维列联表的一个更好的方式，使用library: gmodels:: CrossTable()函数

多维列联表：以上函数均可以推广到高维情况，推荐使用ftable()函数

独立性检验：

对二维列联表的行变量与列变量进行独立性检验（检验对象为列联表）

#卡方独立性检验

#假设相互独立，若p<0.05,拒绝假设（也就是相关）

chisq.test()

#Fisher精确检验

#假设：边界固定的列联表中行和列是相互独立的

#注意不能用于2*2列联表

fisher.test()

#Cochran-Mantel-Haenszel检验

#假设：两个名义变量在第三个变量的每一层中都是条件独立的（即不存在三阶交互作用）

mantelhaen.test()

R语言实战（三）基本图形与基本统计分析的更多相关文章

R语言实战（一）介绍、数据集与图形初阶
本文对应<R语言实战>前3章,因为里面大部分内容已经比较熟悉,所以在这里只是起一个索引的作用. 第1章 R语言介绍获取帮助函数 help(), ? 查看函数帮助 exampl ...
R语言实战（七）图形进阶
本文对应<R语言实战>第11章:中级绘图:第16章:高级图形进阶基础图形一章,侧重展示单类别型或连续型变量的分布情况:中级绘图一章,侧重展示双变量间关系(二元关系)和多变量间关系(多元关 ...
R入门<三>-R语言实战第4章基本数据管理摘要
入门书籍:R语言实战进度:1-4章摘要: 1)实用的包 forecast:用于做时间序列预测的,有auto.arima函数 RODBC:可以用来读取excel文件.但据说R对csv格式适应更加良好 ...
R语言实战（五）方差分析与功效分析
本文对应<R语言实战>第9章:方差分析:第10章:功效分析 ================================================================ ...
R语言实战（十）处理缺失数据的高级方法
本文对应<R语言实战>第15章:处理缺失数据的高级方法本文仅在书的基础上进行简单阐述,更加详细的缺失数据问题研究将会单独写一篇文章. 处理缺失值的一般步骤: 识别缺失数据: 检查导致数据 ...
R语言实战（九）主成分和因子分析
本文对应<R语言实战>第14章:主成分和因子分析主成分分析(PCA)是一种数据降维技巧,它能将大量相关变量转化为一组很少的不相关变量,这些无关变量成为主成分. 探索性因子分析(EFA)是 ...
R 语言实战-Part 4 笔记
R 语言实战(第二版) part 4 高级方法 -------------第13章广义线性模型------------------ #前面分析了线性模型中的回归和方差分析,前提都是假设因变量服从正态 ...
R 语言实战-Part 3 笔记
R 语言实战(第二版) part 3 中级方法 -------------第8章回归------------------ #概念:用一个或多个自变量(预测变量)来预测因变量(响应变量)的方法 #最常 ...
R语言实战-Part 2笔记
R 语言实战(第二版) part 2 基本方法 -------------第6章基本图形------------------ #1.条形图 #一般是类别型(离散)变量 library(vcd) he ...

随机推荐

easyUI+springMVC的DataGrid-demo
DataGrid (一).搭建springMVC: 错误:无法访问HTML页面,HTTP Status 404- 原因:springMVC拦截了静态资源的访问解决方案:方案①:(web.xml下)& ...
C#调用WebService (转)
1.1.Web Service基本概念 Web Service也叫XML Web Service WebService是一种可以接收从Internet或者Intranet上的其它系统中传递过来的请求, ...
Maximo7自定义实现WebService
最近很多人在群里聊这个话题,我就也一个hello world来实现一下. 1.自定义一个类,继承于AppService 代码如下:
自定义置顶TOP按钮
简述一下,分为三个步骤: 1. 添加Html代码 2. 调整Css样式 3. 添加Jquery代码具体代码如下: <style type="text/css"> #G ...
c#控制台調用SSIS包互传值
有时候不仅仅需要在内部执行package包,多数情况下,是需要在外部进行调用,比如,需要一个批处理或者控制台程序进行外部调用SSIS包,而往往这个包所配置的连接字符串是经过加密处理的,所以当外部调用S ...
利用CNN进行人脸年龄预测
很久之前做的东西了,最近做了一个人脸相似度检测,里面用到了这里的一个模型,所以抽个空把人脸年龄检测的思路总结一下. 与其他CNN分类问题类似,人脸年龄预测无非就是将人脸分为多个类别,然后训练卷积神经网 ...
ASP.NET Core 在 Swagger UI 中显示自定义的 Header Token
Swagger 是个好东西,对于前后端分离的网站来说,不仅是提高前后端开发人员沟通效率的利器,也大大方便了后端人员测试 API.有时候,API 中可能需要在 Header 中设置认证参数,比如 aut ...
C++多线程の条件变量
如果有一个队列,方法一和方法二:方法一是生产者,方法二是消费者: 两者不停的相互等待,加减锁,为了减少不必要的等待,我们可以使用条件变量, 条件的变量的第二个参数的加入可以控制多个线程的"消 ...
easyUI-combobox 动态绑定数据源
前台 <link rel="stylesheet" type="text/css" href="../css/easyui.css"/ ...
html5悬浮球效果
自己想做一个自己的网站,觉得自适应的效果会好一点,但是放到手机端的话,菜单显示是个问题.所以自己试着写了一个悬浮球菜单的效果. 好了,上代码. 这里有四个文件要用: jqurey.js//因为基于jq ...

R语言实战（三）基本图形与基本统计分析

R语言实战（三）基本图形与基本统计分析的更多相关文章

随机推荐

热门专题