R in action读书笔记（6）-第七章：基本统计分析（中）

7.2 频数表和列联表

> library(vcd)

> head(Arthritis)

ID Treatment Sex Age Improved

1 57 Treated Male 27 Some

2 46 Treated Male 29 None

3 77 Treated Male 30 None

4 17 Treated Male 32 Marked

5 36 Treated Male 46 Marked

6 23 Treated Male 58 Marked

7.2.1 生成频数表

函数描述

table(var1, var2, …, varN) 使用 N 个类别型变量（因子）创建一个 N 维列联表

xtabs(formula, data) 根据一个公式和一个矩阵或数据框创建一个 N 维列联表

prop.table(table, margins) 依margins定义的边际列表将表中条目表示为分数形式

margin.table(table, margins) 依margins定义的边际列表计算表中条目的和

addmargins(table, margins) 将概述边margins（默认是求和结果）放入表中

ftable(table) 创建一个紧凑的“平铺”式列联表

一维列联表

> mytable<-with(Arthritis,table(Improved))

> mytable

Improved

  None   Some Marked

    42     14     28

可以用prop.table()将这些频数转化为比例值：

> prop.table(mytable)

Improved

     None      Some    Marked

0.5000000 0.1666667 0.3333333

或使用prop.table()*100转化为百分比：

2. 二维列联表

对于二维列联表，table()函数的使用格式为：mytale<-table(A,B)

其中的A是行变量，B是列变量。除此之外，xtabs()函数还可使用公式风格的输入创建列联表，

格式为：mytable<-xtabs(~A+B,data=mydata)

其中的mydata是一个矩阵或数据框。总的来说，要进行交叉分类的变量应出现在公式的右侧（即~符号的右方），以+作为分隔符。若某个变量写在公式的左侧，则其为一个频数向量（在数据已经被表格化时很有用）。

对于Arthritis数据，有：

> mytable<-xtabs(~Treatment+Improved,data=Arthritis)

> mytable

         Improved

Treatment None Some Marked

  Placebo   29    7      7

  Treated   13    7     21

可以使用margin.table()和prop.table()函数分别生成边际频数和比例。行和与行比

例可以这样计算：

> margin.table(mytable,1)

Treatment

Placebo Treated

     43      41

> prop.table(mytable,1)

             Improved

Treatment   None      Some    Marked

  Placebo 0.6744186 0.1627907 0.1627907

  Treated 0.3170732 0.1707317 0.5121951

列和与列比例可以这样计算：

> margin.table(mytable,2)

Improved

  None   Some Marked

    42     14     28

> prop.table(mytable,2)

         Improved

Treatment      None      Some    Marked

  Placebo 0.6904762 0.5000000 0.2500000

  Treated 0.3095238 0.5000000 0.7500000

各单元格所占比例可用如下语句获取：

> prop.table(mytable)

         Improved

Treatment       None       Some     Marked

  Placebo 0.34523810 0.08333333 0.08333333

  Treated 0.15476190 0.08333333 0.25000000

可以使用addmargins()函数为这些表格添加边际和

> addmargins(mytable)

         Improved

Treatment None Some Marked Sum

  Placebo   29    7      7  43

  Treated   13    7     21  41

  Sum       42   14     28  84

> addmargins(prop.table(mytable))

         Improved

Treatment       None       Some     Marked        Sum

  Placebo 0.34523810 0.08333333 0.08333333 0.51190476

  Treated 0.15476190 0.08333333 0.25000000 0.48809524

  Sum     0.50000000 0.16666667 0.33333333 1.00000000

在使用addmargins()时，默认行为是为表中所有的变量创建边际和

> addmargins(prop.table(mytable,1),2)#仅添加了各行的和

         Improved

Treatment      None      Some    Marked       Sum

  Placebo 0.6744186 0.1627907 0.1627907 1.0000000

  Treated 0.3170732 0.1707317 0.5121951 1.0000000

注意 table()函数默认忽略缺失值（NA）。要在频数统计中将NA视为一个有效的类别，请设定参数useNA="ifany"。.

使用gmodels包中的CrossTable()函数是创建二维列联表的第三种方法。CrossTable()

函数仿照SAS中PROC FREQ或SPSS中CROSSTABS的形式生成二维列联表

> CrossTable(Arthritis$Treatment,Arthritis$Improved)

CrossTable()函数有很多选项，可以做许多事情：计算（行、列、单元格）的百分比；指

定小数位数；进行卡方、Fisher和McNemar独立性检验；计算期望和（皮尔逊、标准化、调整的

标准化）残差；将缺失值作为一种有效值；进行行和列标题的标注；生成SAS或SPSS风格的输出。

3.多维列联表

table()和xtabs()都可以基于三个或更多的类别型变量生成多维列联margin.table()、prop.table()和addmargins()函数可以自然地推广到高于二维的情况。另外，ftable()函数可以以一种紧凑而吸引人的方式输出多维列联表

> mytable<-xtabs(~Treatment+Sex+Improved,data=Arthritis)

, , Improved = None

Sex

Treatment Female Male

  Placebo     19   10

  Treated      6    7

, , Improved = Some

Sex

Treatment Female Male

  Placebo      7    0

  Treated      5    2

, , Improved = Marked

Sex

Treatment Female Male

  Placebo      6    1

  Treated     16    5

> ftable(mytable)

                 Improved None Some Marked

Treatment Sex

Placebo   Female            19    7      6

          Male              10    0      1

Treated   Female             6    5     16

          Male               7    2      5

> margin.table(mytable,c(1,3))#治疗情况（Treatment） × 改善情况（Improved）的边际频数

         Improved

Treatment None Some Marked

  Placebo   29    7      7

  Treated   13    7     21

7.2.2独立性检验

1. 卡方独立性检验

可以使用chisq.test()函数对二维表的行变量和列变量进行卡方独立性检验

> library(vcd)

> mytable<-xtabs(~Treatment+Improved,data=Arthritis)

> chisq.test(mytable)

       Pearson's Chi-squared test

data:  mytable

X-squared = 13.055, df = 2, p-value = 0.001463#治疗情况和改善情况不独立

2. Fisher精确检验

可以使用fisher.test()函数进行Fisher精确检验。Fisher精确检验的原假设是：边界固定

的列联表中行和列是相互独立的。其调用格式为fisher.test(mytable)，其中的mytable是

一个二维列联表

> fisher.test(mytable)

       Fisher's Exact Test for Count Data

data:  mytable

p-value = 0.001393

alternative hypothesis: two.sided

这里的fisher.test()函数可以在任意行列数大于等于2的二维列联表上使用，但不能用于2×2的列联表。

3.Cochran-Mantel—Haenszel检验

mantelhaen.test()函数可用来进行Cochran—Mantel—Haenszel卡方检验，其原假设是，两

个名义变量在第三个变量的每一层中都是条件独立的。

 > mantelhaen.test(mytable)

       Cochran-Mantel-Haenszel test

data:  mytable

Cochran-Mantel-Haenszel M^2 = 14.6323, df = 2,

p-value = 0.0006647

7.2.3 相关性的度量

如果可以拒绝原假设，那么你的兴趣就会自然而然地转向用以衡量相关性强弱的相关性度量。vcd包中的assocstats()函数可以用来计算二维列联表的phi系数、列联系数和Cramer’sV系数

> mytable<-xtabs(~Treatment+Improved,data=Arthritis)

> assocstats(mytable)

                    X^2 df  P(> X^2)

Likelihood Ratio 13.530  2 0.0011536

Pearson          13.055  2 0.0014626

Phi-Coefficient   : 0.394

Contingency Coeff.: 0.367

Cramer's V        : 0.394

总体来说，较大的值意味着较强的相关性。vcd包也提供了一个kappa()函数，可以计算混

淆矩阵的Cohen’s kappa值以及加权的kappa值。（举例来说，混淆矩阵可以表示两位评判者对于一系列对象进行分类所得结果的一致程度。）

7.2.5将表转换为扁平格式

通过table2flat将表转换为扁平格式

> table2flat<-function(mytable){

+ df<-as.data.frame(mytable)

+ rows<-dim(df)[1]

+ cols<-dim(df)[2]

+ x<-NULL

+ for(i in 1:rows){

+ for(j in 1:df$Freq[i]){

+ row<-df[i,c(1:(cols-1))]

+ x<-rbind(x,row)

+ }

+ }

+ row.names(x)<-c(1:dim(x)[1])

+ return(x)

+ }

使用table2flat()函数转换已发表的数据

> treatment<-rep(c("Placebo","Treated"),times=3)

> improved<-rep(c("None","Some","marked"),each=2)

> Freq<-c(29,13,7,17,7,21)

> mytable<-as.data.frame(cbind(treatment,improved,Freq))

> mydata<-table2flat(mytable)

> head(mydata)

  treatment inmproved

1   Placebo      None

2   Placebo      None

3   Placebo      None

4   Placebo      None

5   Treated      None

6   Placebo      Some

R in action读书笔记（6）-第七章：基本统计分析（中）的更多相关文章

Linux内核分析读书笔记（第七章）
第七章链接 1.链接是将各种代码和数据部分收集起来并组合成为一个单一文件的过程,这个文件可被加载(或被拷贝)到存储器并执行. 2.链接可以执行于编译时,也就是在源代码被翻译成机器代码时:也可以执行于 ...
《深入理解java虚拟机》读书笔记六——第七章
第七章虚拟机类加载机制 1.类加载的时机虚拟机的类加载机制: 虚拟机把描述类的数据从class文件中加载到内存,并对数据进行校验.转换解析和初始化,最终形成了可以被虚拟机直接使用的Java类型,这 ...
R in action读书笔记（7）-第七章：基本统计分析（下）
7.3相关相关系数可以用来描述定量变量之间的关系.相关系数的符号(±)表明关系的方向(正相关或负相关),其值的大小表示关系的强弱程度(完全不相关时为0,完全相关时为1).除了基础安装以外,我们还将使 ...
R in action读书笔记（5）-第七章：基本统计分析
7.1描述性统计分析 > vars<-c("mpg","hp","wt") > head(mtcars[vars]) ...
R in action读书笔记（22）第十六章高级图形进阶（下）
16.2.4 图形参数在lattice图形中,lattice函数默认的图形参数包含在一个很大的列表对象中,你可通过trellis.par.get()函数来获取,并用trellis.par.set() ...
R in action读书笔记（21）第十六章高级图形进阶（上）
16.1 R 中的四种图形系统基础图形函数可自动调用,而grid和lattice函数的调用必须要加载相应的包(如library(lattice)).要调用ggplot2函数需下载并安装该包(inst ...
R in action读书笔记（20）第十五章处理缺失数据的高级方法
处理缺失数据的高级方法 15.1 处理缺失值的步骤一个完整的处理方法通常包含以下几个步骤: (1) 识别缺失数据: (2) 检查导致数据缺失的原因: (3) 删除包含缺失值的实例或用合理的数值代替( ...
R in action读书笔记（19）第十四章主成分和因子分析
第十四章:主成分和因子分析本章内容主成分分析探索性因子分析其他潜变量模型主成分分析(PCA)是一种数据降维技巧,它能将大量相关变量转化为一组很少的不相关变量,这些无关变量称为主成分.探索性因 ...
R in action读书笔记（17）第十二章重抽样与自助法
12.4 置换检验点评除coin和lmPerm包外,R还提供了其他可做置换检验的包.perm包能实现coin包中的部分功能,因此可作为coin包所得结果的验证.corrperm包提供了有重复测量的相 ...

随机推荐

Android Service 不被杀死并提高优先级
Android Service 不被杀死有两种思路,一种是将APP设置为系统应用.还有一种是增强service的生命力.即使屏幕背光关闭时也能执行. 因为设置为系统应用须要root.所以一般使用后一种 ...
VS类添加头文件注释
VS2015参考: http://blog.csdn.net/qq395537505/article/details/50853546 修改两个文件,详细信息 VS2010: 找到VS的安装目录 E ...
ABAP WEBRFC
通过WEBRFC实现在网页下载SMW0上传的文件 FUNCTION zhr_download_test. *"---------------------------------------- ...
Lightoj 1010 - Knights in Chessboard
1010 - Knights in Chessboard PDF (English) Statistics Forum Time Limit: 1 second(s) Memory Limit: ...
Package vim is not available, but is referred to by another package及我的vim配置
新安装的ubuntu,先安装vim,但是安装出现 Reading package lists... Done Building dependency tree Reading state inform ...
idea新建springmvc+spring+mybaties项目1
1,点击file,选择module,新建项目 2,选择maven -- >maven-archetype-webapp 3,输入GroupId,ArtifactId,点击next 4,选择本地m ...
Expression Blend实例中文教程(11) - 视觉管理器快速入门Visual State Manager(VSM）
Expression Blend实例中文教程(11) - 视觉管理器快速入门Visual State Manager(V 时间:2010-04-12 16:06来源:SilverlightChina. ...
使用cloudflare加速你的网站隐藏你的网站IP
前言 cloudflare 是一家国外的 CDN 加速服务商,还是很有名气的.提供免费和付费的加速和网站保护服务.以前推荐过的百度云加速的国外节点就是和 cloudflare 合作使用的 cloudf ...
Masonry scrollview循环布局
前言说到iOS自动布局,有很多的解决办法.有的人使用xib/storyboard自动布局,也有人使用frame来适配.对于前者,笔者并不喜欢,也不支持.对于后者,更是麻烦,到处计算高度.宽度等,千万 ...
bzoj 3991 寻宝游戏
题目大意: 一颗树有一个点的集合对于每个集合的答案为从集合内一个点遍历集合内所有点再返回的距离最小值每次可以选择一个点若在集合外便加入集合若在集合内就删除求每次操作后这个集合的答案思路 ...

R in action读书笔记（6）-第七章：基本统计分析（中）

R in action读书笔记（6）-第七章：基本统计分析（中）的更多相关文章

随机推荐

热门专题