https://www.jianshu.com/p/b7274afff14f?from=timeline

#先加载包
library(ggpubr)
#加载数据集ToothGrowth
data("ToothGrowth")
head(ToothGrowth)
##    len  supp  dose
## 1 4.2 VC 0.5
## 2 11.5 VC 0.5
## 3 7.3 VC 0.5
## 4 5.8 VC 0.5
## 5 6.4 VC 0.5
## 6 10.0 VC 0.5

比较方法

R中常用的比较方法主要有下面几种:

方法 R函数 描述
T-test t.test() 比较两组(参数)
Wilcoxon test wilcox.test() 比较两组(非参数)
ANOVA aov()或anova() 比较多组(参数)
Kruskal-Wallis kruskal.test() 比较多组(非参数)

各种比较方法后续有时间一一讲解。

添加p-value

主要利用ggpubr包中的两个函数:

  • compare_means():可以进行一组或多组间的比较
  • stat_compare_mean():自动添加p-value、显著性标记到ggplot图中

compare_means()函数

该函数主要用用法如下:

compare_means(formula, data, method = "wilcox.test", paired = FALSE,
group.by = NULL, ref.group = NULL, ...)

注释:

  • formula:形如x~group,其中x是数值型变量,group是因子,可以是一个或者多个
  • data:数据集
  • method:比较的方法,默认为"wilcox.test", 其他可选方法为:"t.test""anova""kruskal.test"
  • paired:是否要进行paired test(TRUE or FALSE)
  • group_by: 比较时是否要进行分组
  • ref.group: 是否需要指定参考组

stat_compare_means()函数

主要用法:

stat_compare_means(mapping = NULL, comparisons = NULL hide.ns = FALSE,
label = NULL, label.x = NULL, label.y = NULL, ...)

注释:

  • mapping:由aes()创建的一套美学映射
  • comparisons:指定需要进行比较以及添加p-value、显著性标记的组
  • hide.ns:是否要显示显著性标记ns
  • label:显著性标记的类型,可选项为:p.signif(显著性标记)、p.format(显示p-value)
  • label.xlabel.y:显著性标签调整
  • ...:其他参数

比较独立的两组

compare_means(len~supp, data=ToothGrowth)
 
 

结果解释:

  • .y:测试中使用的y变量
  • p:p-value
  • p.adj:调整后的p-value。默认为p.adjust.method="holm"
  • p.format:四舍五入后的p-value
  • p.signif:显著性水平
  • method:用于统计检验的方法

绘制箱线图

p <- ggboxplot(ToothGrowth, x="supp", y="len", color = "supp",
palette = "jco", add = "jitter")#添加p-valuep+stat_compare_means()
 
 
#使用其他统计检验方法
p+stat_compare_means(method = "t.test")
 
 

上述显著性标记可以通过label.xlabel.yhjustvjust来调整
显著性标记可以通过aes()映射来更改:

  • aes(label=..p.format..)aes(lebel=paste0("p=",..p.format..)):只显示p-value,不显示统计检验方法
  • aes(label=..p.signif..):仅显示显著性水平
  • aes(label=paste0(..method..,"\n", "p=",..p.format..)):p-value与显著性水平分行显示

举个栗子:

p+stat_compare_means(aes(label=..p.signif..), label.x = 1.5, label.y = 40)
 
 

也可以将标签指定为字符向量,不要映射,只需将p.signif两端的..去掉即可

p+stat_compare_means(label = "p.signif", label.x = 1.5, label.y = 40)
 
 

比较两个paired sample

compare_means(len~supp, data=ToothGrowth, paired = TRUE)
 
 

利用ggpaired()进行可视化

ggpaired(ToothGrowth, x="supp", y="len", color = "supp", line.color = "gray",
line.size = 0.4, palette = "jco")+ stat_compare_means(paired = TRUE)
 
 

多组比较

Global test

compare_means(len~dose, data=ToothGrowth, method = "anova")
 
 

可视化

ggboxplot(ToothGrowth, x="dose", y="len", color = "dose", palette = "jco")+
stat_compare_means()
 
 
#使用其他的方法
ggboxplot(ToothGrowth, x="dose", y="len", color = "dose", palette = "jco")+
stat_compare_means(method = "anova")
 
 

Pairwise comparisons:如果分组变量中包含两个以上的水平,那么会自动进行pairwise test,默认方法为"wilcox.test"

compare_means(len~dose, data=ToothGrowth)
 
 
#可以指定比较哪些组
my_comparisons <- list(c("0.5", "1"), c("1", "2"), c("0.5", "2"))
ggboxplot(ToothGrowth, x="dose", y="len", color = "dose",palette = "jco")+
stat_compare_means(comparisons=my_comparisons)+ # Add pairwise
comparisons p-value stat_compare_means(label.y = 50) # Add global p-value
 
 

可以通过修改参数label.y来更改标签的位置

ggboxplot(ToothGrowth, x="dose", y="len", color = "dose",palette = "jco")+
stat_compare_means(comparisons=my_comparisons, label.y = c(29, 35, 40))+ # Add pairwise comparisons p-value
stat_compare_means(label.y = 45) # Add global p-value
 
 

至于通过添加线条来连接比较的两组,这一功能已由包ggsignif实现

##设定参考组
compare_means(len~dose, data=ToothGrowth, ref.group = "0.5", #以dose=0.5组为参考组
method = "t.test" )
 
 
#可视化
ggboxplot(ToothGrowth, x="dose", y="len", color = "dose", palette = "jco")+
stat_compare_means(method = "anova", label.y = 40)+ # Add global p-value
stat_compare_means(label = "p.signif", method = "t.test", ref.group = "0.5") # Pairwise comparison against reference
 
 

参考组也可以设置为.all.即所有的平均值

compare_means(len~dose, data=ToothGrowth, ref.group = ".all.", method = "t.test")
 
 
#可视化
ggboxplot(ToothGrowth, x="dose", y="len", color = "dose", palette = "jco")+
stat_compare_means(method = "anova", label.y = 40)+# Add global p-value
stat_compare_means(label = "p.signif", method = "t.test",
ref.group = ".all.")#Pairwise comparison against all
 
 

接下来利用survminer包中的数据集myeloma来讲解一下为什么有时候我们需要将ref.group设置为.all.

library(survminer)#没安装的先安装再加载
data("myeloma")
head(myeloma)
 
 

我们将根据患者的分组来绘制DEPDC1基因的表达谱,看不同组之间是否存在显著性的差异,我们可以在7组之间进行比较,但是这样的话组间比较的组合就太多了,因此我们可以将7组中每一组与全部平均值进行比较,看看DEPDC1基因在不同的组中是否过表达还是低表达。

compare_means(DEPDC1~molecular_group, data = myeloma, ref.group = ".all.", method = "t.test")
 
 
#可视化DEPDC1基因表达谱
ggboxplot(myeloma, x="molecular_group", y="DEPDC1",
color = "molecular_group", add = "jitter", legend="none")+
rotate_x_text(angle = 45)+
geom_hline(yintercept = mean(myeloma$DEPDC1), linetype=2)+# Add horizontal line at base mean
stat_compare_means(method = "anova", label.y = 1600)+ # Add global annova p-value
stat_compare_means(label = "p.signif", method = "t.test", ref.group = ".all.")# Pairwise comparison against all
 
 

从图中可以看出,DEPDC1基因在Proliferation组中显著性地过表达,而在Hyperdiploid和Low bone disease显著性地低表达

我们也可以将非显著性标记ns去掉,只需要将参数hide.ns=TRUE

ggboxplot(myeloma, x="molecular_group", y="DEPDC1",
color = "molecular_group", add = "jitter", legend="none")+
rotate_x_text(angle = 45)+
geom_hline(yintercept = mean(myeloma$DEPDC1), linetype=2)+# Add horizontal line at base mean
stat_compare_means(method = "anova", label.y = 1600)+ # Add global annova p-value
stat_compare_means(label = "p.signif", method = "t.test", ref.group = ".all.", hide.ns = TRUE)# Pairwise comparison against all
 
 

多个分组变量

按另一个变量进行分组之后进行统计检验,比如按变量dose进行分组:

compare_means(len~supp, data=ToothGrowth, group.by = "dose")
 
 
#可视化
p <- ggboxplot(ToothGrowth, x="supp", y="len", color = "supp",
palette = "jco", add = "jitter", facet.by = "dose", short.panel.labs = FALSE)#按dose进行分面
#label只绘制
p-valuep+stat_compare_means(label = "p.format")
 
 
#label绘制显著性水平
p+stat_compare_means(label = "p.signif", label.x = 1.5)
 
 
#将所有箱线图绘制在一个panel中
p <- ggboxplot(ToothGrowth, x="dose", y="len", color = "supp",
palette = "jco", add = "jitter")
p+stat_compare_means(aes(group=supp))
 
 
#只显示p-value
p+stat_compare_means(aes(group=supp), label = "p.format")
 
 
#显示显著性水平
p+stat_compare_means(aes(group=supp), label = "p.signif")
 
 
进行paired sample检验
compare_means(len~supp, data=ToothGrowth, group.by = "dose", paired = TRUE)
 
 
#可视化
p <- ggpaired(ToothGrowth, x="supp", y="len", color = "supp",
palette = "jco", line.color="gray", line.size=0.4, facet.by = "dose",
short.panel.labs = FALSE)#按dose分面
#只显示p-value
p+stat_compare_means(label = "p.format", paired = TRUE)
 
 

其他图形

条形图与线图(一个分组变量)

#有误差棒的条形图,实际上我以前的文章里有纯粹用ggplot2实现
ggbarplot(ToothGrowth, x="dose", y="len", add = "mean_se")+
stat_compare_means()+
stat_compare_means(ref.group = "0.5", label = "p.signif", label.y = c(22, 29))
 
 
#有误差棒的线图
ggline(ToothGrowth, x="dose", y="len", add = "mean_se")+
stat_compare_means()+
stat_compare_means(ref.group = "0.5", label = "p.signif", label.y = c(22, 29))
 
 

条形图与线图(两个分组变量)

ggbarplot(ToothGrowth, x="dose", y="len", add = "mean_se", color = "supp",
palette = "jco", position = position_dodge(0.8))+
stat_compare_means(aes(group=supp), label = "p.signif", label.y = 29)
 
 
ggline(ToothGrowth, x="dose", y="len", add = "mean_se", color = "supp",
palette = "jco")+
stat_compare_means(aes(group=supp), label = "p.signif", label.y = c(16, 25, 29))
 
 

Sessioninfo

sessionInfo()
## R version 3.4.0 (2017-04-21)
## Platform: x86_64-w64-mingw32/x64 (64-bit)
## Running under: Windows 8.1 x64 (build 9600)
##
## Matrix products: default
##
## locale:
## [1] LC_COLLATE=Chinese (Simplified)_China.936
## [2] LC_CTYPE=Chinese (Simplified)_China.936
## [3] LC_MONETARY=Chinese (Simplified)_China.936
## [4] LC_NUMERIC=C
## [5] LC_TIME=Chinese (Simplified)_China.936
##
## attached base packages:
## [1] stats graphics grDevices utils datasets methods base
##
## other attached packages:
## [1] survminer_0.4.0 ggpubr_0.1.3 magrittr_1.5 ggplot2_2.2.1
##
## loaded via a namespace (and not attached):
## [1] Rcpp_0.12.11 compiler_3.4.0 plyr_1.8.4
## [4] tools_3.4.0 digest_0.6.12 evaluate_0.10
## [7] tibble_1.3.3 gtable_0.2.0 nlme_3.1-131
## [10] lattice_0.20-35 rlang_0.1.1 Matrix_1.2-10
## [13] psych_1.7.5 ggsci_2.4 DBI_0.6-1
## [16] cmprsk_2.2-7 yaml_2.1.14 parallel_3.4.0
## [19] gridExtra_2.2.1 dplyr_0.5.0 stringr_1.2.0
## [22] knitr_1.16 survMisc_0.5.4 rprojroot_1.2
## [25] grid_3.4.0 data.table_1.10.4 KMsurv_0.1-5
## [28] R6_2.2.1 km.ci_0.5-2 survival_2.41-3
## [31] foreign_0.8-68 rmarkdown_1.5 reshape2_1.4.2
## [34] tidyr_0.6.3 purrr_0.2.2.2 splines_3.4.0
## [37] backports_1.1.0 scales_0.4.1 htmltools_0.3.6
## [40] assertthat_0.2.0 mnormt_1.5-5 xtable_1.8-2
## [43] colorspace_1.3-2 ggsignif_0.2.0 labeling_0.3
## [46] stringi_1.1.5 lazyeval_0.2.0 munsell_0.4.3
## [49] broom_0.4.2 zoo_1.8-0

作者:taoyan
链接:https://www.jianshu.com/p/b7274afff14f
來源:简书
简书著作权归作者所有,任何形式的转载都请联系作者获得授权并注明出处。

R语言可视化学习笔记之添加p-value和显著性标记--转载的更多相关文章

  1. R语言可视化学习笔记之添加p-value和显著性标记

    R语言可视化学习笔记之添加p-value和显著性标记 http://www.jianshu.com/p/b7274afff14f?from=timeline   上篇文章中提了一下如何通过ggpubr ...

  2. R语言可视化学习笔记之ggpubr包—SCI文章图

    转载:https://www.jianshu.com/p/678213d605a5?from=jiantop.com Hadley Wickham创建的可视化包ggplot2可以流畅地进行优美的可视化 ...

  3. 从零开始系列-R语言基础学习笔记之二 数据结构(二)

    在上一篇中我们一起学习了R语言的数据结构第一部分:向量.数组和矩阵,这次我们开始学习R语言的数据结构第二部分:数据框.因子和列表. 一.数据框 类似于二维数组,但不同的列可以有不同的数据类型(每一列内 ...

  4. R语言的学习笔记 (持续更新.....)

    1. DATE 处理 1.1 日期格式一个是as.Date(XXX) 和strptime(XXX),前者为Date格式,后者为POSIXlt格式 1.2 用法:as.Date(XXX,"%Y ...

  5. 从零开始系列--R语言基础学习笔记之一 环境搭建

    R是免费开源的软件,具有强大的数据处理和绘图等功能.下面是R开发环境的搭建过程. 一.点击网址 https://www.r-project.org/ ,进入"The R Project fo ...

  6. R语言入门学习笔记 - 对R软件的认识

    一.R软件 1.安装R:自行百度☺ 2.R控制台(R Console)和R程序脚本: 打开R软件,就会直接打开控制台,控制台可以显示程序运行的结果.错误提示等信息,也可以直接输入想要执行的操作并立即返 ...

  7. # C语言假期学习笔记——6

    C语言假期学习笔记--6 数组 主要学习了一位数组和二维数组. 数组是一组具有相同类型的变量的集合.C语言程序通过元素的下标来访问数组中的元素.(下标从0开始) 一位数组 类型 数组名[元素个数] 二 ...

  8. R语言统计学习-1简介

    一. 统计学习概述 统计学习是指一组用于理解数据和建模的工具集.这些工具可分为有监督或无监督.1.监督学习:用于根据一个或多个输入预测或估计输出.常用于商业.医学.天体物理学和公共政策等领域.2.无监 ...

  9. R parallel包学习笔记2

    这个部分我在datacamp上面学习笔记,可视化的性能很差,使用的函数也很少. 可以参考一下大佬的博客园个人感觉他们讲的真的很详细 https://cosx.org/2016/09/r-and-par ...

随机推荐

  1. 35 个最好用的 Vue 开源库

    35 个最好用的 Vue 开源库 Vue.js 是一个非常易用的渐进式 JavaScript 框架,用于构建用户界面. 1.Vue Dark Mode Vue.js 的一个极简主义的深色设计系统.它提 ...

  2. 把object转成JSONObject JSON.toJSON

    把object转成JSONObject JSON.toJSON public void onNext(Object o) { LogUtil.i("getFavorites", & ...

  3. bootstrapValidator验证表单后清除当次验证的方法

    用bootstrapValidator的resetForm()方法: <!-- // create server begin --> <div class="modal f ...

  4. centos 文件新建、删除、移动、复制等命令

    创建目录 mkdir 文件名 mkdir /var/www/test cp复制命令 cp命令复制文件从一个位置到另一位置.如果目的地文件存在,将覆复写该文件: 如果目的地目录存在,文件将复制到该目录下 ...

  5. 传统OGG与Microservice Architecture OGG的通信

    针对当前新出的ogg microservice architect(MA),现在只支持oracle 11g/12c的数据复制和投递.如果有其它版本的oracle或其它数据库,比如 mysql, db2 ...

  6. Spring Advice

    Spring AOP(面向方面编程)框架,用于在模块化方面的横切关注点.简单得说,它只是一个拦截器拦截一些过程,例如,当一个方法执行,Spring AOP 可以劫持一个执行的方法,在方法执行之前或之后 ...

  7. STM32L476应用开发之六:电池SOC检测(转)

    源: STM32L476应用开发之六:电池SOC检测

  8. Spring MVC数据绑定

    1.绑定默认数据类型 当前端请求参数较为简单的时候,后台形参可以直接使用SpringMVC提供的参数类型来绑定数据. HttpServletRequest:通过request对象获取请求信息: Htt ...

  9. python简说(十二)time模块

    1.时间戳 print(int(time.time())) 2.取当前格式化好的时间 time.strftime('%Y-%m-%d %H:%M:%S') 3.时间戳转为格式化好的时间 time1 = ...

  10. canvas-简单快速实现知乎登录页背景效果

    前言 打开知乎的登录页,就可以看到其背景有一个动效,看起来好像蛮不错的样子: 这个效果使用canvas是不难实现的,接下来就一步一步地讲解并实现这个效果. 分析 在动工之前先分析这个效果到底是如何运动 ...