R语言可视化学习笔记之添加p-value和显著性标记

http://www.jianshu.com/p/b7274afff14f?from=timeline

上篇文章中提了一下如何通过ggpubr包为ggplot图添加p-value以及显著性标记,本文将详细介绍。利用数据集ToothGrowth进行演示

#先加载包

library(ggpubr)

#加载数据集ToothGrowth

data("ToothGrowth")

head(ToothGrowth)

##    len  supp  dose

## 1  4.2   VC   0.5

## 2  11.5  VC   0.5

## 3  7.3   VC   0.5

## 4  5.8   VC   0.5

## 5  6.4   VC   0.5

## 6  10.0  VC   0.5

比较方法

R中常用的比较方法主要有下面几种：

方法	R函数	描述
T-test	t.test()	比较两组(参数)
Wilcoxon test	wilcox.test()	比较两组(非参数)
ANOVA	aov()或anova()	比较多组(参数)
Kruskal-Wallis	kruskal.test()	比较多组(非参数)

各种比较方法后续有时间一一讲解。

添加`p-value`

主要利用ggpubr包中的两个函数：

compare_means():可以进行一组或多组间的比较
stat_compare_mean():自动添加p-value、显著性标记到ggplot图中

compare_means()函数

该函数主要用用法如下：

compare_means(formula, data, method = "wilcox.test", paired = FALSE,

  group.by = NULL, ref.group = NULL, ...)

注释：

formula:形如x~group，其中x是数值型变量，group是因子，可以是一个或者多个
data：数据集
method:比较的方法，默认为"wilcox.test", 其他可选方法为："t.test"、"anova"、"kruskal.test"
paired:是否要进行paired test(TRUE or FALSE)
group_by: 比较时是否要进行分组
ref.group: 是否需要指定参考组

stat_compare_means()函数

主要用法：

stat_compare_means(mapping = NULL, comparisons = NULL hide.ns = FALSE,

                   label = NULL,  label.x = NULL, label.y = NULL,  ...)

注释：

mapping:由aes()创建的一套美学映射
comparisons:指定需要进行比较以及添加p-value、显著性标记的组
hide.ns:是否要显示显著性标记ns
label:显著性标记的类型，可选项为：p.signif(显著性标记)、p.format(显示p-value)
label.x、label.y:显著性标签调整
...:其他参数

比较独立的两组

compare_means(len~supp, data=ToothGrowth)

结果解释：

.y:测试中使用的y变量
p:p-value
p.adj:调整后的p-value。默认为p.adjust.method="holm"
p.format:四舍五入后的p-value
p.signif:显著性水平
method:用于统计检验的方法

绘制箱线图
```
p <- ggboxplot(ToothGrowth, x="supp", y="len", color = "supp",

palette = "jco", add = "jitter")#添加p-valuep+stat_compare_means()
```
```
#使用其他统计检验方法

p+stat_compare_means(method = "t.test")
```
上述显著性标记可以通过label.x、label.y、hjust及vjust来调整
显著性标记可以通过aes()映射来更改：
- aes(label=..p.format..)或aes(lebel=paste0("p=",..p.format..)):只显示p-value，不显示统计检验方法
- aes(label=..p.signif..):仅显示显著性水平
- aes(label=paste0(..method..,"\n", "p=",..p.format..)):p-value与显著性水平分行显示

举个栗子：

p+stat_compare_means(aes(label=..p.signif..), label.x = 1.5, label.y = 40)

也可以将标签指定为字符向量，不要映射，只需将p.signif两端的..去掉即可

p+stat_compare_means(label = "p.signif", label.x = 1.5, label.y = 40)

比较两个paired sample

compare_means(len~supp, data=ToothGrowth, paired = TRUE)

利用ggpaired()进行可视化

ggpaired(ToothGrowth, x="supp", y="len", color = "supp", line.color = "gray",

line.size = 0.4, palette = "jco")+ stat_compare_means(paired = TRUE)

多组比较

Global test

compare_means(len~dose, data=ToothGrowth, method = "anova")

可视化

ggboxplot(ToothGrowth, x="dose", y="len", color = "dose", palette = "jco")+

stat_compare_means()

#使用其他的方法

ggboxplot(ToothGrowth, x="dose", y="len", color = "dose", palette = "jco")+

stat_compare_means(method = "anova")

Pairwise comparisons:如果分组变量中包含两个以上的水平，那么会自动进行pairwise test,默认方法为"wilcox.test"

compare_means(len~dose, data=ToothGrowth)

#可以指定比较哪些组

my_comparisons <- list(c("0.5", "1"), c("1", "2"), c("0.5", "2"))

ggboxplot(ToothGrowth, x="dose", y="len", color = "dose",palette = "jco")+

stat_compare_means(comparisons=my_comparisons)+ # Add pairwise

comparisons p-value stat_compare_means(label.y = 50) # Add global p-value

可以通过修改参数label.y来更改标签的位置

ggboxplot(ToothGrowth, x="dose", y="len", color = "dose",palette = "jco")+

stat_compare_means(comparisons=my_comparisons, label.y = c(29, 35, 40))+ # Add pairwise comparisons p-value

stat_compare_means(label.y = 45) # Add global p-value

至于通过添加线条来连接比较的两组，这一功能已由包ggsignif实现

##设定参考组

compare_means(len~dose, data=ToothGrowth, ref.group = "0.5",  #以dose=0.5组为参考组

method = "t.test" )

#可视化

ggboxplot(ToothGrowth, x="dose", y="len", color = "dose", palette = "jco")+

stat_compare_means(method = "anova", label.y = 40)+ # Add global p-value

stat_compare_means(label = "p.signif", method = "t.test", ref.group = "0.5") # Pairwise comparison against reference

参考组也可以设置为.all.即所有的平均值

compare_means(len~dose, data=ToothGrowth, ref.group = ".all.", method = "t.test")

#可视化

ggboxplot(ToothGrowth, x="dose", y="len", color = "dose", palette = "jco")+

stat_compare_means(method = "anova", label.y = 40)+# Add global p-value

stat_compare_means(label = "p.signif", method = "t.test",

ref.group = ".all.")#Pairwise comparison against all

接下来利用survminer包中的数据集myeloma来讲解一下为什么有时候我们需要将ref.group设置为.all.

library(survminer)#没安装的先安装再加载

data("myeloma")

head(myeloma)

我们将根据患者的分组来绘制DEPDC1基因的表达谱，看不同组之间是否存在显著性的差异，我们可以在7组之间进行比较，但是这样的话组间比较的组合就太多了，因此我们可以将7组中每一组与全部平均值进行比较，看看DEPDC1基因在不同的组中是否过表达还是低表达。

compare_means(DEPDC1~molecular_group, data = myeloma, ref.group = ".all.", method = "t.test")

#可视化DEPDC1基因表达谱

ggboxplot(myeloma, x="molecular_group", y="DEPDC1",

color = "molecular_group", add = "jitter", legend="none")+

rotate_x_text(angle = 45)+

geom_hline(yintercept = mean(myeloma$DEPDC1), linetype=2)+# Add horizontal line at base mean

stat_compare_means(method = "anova", label.y = 1600)+ # Add global annova p-value

stat_compare_means(label = "p.signif", method = "t.test", ref.group = ".all.")# Pairwise comparison against all

从图中可以看出，DEPDC1基因在Proliferation组中显著性地过表达，而在Hyperdiploid和Low bone disease显著性地低表达

我们也可以将非显著性标记ns去掉，只需要将参数hide.ns=TRUE

ggboxplot(myeloma, x="molecular_group", y="DEPDC1",

color = "molecular_group", add = "jitter", legend="none")+

rotate_x_text(angle = 45)+

geom_hline(yintercept = mean(myeloma$DEPDC1), linetype=2)+# Add horizontal line at base mean

stat_compare_means(method = "anova", label.y = 1600)+ # Add global annova p-value

stat_compare_means(label = "p.signif", method = "t.test", ref.group = ".all.", hide.ns = TRUE)# Pairwise comparison against all

多个分组变量

按另一个变量进行分组之后进行统计检验，比如按变量dose进行分组：

compare_means(len~supp, data=ToothGrowth, group.by = "dose")

#可视化

p <- ggboxplot(ToothGrowth, x="supp", y="len", color = "supp",

palette = "jco", add = "jitter", facet.by = "dose", short.panel.labs = FALSE)#按dose进行分面

#label只绘制

p-valuep+stat_compare_means(label = "p.format")

#label绘制显著性水平

p+stat_compare_means(label = "p.signif", label.x = 1.5)

#将所有箱线图绘制在一个panel中

p <- ggboxplot(ToothGrowth, x="dose", y="len", color = "supp",

palette = "jco", add = "jitter")

p+stat_compare_means(aes(group=supp))

#只显示p-value

p+stat_compare_means(aes(group=supp), label = "p.format")

#显示显著性水平

p+stat_compare_means(aes(group=supp), label = "p.signif")

进行paired sample检验

compare_means(len~supp, data=ToothGrowth, group.by = "dose", paired = TRUE)

#可视化

p <- ggpaired(ToothGrowth, x="supp", y="len", color = "supp",

palette = "jco", line.color="gray", line.size=0.4, facet.by = "dose",

short.panel.labs = FALSE)#按dose分面

#只显示p-value

p+stat_compare_means(label = "p.format", paired = TRUE)

其他图形

条形图与线图（一个分组变量）

#有误差棒的条形图，实际上我以前的文章里有纯粹用ggplot2实现

ggbarplot(ToothGrowth, x="dose", y="len", add = "mean_se")+

stat_compare_means()+

stat_compare_means(ref.group = "0.5", label = "p.signif", label.y = c(22, 29))

#有误差棒的线图

ggline(ToothGrowth, x="dose", y="len", add = "mean_se")+

stat_compare_means()+

stat_compare_means(ref.group = "0.5", label = "p.signif", label.y = c(22, 29))

条形图与线图（两个分组变量）

ggbarplot(ToothGrowth, x="dose", y="len", add = "mean_se", color = "supp",

palette = "jco", position = position_dodge(0.8))+

stat_compare_means(aes(group=supp), label = "p.signif", label.y = 29)

ggline(ToothGrowth, x="dose", y="len", add = "mean_se", color = "supp",

palette = "jco")+

stat_compare_means(aes(group=supp), label = "p.signif", label.y = c(16, 25, 29))

Sessioninfo

sessionInfo()

## R version 3.4.0 (2017-04-21)

## Platform: x86_64-w64-mingw32/x64 (64-bit)

## Running under: Windows 8.1 x64 (build 9600)

##

## Matrix products: default

##

## locale:

## [1] LC_COLLATE=Chinese (Simplified)_China.936

## [2] LC_CTYPE=Chinese (Simplified)_China.936

## [3] LC_MONETARY=Chinese (Simplified)_China.936

## [4] LC_NUMERIC=C

## [5] LC_TIME=Chinese (Simplified)_China.936

##

## attached base packages:

## [1] stats graphics grDevices utils datasets methods base

##

## other attached packages:

## [1] survminer_0.4.0 ggpubr_0.1.3 magrittr_1.5 ggplot2_2.2.1

##

## loaded via a namespace (and not attached):

## [1] Rcpp_0.12.11 compiler_3.4.0 plyr_1.8.4

## [4] tools_3.4.0 digest_0.6.12 evaluate_0.10

## [7] tibble_1.3.3 gtable_0.2.0 nlme_3.1-131

## [10] lattice_0.20-35 rlang_0.1.1 Matrix_1.2-10

## [13] psych_1.7.5 ggsci_2.4 DBI_0.6-1

## [16] cmprsk_2.2-7 yaml_2.1.14 parallel_3.4.0

## [19] gridExtra_2.2.1 dplyr_0.5.0 stringr_1.2.0

## [22] knitr_1.16 survMisc_0.5.4 rprojroot_1.2

## [25] grid_3.4.0 data.table_1.10.4 KMsurv_0.1-5

## [28] R6_2.2.1 km.ci_0.5-2 survival_2.41-3

## [31] foreign_0.8-68 rmarkdown_1.5 reshape2_1.4.2

## [34] tidyr_0.6.3 purrr_0.2.2.2 splines_3.4.0

## [37] backports_1.1.0 scales_0.4.1 htmltools_0.3.6

## [40] assertthat_0.2.0 mnormt_1.5-5 xtable_1.8-2

## [43] colorspace_1.3-2 ggsignif_0.2.0 labeling_0.3

## [46] stringi_1.1.5 lazyeval_0.2.0 munsell_0.4.3

## [49] broom_0.4.2 zoo_1.8-0

R语言可视化学习笔记之添加p-value和显著性标记的更多相关文章

R语言可视化学习笔记之添加p-value和显著性标记--转载
https://www.jianshu.com/p/b7274afff14f?from=timeline #先加载包 library(ggpubr) #加载数据集ToothGrowth data(&q ...
R语言可视化学习笔记之ggpubr包—SCI文章图
转载:https://www.jianshu.com/p/678213d605a5?from=jiantop.com Hadley Wickham创建的可视化包ggplot2可以流畅地进行优美的可视化 ...
从零开始系列-R语言基础学习笔记之二数据结构（二）
在上一篇中我们一起学习了R语言的数据结构第一部分:向量.数组和矩阵,这次我们开始学习R语言的数据结构第二部分:数据框.因子和列表. 一.数据框类似于二维数组,但不同的列可以有不同的数据类型(每一列内 ...
R语言的学习笔记 (持续更新.....)
1. DATE 处理 1.1 日期格式一个是as.Date(XXX) 和strptime(XXX),前者为Date格式,后者为POSIXlt格式 1.2 用法:as.Date(XXX,"%Y ...
从零开始系列--R语言基础学习笔记之一环境搭建
R是免费开源的软件,具有强大的数据处理和绘图等功能.下面是R开发环境的搭建过程. 一.点击网址 https://www.r-project.org/ ,进入"The R Project fo ...
R语言入门学习笔记 - 对R软件的认识
一.R软件 1.安装R:自行百度☺ 2.R控制台(R Console)和R程序脚本: 打开R软件,就会直接打开控制台,控制台可以显示程序运行的结果.错误提示等信息,也可以直接输入想要执行的操作并立即返 ...
# C语言假期学习笔记——6
C语言假期学习笔记--6 数组主要学习了一位数组和二维数组. 数组是一组具有相同类型的变量的集合.C语言程序通过元素的下标来访问数组中的元素.(下标从0开始) 一位数组类型数组名[元素个数] 二 ...
R语言统计学习-1简介
一. 统计学习概述统计学习是指一组用于理解数据和建模的工具集.这些工具可分为有监督或无监督.1.监督学习:用于根据一个或多个输入预测或估计输出.常用于商业.医学.天体物理学和公共政策等领域.2.无监 ...
R parallel包学习笔记2
这个部分我在datacamp上面学习笔记,可视化的性能很差,使用的函数也很少. 可以参考一下大佬的博客园个人感觉他们讲的真的很详细 https://cosx.org/2016/09/r-and-par ...

随机推荐

解决RTMP推送时间戳问题引起HLS切片不均匀导致手机浏览器播放卡顿的问题
本文转自EasyDarwin开源团队成员Kim的博客:http://blog.csdn.net/jinlong0603/article/details/74161115 引言最近在测试EasyNVR ...
vuex秘籍
vue项目开发中,大型项目一般vuex所需要存储的状态一般都很都,这时,我们便需要进性模块化划分,然后再页面中采用映射来实现state的调用: 目录一般如下: store为总的状态库存放文件. mo ...
vue样式穿透
在一次这样的需求中,需要实现滑倒底部时自动请求数据,需要动态创建节点然后追加到某元素中,这期间遇到的问题就是在动态创建节点后,类名也已经加上了 ,但是样式就是没有生效,最后发现原因的产生竟然是< ...
C++中的友元函数的总结
1.友元函数的简单介绍 1.1为什么要使用友元函数在实现类之间数据共享时,减少系统开销,提高效率.如果类A中的函数要访问类B中的成员(例如:智能指针类的实现),那么类A中该函数要是类B的友元函数.具 ...
stm32寄存器版学习笔记10 SPI
SPI(Serial Peripheral Interface),串行外围设备接口.SPI是一种高速的.全双工.同步的通信总线. SPI接口一般使用4条线通信: MISO 主设备数据输入,从设备数据输 ...
python环境搭建-Linux系统下python2.7升级python3.5.2步骤
首先Python 查看版本 , 在Linux下特别注意权限问题,创建目录时候切记给予权限如果是 ubnutu 请使用首先切换到 sudo su , 否则 make install 会出现问题.. 升 ...
Android学习路线总结，绝对干货（转）
title: Android学习路线总结,绝对干货tags: Android学习路线,Android学习资料,怎么学习androidgrammar_cjkRuby: true--- 一.前言不知不觉 ...
openresty luarocks 安装以及openssl 问题处理
1. 安装方式 wget https://luarocks.github.io/luarocks/releases/luarocks-2.4.3.tar.gz tar -xzvf luarocks ...
jdk、jre、JVM的简单区别与联系
2015-10-20 23:08:52 (1)jdk Java development toolkit(开发工具包),JDK是整个JAVA的核心,包括了Java运行环境jre(Java Runtime ...
strlen和sizeof的长度区别
strlen返回字符长度而sizeof返回整个数组占多长,字符串的\0也会计入一个长度

R语言可视化学习笔记之添加p-value和显著性标记

R语言可视化学习笔记之添加p-value和显著性标记

比较方法

添加p-value

compare_means()函数

stat_compare_means()函数

比较独立的两组

绘制箱线图

比较两个paired sample

利用ggpaired()进行可视化

多组比较

可视化

多个分组变量

其他图形

条形图与线图（一个分组变量）

条形图与线图（两个分组变量）

Sessioninfo

R语言可视化学习笔记之添加p-value和显著性标记的更多相关文章

随机推荐

热门专题

添加`p-value`