R绘图 第四篇:绘制箱图(ggplot2)
箱线图通过绘制观测数据的五数总括,即最小值、下四分位数、中位数、上四分位数以及最大值,描述了变量值的分布情况。箱线图能够显示出离群点(outlier),离群点也叫做异常值,通过箱线图能够很容易识别出数据中的异常值。
箱线图提供了识别异常值的一个标准:
异常值通常被定义为小于 QL - l.5 IQR 或者 大于 Qu + 1.5 IQR的值,QL称为下四分位数, Qu称为上四分位数,IQR称为四分位数间距,是Qu上四分位数和QL下四分位数之差,其间包括了全部观察值的一半。
箱线图的各个组成部分的名称及其位置如下图所示:

箱线图可以直观地看出数据集的以下重要性值:
中心位置:中位数所在的位置就是数据集的中心;
散布程度:箱线图分为多个区间,区间较短时,表示落在该区间的点较集中;
对称性:如果中位数位于箱子的中间位置,那么数据分布较为对称;如果极值离中位数的距离较大,那么表示数据分布倾斜
一,绘制箱线图
绘制箱线图比较简单,通常情况下,我们使用ggplot和geom_boxplot绘制箱线图,在下面的小节中,我们使用ToothGrowth作为示例数据:
ToothGrowth$dose <- as.factor(ToothGrowth$dose)
head(ToothGrowth) len supp dose
4.2 VC 0.5
11.5 VC 0.5
7.3 VC 0.5
5.8 VC 0.5
6.4 VC 0.5
10.0 VC 0.5
1,绘制基本的箱线图
使用geom_boxplot绘制基本的箱线图:
library(ggplot2) ggplot(ToothGrowth, aes(x=dose, y=len)) +
geom_boxplot()

2,设置离群点(outlier)
geom_boxplot函数中有outlier开头的多个参数,用于修改离群点的属性:
- outlier.colour:离群点的颜色
- outlier.fill:离群点的填充色
- outlier.shape:离群点的形状
- outlier.size:离群点的大小
- outlier.alpha:离群点的透明度
示例代码如下:
ggplot(ToothGrowth, aes(x=dose, y=len)) +
geom_boxplot(outlier.colour="red", outlier.shape=, outlier.size=)

3,设置箱线图的颜色
通过aes(color=)函数可以为每个箱线图设置一个颜色,而箱线图的划分是通过 aes(color=)函数的color参数来划分的,划分箱线图之后,scale_color_*()函数才会起作用,该函数用于为每个箱线图设置前景色和填充色,颜色是自定义的:
scale_fill_manual() #for box plot, bar plot, violin plot, etc
scale_color_manual() #for lines and points
以下代码设置箱线图的前景色:
ggplot(ToothGrowth, aes(x=dose, y=len,color=dose)) +
geom_boxplot()+
scale_color_manual(values=c("#999999", "#E69F00", "#56B4E9"))

4,设置Legend 的位置
说明(Legend)是对箱线图的解释性描述,默认的位置是在画布的右侧中间位置,可以通过theme()函数修改Legend的位置,lengend.position的有效值是top、right、left、bottom和none,默认值是right:
p <- ggplot(ToothGrowth, aes(x=dose, y=len,color=dose)) +
geom_boxplot()+
scale_color_manual(values=c("#999999", "#E69F00", "#56B4E9")) p + theme(legend.position="top")
p + theme(legend.position="bottom")
p + theme(legend.position="none") # Remove legend

5,设置箱线图的标题和坐标轴的名称
通过labs设置箱线图的标题和坐标的名称,参数title用于设置标题,x和y用于设置x轴和y轴的标签:
ggplot(ToothGrowth, aes(x=dose, y=len,color=dose)) +
geom_boxplot()+
scale_color_manual(values=c("#999999", "#E69F00", "#56B4E9"))+
theme(legend.position="right")+
labs(title="Plot of length per dose",x="Dose (mg)", y = "Length")

6,绘制箱线图的散点
通过geom_point函数,向箱线图中添加点,geom_jitter()函数是geom_point(position = "jitter")的包装,binaxis="y"是指沿着y轴进行分箱:
# Box plot with dot plot
p + geom_dotplot(binaxis='y', stackdir='center', dotsize=)
# Box plot with jittered points
# 0.2 : degree of jitter in x direction
p + geom_jitter(shape=, position=position_jitter(0.2))

7,旋转箱线图
函数coord_flip()用于翻转笛卡尔坐标系,使水平变为垂直,垂直变为水平,主要用于把显示y条件x的geoms和统计信息转换为x条件y。
p <- ggplot(ToothGrowth, aes(x=dose, y=len)) +
geom_boxplot() +
coord_flip()

二,异常值检测
绘制散点图,并标记异常值:
ggplot(ToothGrowth, aes(x=dose, y=len,color=dose)) +
geom_boxplot(outlier.colour="red", outlier.shape=,outlier.size=)+
scale_color_manual(values=c("#999999", "#E69F00", "#56B4E9"))+
theme(legend.position="right")+
labs(title="Plot of length per dose",x="Dose (mg)", y = "Length")+
geom_dotplot(binaxis='y', stackdir='center', stackratio=1.5, dotsize=1.2)

当箱线图中的异常值过多时,绘制的图中,箱子被压成一条线,无法观察到数据的分布,这就需要移除异常值,只保留适量的离群点,常见的做法是改变ylim的范围,代码是:
# compute lower and upper whiskers
ylim1 = boxplot.stats(df$y)$stats[c(, )] # scale y limits based on ylim1
ggplot() + gemo_box() + coord_cartesian(ylim = ylim1*1.05)
三,箱图的排序
对箱图的排序,实际上,是对箱图的x轴因子进行排序,而因子的顺序是由因子水平决定的。在对箱图进行排序时,可以按照数据的均值对x轴因子水平进行排序,重置数据框x轴的因子水平,就可以实现箱图的排序:
x_order <- df %>%
group_by(x_factor) %>%
summarize(mean_y=mean(y_value))%>%
ungroup()%>%
arrange(desc(mean_y))%>%
select(x_factor); df$x_factor<-factor(df$x_factor,levels=as.character(x_order$x_factor),ordered = TRUE)
参考文档:
ggplot2 box plot : Quick start guide - R software and data visualization
A box and whiskers plot (in the style of Tukey)
R绘图 第四篇:绘制箱图(ggplot2)的更多相关文章
- R绘图 第六篇:绘制线图(ggplot2)
线图是由折线构成的图形,线图是把散点从左向右用直线连接起来而构成的图形,在以时间序列为x轴的线图中,可以看到数据增长的趋势. geom_line(mapping = NULL, data = NULL ...
- R绘图 第五篇:绘制散点图(ggplot2)
ggplot2包中绘制点图的函数有两个:geom_point和 geom_dotplot,当使用geom_dotplot绘图时,point的形状是dot,不能改变点的形状,因此,geom_dotplo ...
- R绘图 第七篇:绘制条形图(ggplot2)
使用geom_bar()函数绘制条形图,条形图的高度通常表示两种情况之一:每组中的数据的个数,或数据框中列的值,高度表示的含义是由geom_bar()函数的参数stat决定的,stat在geom_ba ...
- R绘图 第八篇:绘制饼图(ggplot2)
geom_bar()函数不仅可以绘制条形图,还能绘制饼图,跟绘制条形图的区别是坐标系不同,绘制饼图使用的坐标系polar,并且设置theta="y": coord_polar(th ...
- R绘图 第十一篇:统计转换、位置调整、标度和向导(ggplot2)
统计转换和位置调整是ggplot2包中的重要概念,统计转换通常使用stat参数来引用,位置调整通常使用position参数来引用. bin是分箱的意思,在统计学中,数据分箱是一种把多个连续值分割成多个 ...
- R绘图 第十篇:绘制文本、注释和主题(ggplot2)
使用ggplot2包绘制时,为了更直观地向用户显示报表的内容和外观,需要使用geom_text()函数添加文本说明,使用annotate()添加注释,并通过theme()来调整非数据的外观. 一,文本 ...
- R绘图 第十二篇:散点图(高级)
散点图用于描述两个连续性变量间的关系,三个变量之间的关系可以通过3D图形或气泡来展示,多个变量之间的两两关系可以通过散点图矩阵来展示. 一,添加了最佳拟合曲线的散点图 使用基础函数plot(x,y)来 ...
- R实战 第五篇:绘图(ggplot2)
ggplot2包实现了基于语法的.连贯一致的创建图形的系统,由于ggplot2是基于语法创建图形的,这意味着,它由多个小组件构成,通过底层组件可以构造前所未有的图形.ggplot2可以把绘图拆分成多个 ...
- R绘图(2): 离散/分类变量如何画热图/方块图
相信很多人都看到过上面这种方块图,有点像"华夫饼图"的升级版,也有点像"热图"的离散版.我在一些临床多组学的文章里面看到过好几次这种图,用它来展示病人的临床信息 ...
随机推荐
- 光杆mdf文件的导入
场景,准备学习SSAS的时候,按照教程在微软下载了示例数据库AdventureWorksDW2012,下载来才发现只有一个mdf文件. 正好今天群里有位兄弟也碰到差不多的问题,客户数据库里的ldf文件 ...
- 修改SQL Server数据库表的创建时间最简单最直接有效的方法
说明:这篇文章是几年前我发布在网易博客当中的原创文章,但由于网易博客现在要停止运营了,所以我就把这篇文章搬了过来,因为这种操作方式是通用的,即使是对现在最新的SQL Server数据库里面的操作也是一 ...
- Difference between HashMap and Hashtable | HashMap Vs Hashtable
Both the HashMap and Hashtable implement the interface java.util.Map but there are some slight diffe ...
- C#程序如何捕捉未try/catch的异常——不弹“XXX已停止工作”报错框
诚意满满直接上代码: static void Main(string[] args) { //Main函数中增加此句 AppDomain.CurrentDomain.UnhandledExceptio ...
- 前端aes解密实战小结
很多人对于AES加密并不是很了解,导致互相之间进行加密解密困难. 本文用简单的方式来介绍AES在使用上需要的知识,而不涉及内部算法.最后给出例子来帮助理解AES加密解密的使用方法. AES的麻烦 相比 ...
- 《JavaScript高级程序设计》读书笔记--ECMAScript中所有函数的参数都是按值传递的
ECMAScript中所有函数的参数都是按值传递的.也就是说把函数外部的值复制给函数内部的参数(内部参数的值的修改不影响实参的值). 基本类型变量的复制: 基本类型变量的复制,仅仅是值复制,num1和 ...
- JSONP方法解决跨域请求
Ajax跨域请求的问题 跨域:跨域名, 一个域名下的文件去请求了和他不一样的域名下的资源文件(注意是请求文件,而不是数据接口),那么就会产生跨域请求,下面来写一个ajax来跨域请求的例子 <!D ...
- jQuery做字符串分隔
var str=new String(); var arr=new Array(); str="ddd,dsd,3,dd,g,k"; //可以用字符或字符串分割 arr=str.s ...
- 深入C#学习系列一:序列化(Serialize)、反序列化(Deserialize)
序列化概述: 序列化 (Serialization)将对象的状态信息转换为可以存储或传输的形式的过程.在序列化期间,对象将其当前状态写入到临时或持久性存储区.以后,可以通过从存储区中读取或反序列化对象 ...
- java中线程的几种状态和停止线程的方法
1.线程的状态图 需要注意的是:线程调用start方法是使得线程到达就绪状态而不是运行状态 2.停止线程的两种方法 1)自然停止:线程体自然执行完毕 2)外部干涉:通过线程体标识 1.线程类中定义线程 ...