散点图简介

散点图通常是用来表述两个连续变量之间的关系,图中的每个点表示目标数据集中的每个样本。

同时散点图中常常还会拟合一些直线,以用来表示某些模型。

绘制基本散点图

本例选用如下测试数据集:

绘制方法是首先调用ggplot函数选定数据集,并在aes参数中指明横轴纵轴。然后调用散点图函数geom_point()便可绘制出基本散点图。R语言示例代码如下:

# 基函数
ggplot(ah, aes(x = ageYear, y = heightIn)) +
# 散点图函数
geom_point()

  运行结果:

基于颜色和点形对数据进行分组

本例选用如下测试数据集:

绘制方法是在基础散点图之上再在基函数的美学参数集里设置一个美学变量。可指定colour或者shape两种参数,分别将不同分组以不同颜色/点形表述。R语言示例代码(基于颜色分组)如下:

# 基函数:colour设置分组
ggplot(sah, aes(x = ageYear, y = heightIn, colour = sex)) +
# 散点图函数
geom_point()

运行结果:

R语言示例代码(基于点形分组)如下:

# 基函数:shape设置分组
ggplot(sah, aes(x = ageYear, y = heightIn, shape = sex)) +
# 散点图函数
geom_point()

运行结果:

说明:可自定义点形,共有大概36种点形可供选择。具体请参考R语言ggplot2手册。

映射连续型变量

本例选用如下测试数据集:

上一个示例中,映射到分组的变量是离散型变量。而对于除了横轴纵轴之外的连续型变量,也可以映射到散点图的色深和点大小上。R语言示例代码(绑定颜色)如下:

# 基函数:colour绑定连续变量
ggplot(sahw, aes(x = ageYear, y = heightIn, colour = weightLb)) +
# 散点图函数
geom_point()

运行结果:

R语言示例代码(绑定大小)如下:

# 基函数:size绑定连续变量
ggplot(sahw, aes(x = ageYear, y = heightIn, size = weightLb)) +
# 散点图函数
geom_point()

运行结果:

处理散点重叠

本例选用如下测试数据集:

如果图中的散点重叠现象比较严重,可以在散点图中设置散点的透明度来进行可视化。R语言示例代码如下:

# 基函数:size、colour分别绑定连续变量
ggplot(sahw, aes(x = ageYear, y = heightIn, size = weightLb, colour = sex)) +
# 散点图函数:alpha设置散点透明度
geom_point(alpha = .5) +
# 使散点的面积正比与变量值
scale_size_area() +
# 标尺函数:palette设置配色方案
scale_colour_brewer(palette = "Set1")

运行结果:

添加回归模型拟合线

本例选用如下测试数据集:

如果需要网散点图中添加回归模型拟合线,最主要是调用stat_smooth()函数。R语言示例代码如下:

# 基函数:sex绑定离散变量
ggplot(sah, aes(x = ageYear, y = heightIn, colour = sex)) +
# 散点图
geom_point() +
# 标尺函数:palette设置配色方案
scale_colour_brewer(palette = "Set1") +
# 拟合回归线段以及置信域(默认0.95/通过level参数可自定义)
geom_smooth()

运行结果:

线段为曲线是因为参与拟合模型为局部线性回归模型。往geom_smooth()函数中加入"method = lm"即可拟合经典线性回归。结果如下图:

添加自定义模型拟合线

本例选用如下测试数据集:

上面一小节展示了用全局/局部回归模型拟合样本点并展示拟合线段,它使用ggplot2提供的geom_smooth()函数自动拟合并完成绘制。

但在更多时候,我们会使用其他包的模型(非ggplot2内置模型)拟合。针对这种情况,我们需要自定义一个函数。该函数接受模型、横纵轴名、横轴范围、横轴样本点数量等参数,输出一个包含预测变量和预测值的数据框。R语言实现代码如下:

# 函数功能:输出模型预测结果
# 参数说明:
# model: 模型变量
# xvar: 预测变量集
# yvar: 实际变量集
# xrange: 预测变量取值范围
# samples: 预测变量个数
# 函数输出:实际值 - 预测值数据集
predictvals = function(model, xvar, yvar, xrange = NULL, samples = 100, ...) { # 模型为lm/glm/loess其中一种的话可自动生成xrange
if (is.null(xrange)) {
if (any(class(model) %in% c("lm", "glm")))
xrange = range(model$model[[xvar]])
else if (any(class(model) %in% "loess"))
xrange = range(model$x)
} # 生成并返回实际值 - 预测值数据集
newdata = data.frame(x = seq(xrange[1], xrange[2], length.out = samples))
names(newdata) = xvar
newdata[[yvar]] = predict(model, newdata = newdata, ...)
newdata
}

    在使用其他模型建模好之后,将新的模型等各参数传递进上述函数,便得到预测结果数据集。最后将新的数据集输出为折线图即可。

下面展示一个略微复杂的例子,它将数据集根据不同性别分为两组,分别建立回归模型并绘制其拟合线。R语言实现代码如下:

# 建模函数:在这里设置模型
make_model = function(data) {
loess(heightIn ~ ageYear, data)
} # 按性别切割数据集并返回模型列表
models = dlply(sah, "sex", .fun = make_model) # 对不同数据集(男/女)进行预测
predvals = ldply(models, .fun = predictvals, xvar = "ageYear", yvar = "heightIn") # 绘制数据集散点图以及模型拟合线
ggplot(sah, aes(x = ageYear, y = heightIn, colour = sex)) +
geom_point() +
geom_line(data = predvals)

运行结果:

向散点图添加边际地毯

本例选用如下测试数据集:

方法很简单,在原先散点图绘制函数的基础上增加边际地毯函数就行。R语言实现代码如下:

# 基函数
ggplot(faithful, aes(x = eruptions, y = waiting)) +
# 散点图函数
geom_point() +
# 边际地毯函数
geom_rug()

  运行结果:

向散点图添加标签

本例选用如下测试数据集:

往散点图中添加标签的方法也很简单,在原有散点图函数的基础上增加文本函数即可。R语言实现代码如下:

# 基函数
ggplot(cty_1, aes(x = healthexp, y = infmortality)) +
# 散点图函数
geom_point() +
# 文本函数:aes参数中:y将原有纵轴值向上偏移,label设置绑定文本
# 将y轴偏移的目的是为了让文本展示在样本点上方而不是中间
geom_text(aes(y = infmortality + .2, label = Name))

  运行结果:

PS:该示例中我们在文本绘制函数中重定义了美学特征集。之后文本绘制函数将使用新的美学特征集,但其他绘制函数的不变。

第五篇:R语言数据可视化之散点图的更多相关文章

  1. 最棒的7种R语言数据可视化

    最棒的7种R语言数据可视化 随着数据量不断增加,抛开可视化技术讲故事是不可能的.数据可视化是一门将数字转化为有用知识的艺术. R语言编程提供一套建立可视化和展现数据的内置函数和库,让你学习这门艺术.在 ...

  2. 第四篇:R语言数据可视化之折线图、堆积图、堆积面积图

    折线图简介 折线图通常用来对两个连续变量的依存关系进行可视化,其中横轴很多时候是时间轴. 但横轴也不一定是连续型变量,可以是有序的离散型变量. 绘制基本折线图 本例选用如下测试数据集: 绘制方法是首先 ...

  3. 第六篇:R语言数据可视化之数据分布图(直方图、密度曲线、箱线图、等高线、2D密度图)

    数据分布图简介 中医上讲看病四诊法为:望闻问切.而数据分析师分析数据的过程也有点相似,我们需要望:看看数据长什么样:闻:仔细分析数据是否合理:问:针对前两步工作搜集到的问题与业务方交流:切:结合业务方 ...

  4. 第三篇:R语言数据可视化之条形图

    条形图简介 数据可视化中,最常用的图非条形图莫属,它主要用来展示不同分类(横轴)下某个数值型变量(纵轴)的取值.其中有两点要重点注意: 1. 条形图横轴上的数据是离散而非连续的.比如想展示两商品的价格 ...

  5. 第一篇:R语言数据可视化概述(基于ggplot2)

    前言 ggplot2是R语言最为强大的作图软件包,强于其自成一派的数据可视化理念.当熟悉了ggplot2的基本套路后,数据可视化工作将变得非常轻松而有条理. 本文主要对ggplot2的可视化理念及开发 ...

  6. 第二篇:R语言数据可视化之数据塑形技术

    前言 绘制统计图形时,半数以上的时间会花在调用绘图命令之前的数据塑型操作上.因为在把数据送进绘图函数前,还得将数据框转换为适当格式才行. 本文将给出使用R语言进行数据塑型的一些基本的技巧,更多技术细节 ...

  7. 吴裕雄--天生自然 R语言数据可视化绘图(3)

    par(ask=TRUE) opar <- par(no.readonly=TRUE) # record current settings # Listing 11.1 - A scatter ...

  8. 吴裕雄--天生自然 R语言数据可视化绘图(4)

    par(ask=TRUE) # Basic scatterplot library(ggplot2) ggplot(data=mtcars, aes(x=wt, y=mpg)) + geom_poin ...

  9. 吴裕雄--天生自然 R语言数据可视化绘图(2)

    par(ask=TRUE) opar <- par(no.readonly=TRUE) # save original parameter settings library(vcd) count ...

随机推荐

  1. CSS远程加载字体

    CSS 远程加载字体的方法,做网站CSS的都知道,用户浏览网站时,网页上的字体是加载本地的.换言之,如果网站使用了用户电脑所没有安装的字体,那显示字体就会被默认字体所代替了,自然效果就大受影响了. 上 ...

  2. 解决Maven中Missing artifact javax.jms:jms:jar:1.1:compile

    搭建好项目后报错: Missing artifact javax.jms:jms:jar:1.1:compile  于POM.xml中 解决方案: 一 :在nexus中配置一个代理仓库     地址为 ...

  3. Object.defineProperty 规则

  4. 应用mysql(Linux中安装)

    当前 mysql 官网的安装教程,指明可以使用 yum 方式. 若在Ubuntu中安装,参考“Linux(Ubuntu)下MySQL的安装与配置”. MySQL YUM Repository MySQ ...

  5. html中混入的特殊字符

    从设计那里拿来的psd中常常会有全角的单双引号. 如果只是拷贝这些字符到做好的html里面,顶多看到乱码再加以改正. 但是,如果是通篇的doc,需要加上各种html语义标签,在拷贝来的doc文字之间加 ...

  6. Pair of Numbers

    Codeforces Round #209 (Div. 2) D:http://codeforces.com/contest/359/problem/D 题意:给以一个n个数的序列,然后问你最大的区间 ...

  7. The Child and Toy

    Codeforces Round #250 (Div. 2) C:http://codeforces.com/problemset/problem/437/C 题意:给以一个无向图,每个点都有一点的权 ...

  8. Sort it all out

    poj1094:http://poj.org/problem?id=1094 题解(一位大神的分析) 一.当输入的字母全部都在前n个大写字母范围内时: (1)最终的图 可以排序: 在输入结束前如果能得 ...

  9. ajax异步请求不能刷新数据的问题

    搞了两三天的问题,今天解决了.总结下: function reportGrpChange(cuid, title){ document.getElementById('reportFrameDiv') ...

  10. 整整68页学习C++的文章

    有空看看,有不少好东西: http://dev.21tx.com/language/c/index.shtml