R语言学习笔记——Base Graphics

做exploratory data annalysis的作业，差点被虐死了，R从头开始，边做边学，最后搞到一点多才弄完，还有一个图怎么画都不对，最后发现是数据读取的时候有问题。

用来画图的数据来自：http://archive.ics.uci.edu/ml/datasets/Individual+household+electric+power+consumption

数据属性如下：

Attribute Information:

.date: Date in format dd/mm/yyyy

.time: time in format hh:mm:ss

.global_active_power: household global minute-averaged active power (in kilowatt)

.global_reactive_power: household global minute-averaged reactive power (in kilowatt)

.voltage: minute-averaged voltage (in volt)

.global_intensity: household global minute-averaged current intensity (in ampere)

.sub_metering_1: energy sub-metering No.  (in watt-hour of active energy). It corresponds to the kitchen, containing mainly a dishwasher, an oven and a microwave (hot plates are not electric but gas powered).

.sub_metering_2: energy sub-metering No.  (in watt-hour of active energy). It corresponds to the laundry room, containing a washing-machine, a tumble-drier, a refrigerator and a light.

.sub_metering_3: energy sub-metering No.  (in watt-hour of active energy). It corresponds to an electric water-heater and an air-conditioner.

1.读取数据：

在R中，要从txt读取数据，需要使用read.table函数，它的几个常用的参数列表如下：

参数	含义
file	文件的名字，可以用文件的绝对路径
header	逻辑值，为1表示文件第一行包含各个变量的名称，如果不包含，可以用colnames参数指定
sep	各个变量之间的分隔符，可能是空格，分号，逗号等等，根据文件自定义就可以了
col.names	是一个向量，指定每一列的名称
colClasses	是一个类向量，指定每一列的类别
na.strings	表明数据中什么样的值被定义为NA

本例中用如下代码读入数据：

x<-read.table("D:/coursera/data analysis/household_power_consumption.txt",sep=";", header=T, colClasses = c('character', 'character', 'numeric',

                                    'numeric', 'numeric', 'numeric','numeric', 'numeric', 'numeric'),na.strings='?')

2. 合并年月日和时分秒，并把它们转换成Date类型存放到新增加的一列DateTime中

上述代码中是将年月日和时分秒按照character类型读入的，接下来的运算中使用Date类型会比较方便。

主要有两个步骤：1.利用paste函数拼接年月日和时分秒；2.将拼接后的串转换成Date型。

代码如下:

x$DateTime <- strptime(paste(x$Date, x$Time),"%d/%m/%Y %H:%M:%S")

这里，strptime把粘贴Date和Time得到的串转换成Date格式，其中第二个参数format非常重要，原来的数据形如16/12/2006 17:24:00，所以format中的"%d/%m/%Y %H:%M:%S"要和数据一一对应。比如这里用了Y而不是y，原因在于Y表示带世纪的年份，而y只能表示不带实际的年份，它的取值范围只有00~99。还有数据中用于分隔的“/”和":"都不能省略，一旦格式和数据不同，就会发现转换后的数据都变成NA。strptime中format常用的几个参数列出如下：

%d	day（01~31）
%m	month（01~12）
%Y	Year with century(0~9999)
%y	Year without century(00~99)
%H	hour（00~23）
%M	minutes（00~59）
%S	second(00~61)

(ps.我也不知道为什么%S可以到61，帮助文档里面是这么写的=。=)

转换后DateTime值形如：2006-12-16 17:24:00

3.抽取日期范围在“2007-2-1”和“2007-2-2”之间（包括边界）的数据放入s中：

s <- subset(x,as.Date(DateTime) >= as.Date("2007-02-01")&as.Date(DateTime) <= as.Date("2007-02-02"))

这里主要用到as.Date()函数，它把一个串转换为Date格式。

4.直方图

这里主要以global_active_power频度直方图为例，代码如下：

hist(s$Global_active_power,freq=TRUE,col="red",xlab="Global Active Power(kilowatts)",ylab="Frequency",xaxt="n",yaxt="n",main="Global Active Power")

axis(side=,at=seq(,,))

axis(side=,at=NULL)

hist函数有多个参数，可以在帮助文档中查看，常用的几个列举如下：

pch	图例样式，默认为空心的小圆圈
col	颜色，用整数定义，可以用colors()函数查看所有的颜色（查了一下，居然有657种=。=）
xlab	x轴标签
ylab	y轴标签
main	图像名称

上述的参数中还设置了xaxt="n",yaxt="n",是为了之后用axis(side=2,at=seq(0,1200,200))和axis(side=1,at=NULL)分别标注x和y轴的刻度。其中的seq(0,1200,200)表示产生一个0~1200，以200为公差的等差序列。

5.把图像存为png格式

dev.copy(png,filename="plot1.png",height=, width=,bg="white")

dev.off()

这里会把图像存放在当前路径下，可以用getwd()查看当前路径。

生成的图像如下：

6. 折线图

这里以DateTime-global_active_power折线图为例，有两种画图方式

5.1 直接用plot：

plot(s$DateTime, s$Global_active_power, xlab="n", ylab="Global Active Power(kilowatt)", type="l",lty=)

5.2 用plot和lines函数：

plot(s$DateTime, s$Global_active_power, xlab="n", ylab="Global Active Power(kilowatt)", pch=NA)

lines(x$DateTime, x$Global_active_power)

先用pch=NA画出一张空白图，然后用lines在上面增加折线。

第二种方法的时间会比第一种的慢。

画出的图形如下：

7. 在一张图中画出多条折线并增加图例

上述的第二种方法只要多加几个lines()函数就可以实现这一功能了。这里以DateTime-sub_metering_*(*=1,2,3)为例：

plot(s$DateTime, s$Sub_metering_1, yaxt="n", ylab="Energy Sub metering",type="l")

lines(s$DateTime, s$Sub_metering_2, col="red")

lines(s$DateTime, s$Sub_metering_3, col="blue")

增加图例用legend()函数：

legend("topright",legend=c("sub_metering_1","sub_metering_2","sub_metering_3"),col=c("black","red","blue"),cex=0.8)

其中legend=c("sub_metering_1","sub_metering_2","sub_metering_3")规定三个图例的名称，col=c("black","red","blue")规定三个图例的颜色，cex=0.8规定图例大小。

整体折线图如下：

8. 在一张图上画多个小图。

使用par函数设置一幅图的整体特征就可以做到这一点。par()函数常用的参数列表如下：

las	取值在{0,1,2,3}中，规定轴标签的位置，比如与坐标轴平行，垂直等等
bg	背景颜色
mar	边缘大小，一般用mar=c(1,2,3,4)制定，1,2,3,4对应的数字分别制定下，左，上，右的边缘大小
oma	图外部的边缘大小，默认为0
mfrow	每行图的数量
mfcol	每列图的数量

上述有一点关于mfrow和mfcol的区别，通过使用mfrow(2,2)和mfcol(2,2)我们都可以得到2*2张子图，二者的区别在于作图的顺序不同,mfrow(2,2)通过左上->右上->左下->右下顺序作图，而mfcol(2,2)通过左上->左下->右上->右下的方式作图，虽然不知道这种区别有什么用，先放在这里了。

如上表所示，如果我们改变mfrow和mfcol的数值就可以在一幅图上画出mfrow*mfcol张小图，代码如下：

par(oma=c(,,,),mfrow=c(,),mar=c(,,,))

把上述三幅图加上另外一幅图一共四幅图画在一张图上：

 #读入数据

 x<-read.table("D:/coursera/data analysis/household_power_consumption.txt",sep=";", header=T, colClasses = c('character', 'character', 'numeric','numeric', 'numeric', 'numeric','numeric', 'numeric', 'numeric'),na.strings='?')

 #整个图中画2*2幅小图

 par(oma=c(,,,),mfrow=c(,),mar=c(,,,))

 #处理时间

 x$DateTime <- strptime(paste(x$Date, x$Time),"%d/%m/%Y %H:%M:%S")

 s <- subset(x,as.Date(DateTime) >= as.Date("2007-02-01")&as.Date(DateTime) <= as.Date("2007-02-02"))

 s$Time <- strptime(s$Time,"%Y-%m-%d %H:%M:%S")

 #第一张图

 hist(s$Global_active_power,freq=TRUE,col="red",xlab="Global Active Power(kilowatts)",ylab="Frequency",xaxt="n",yaxt="n",main="Global Active Power")

 axis(side=,at=seq(,,))

 axis(side=,at=NULL)

 #第二张图

 plot(s$DateTime, s$Global_active_power, xlab="n", ylab="Global Active Power(kilowatt)", type="l",lty=)

 axis(side=,at=seq(,,))

 #第三张图

 plot(s$DateTime, s$Sub_metering_1, yaxt="n", ylab="Energy Sub metering",type="l")

 lines(s$DateTime, s$Sub_metering_2, col="red")

 lines(s$DateTime, s$Sub_metering_3, col="blue")

 axis(side=,at=seq(,,))

 legend("topright",legend=c("sub_metering_1","sub_metering_2","sub_metering_3"),col=c("black","red","blue"),cex=0.8)

 #第四章图

 plot(s$DateTime, as.numeric(s$Global_reactive_power),xlab="datetime", ylab="Global reactive power", type="h",lty=)

 axis(side=,at=seq(0.0,0.5,0.1))

 dev.copy(png,filename="plot4.png",height=, width=,bg="white")

 dev.off()

图形如下：

R语言学习笔记——Base Graphics的更多相关文章

R语言学习笔记之: 论如何正确把EXCEL文件喂给R处理
博客总目录:http://www.cnblogs.com/weibaar/p/4507801.html ---- 前言: 应用背景兼吐槽继续延续之前每个月至少一次更新博客,归纳总结学习心得好习惯. ...
R语言学习笔记（二）
今天主要学习了两个统计学的基本概念:峰度和偏度,并且用R语言来描述. > vars<-c("mpg","hp","wt") &g ...
R语言学习笔记：小试R环境
买了三本R语言的书,同时使用来学习R语言,粗略翻下来感觉第一本最好: <R语言编程艺术>The Art of R Programming <R语言初学者使用>A Beginne ...
R语言学习笔记：基础知识
1.数据分析金字塔 2.[文件]-[改变工作目录] 3.[程序包]-[设定CRAN镜像] [程序包]-[安装程序包] 4.向量 c() 例:x=c(2,5,8,3,5,9) 例:x=c(1:100) ...
R语言学习笔记——C#中如何使用R语言setwd()函数
在R语言编译器中,设置当前工作文件夹可以用setwd()函数. > setwd("e://桌面//")> setwd("e:\桌面\")> s ...
R语言学习笔记-机器学习1-3章
在折腾完爬虫还有一些感兴趣的内容后,我最近在看用R语言进行简单机器学习的知识,主要参考了<机器学习-实用案例解析>这本书. 这本书是目前市面少有的,纯粹以R语言为基础讲解的机器学习知识,书 ...
R语言学习笔记（一）
1.不同的行业对数据集(即表格)的行和列称谓不同,统计学家称其为观测(observation)和变量(variable): 2.R语言存储数据的结构: ①向量:类似于C语言里的一位数组,执行组合功能的 ...
R语言学习笔记
向量化的函数向量化的函数 ifelse/which/where/any/all/cumsum/cumprod/对于矩阵而言,可以使用rowSums/colSums.对于“穷举所有组合问题" ...
R语言学习笔记-变量的作用域
R语言是如何将变量值和变量绑定的在r语言中,当前的 workspace就是global enviroment,当输入变量名时,首先会在global enviroment中搜索该变量,如有,则将它显示 ...

随机推荐

python 解析web接口的json数据
实例1-使用urllib2 #utf-8 import urllib2 import json url="http://xxx.com" #获取json格式的字符串 page=ur ...
Matlab交集并集的实现
>> a = [1 2 3 4 8 9]; >> b = [4 5 6 1] b = 4 5 6 1 >> c = intersect(a,b) c = 1 4 判 ...
4-Highcharts曲线图之时间轴折线图
鼠标按住左键左右移动可以试试<!DOCTYPE> <html lang='en'> <head> <title>4-Highcharts曲线图之时间轴 ...
[工作积累] Google Play Game SDK details
https://developers.google.com/games/services/cpp/api/structgpg_1_1AndroidSupport For apps which targ ...
POJ 1700 Crossing River (贪心)
Crossing River Time Limit: 1000MS Memory Limit: 10000K Total Submissions: 9585 Accepted: 3622 Descri ...
css 内联元素inline 行框全解
首先看一篇文章: CSS框模型:一切皆为框 — 从行框说起一行框看图说话上图代表了框模型中的行框.line-height 属性设置行间的距离(行高).该属性会影响行框的布局.在应用到一个块级元 ...
.net 类型源码下载地址
原文:http://www.cnblogs.com/ProJKY/p/SSCLI.html 一般场景下,采用 Reflector可以反射出.NET 的部分实现出来,可以拿来参考,但和微软公开的SSCL ...
在线API文档
http://www.ostools.net/apidocs A Ace akka2.0.2 Android Ant Apache CXF Apache HTTP服务器 ASM字节码操作 AutoCo ...
视频转换工具 Transmageddon
点这里 Transmageddon 是一个采用 Python 语言开发的视频转换工具,支持输出几乎所有的视频格式,同时也可以生成指定平台下的视频格式. 软件界面如下图所示
iOS多线程的初步研究（五）-- 如何让NSURLConnection在子线程中运行
可以有两个办法让NSURLConnection在子线程中运行,即将NSURLConnection加入到run loop或者NSOperationQueue中去运行. 前面提到可以将NSTimer手动加 ...

R语言学习笔记——Base Graphics

R语言学习笔记——Base Graphics的更多相关文章

随机推荐

热门专题