dplyr-高效的数据变换与整理工具--转载
1、背景简介
在数据分析工作中,经常需要对原始的数据集进行清洗、整理以及变换。常用的数据整理与变换工作主要包括:特定分析变量的选取、满足条件的数据记录的筛选、按某一个或几个变量排序、对原始变量进行加工处理并生成新的变量、对数据进行汇总以及分组汇总,比如计算各组的平均值等。
其实,上述的数据处理与变换工作在任何一种SQL语言(如Oracle,MySQL)中都非常容易处理,但是R语言作为一门编程语言,如何高效地完成上述类似SQL语言的数据处理功能?本文介绍的R语言dplyr包正是这方面工作的有力武器之一。
dplyr包是 Hadley Wickham (ggplot2包的作者,被称作“一个改变R的人”)的杰作, 并自称 a grammar of data manipulation, 他将原本plyr 包中的ddply()等函数进一步分离强化,专注接受dataframe对象, 大幅提高了速度, 并且提供了更稳健的与其它数据库对象间的接口。
本文试图对该dplyr包的一些基础且常用的功能做简要介绍。主要包括:
- 变量筛选函数
select - 记录筛选函数
filter - 排序函数
arrange - 变形(计算)函数
mutate - 汇总函数
summarize - 分组函数
group_by - 多步操作连接符
%>% - 随机抽样函数
sample_n,sample_frac

2、dplyr包使用介绍
2.1 dplyr包的安装加载与示例数据准备
安装dplyr包。
install.packages("dplyr")
library(dplyr)
安装hflights包,该软件包中的飞机航班数据将用于本文中dplyr包各个函数的演示。
install.packages("hflights")
library(hflights)
通过以下代码,简单了解示例数据集hflights。
class(hflights);dim(hflights)
head(hflights)
输出结果如下:
hflights是一个data.frame类型的对象,包含227496条数据记录、21个变量,head函数展示了前6条数据记录。

在利用dplyr包处理数据之前,需要将数据装载成dplyr包的一个特定对象类型(data frame tbl / tbl_df),也称作 tibble 类型,可以用 tbl_df函数将数据框类型的数据装载成 tibble 类型的数据对象。
packageVersion("dplyr")
tbl_hflights<-tbl_df(hflights)
class(tbl_hflights)
tbl_hflights
输出结果如下:可以看到,将hflights转换成tbl_df类型后,R语言打印数据集tbl_hflights的数据时,仅打印了适合屏幕宽度的数据,屏幕显示不下的剩余两个变量的数据(CancellationCode , Diverted )并没有打印出来,这使得屏幕上打印出来的数据可读性更强,也更美观。此外,还在每一列变量名称的下面显示了变量的类型。

==p.s. 可以用packageVersion函数查看dplyr包的版本==
2.2 变量筛选select
select函数可以通过指定列名选择指定的变量进行分析。
# 选择制定的变量
select(tbl_hflights,Year,Month,DayofMonth,FlightNum,Distance)
# 用类似于生成数字序列的方式选择变量
# 选择Year开始一直到ArrTime结束的所有变量
3:10
select(tbl_hflights,Year:ArrTime)
# 也可以按照倒过来的顺序选择
select(tbl_hflights,ArrTime:Year)
# 除了选择变量,也可以删除指定的变量
select(tbl_hflights,-Year,-Month,-DayofMonth,-FlightNum,-Distance)
select(tbl_hflights,-(Year:ArrTime))





2.3 数据记录筛选filter
filter函数按照指定的条件筛选符合条件中逻辑判断要求的数据记录,类似于SQL语句中的where语句中的筛选条件。
# 选择2011年1月而且起飞时间为1400的所有数据记录
filter(tbl_hflights,Year == 2011, Month == 1, DepTime == 1400)
# '且'的关系也可以用&符号表示,也就是列出的所有条件同时满足
filter(tbl_hflights,Year == 2011 & Month == 1 & DepTime == 1400)
# 选择起飞时间在1400之前的航班
filter(tbl_hflights,Year == 2011 & Month == 1 & DepTime <= 1400)
# '或'的关系用|符号表示。选择起飞时间为1400或者1430的航班,且UniqueCarrier为'AA'
filter(tbl_hflights,Year == 2011 & Month == 1 & (DepTime == 1400 | DepTime == 1430) & UniqueCarrier == 'AA')
上述R语句输出结果如下:




2.4 数据排序arrange
arrange函数按给定的列名进行排序,默认为升序排列,也可以对列名加desc()进行降序排序。
tbl_hflights1<-select(filter(tbl_hflights,Year == 2011 & Month == 1 & DepTime == 1400),Year:ArrTime,AirTime)
# 将数据按照ArrTime升序排序
arrange(tbl_hflights1,ArrTime)
# 将数据先按照AirTime降序,再按照ArrTime升序排列
arrange(tbl_hflights1,desc(AirTime),ArrTime)
上述R语句输出结果如下:


2.5 变量变换/重构mutate
mutate函数可以基于原始变量重新计算得到新的变量,在做数据分析预处理的时候经常会用到该功能。
# 由ArrTime-DepTime得到航班的飞行所用时长,并存储在DurTime变量中
# 飞行所用时长(单位:分钟)的计算方式为:小时数*60+分钟数
# 同时将飞行的分钟数,换算成秒。
# 优势在于可以在同一语句中对刚增加的列进行操作。
tbl_hflights2<-mutate(tbl_hflights1,
DurTime = (as.numeric(substr(ArrTime,1,2)) - as.numeric(substr(DepTime,1,2)))*60 + as.numeric(substr(ArrTime,3,4)) ,
Dur_Time1 = DurTime * 60)
tbl_hflights2
上述R语句输出结果如下:

2.6 数据汇总summarize
summarize函数实现对数据的汇总,比如求和、计算平均值等。
# 计算航班平均飞行时长
summarize(tbl_hflights2,avg_dur = mean(DurTime),sum_air = sum(AirTime))
上述R语句输出结果如下:

2.7 数据分组group_by
group_by函数实现对数据进行分组,结合summarize函数,可以对分组数据进行汇总统计。
# 按照航空公司分组进行汇总
summarise(group_by(tbl_hflights, UniqueCarrier),
m = mean(AirTime,na.rm = TRUE),
sd = sd(AirTime,na.rm = TRUE),
cnt = n(),
me = median(AirTime,na.rm = TRUE))
上述R语句输出结果如下:

2.8 多步操作连接符%>%
dplyr包里还新引进了一个操作符,%>%, 使用时把数据集名作为开头, 然后依次对此数据进行多步操作。
这种运算符的编写方式使得编程者可以按数据处理时的思路写代码, 一步一步操作不断叠加,在程序上就可以非常清晰的体现数据处理的步骤与背后的逻辑。
# 对数据进行分布处理:分组-汇总-排序-打印
tbl_hflights %>%
group_by(UniqueCarrier) %>%
summarize(m = mean(AirTime,na.rm = TRUE), sd = sd(AirTime,na.rm = TRUE)) %>%
arrange(desc(m),sd) %>%
head(10)
上述R语句输出结果如下:

2.9 挑选随机样本sample_n, sample_frac
sample_n随机选出指定个数(样本容量)的样本数;sample_frac随机选出指定百分比(占整个数据集总体百分比)的样本数。
# 随机抽取10个样本
sample_n(tbl_hflights,10)
# 随机抽取10%的样本
tbl_hflights %>%
sample_frac(0.1) %>%
select(Year:UniqueCarrier) %>%
group_by(UniqueCarrier) %>%
summarize(m = mean(ArrTime,na.rm = TRUE), cnt = n()) %>%
arrange(desc(m))
上述R语句输出结果如下:


3、参考文献与其他学习资料
3.1 dplyr包中自带的参考资料查看
可以通过如下名称查看dplyr包中自带的参考资料。
# 查看自带的参考资料
vignette(package = "dplyr")
vignette("introduction", package = "dplyr")


3.2 本文写作用到的参考链接
R语言扩展包dplyr笔记
R语言扩展包dplyr——数据清洗和整理
3.3 RStudio官网的cheatsheet


作者:monkeylan
链接:https://www.jianshu.com/p/b2abad66cb01
來源:简书
简书著作权归作者所有,任何形式的转载都请联系作者获得授权并注明出处。
dplyr-高效的数据变换与整理工具--转载的更多相关文章
- R实战 第六篇:数据变换(aggregate+dplyr)
数据分析的工作,80%的时间耗费在处理数据上,而数据处理的主要过程可以分为:分离-操作-结合(Split-Apply-Combine),也就是说,首先,把数据根据特定的字段分组,每个分组都是独立的:然 ...
- R学习笔记 第五篇:数据变换和清理
在使用R的分组操作之前,首先要了解R语言包,包实质上是实现特定功能的,预先写好的代码库(library),R拥有大量的软件包,许多包都是由某一领域的专家编写的,但并不是所有的包都有很高的质量的,在使用 ...
- Defraggler磁盘碎片整理工具,让你的电脑读写速度更快
相信大家都听说过磁盘碎片整理吧,所谓磁盘碎片,通俗的来说,就是指计算机中的各种文件最开始在磁盘中存储的时候地址都是连在一起的,但是随着文件 的多次读写,或者说多次的移动复制等操作,这些文件在磁盘中的地 ...
- GIS专业书籍、文档、数据、网站、工具等干货
整理.分享一些个人整理的GIS专业书籍.文档.数据.网站.工具等.也希望大家将自己的心得也分享出来,一起交流,共同进步. 如果下载链接失效,请到这里去:地信网 一.原理应用类 GIS基础类 01.地理 ...
- 常见SQL Server导入导出数据的几个工具
摘自:http://www.cnblogs.com/chenxizhang/archive/2011/06/09/2076542.html 在我们的日常工作中,与数据库打交道的机会越来越多.这一篇文章 ...
- TensorFlow高效读取数据的方法——TFRecord的学习
关于TensorFlow读取数据,官网给出了三种方法: 供给数据(Feeding):在TensorFlow程序运行的每一步,让python代码来供给数据. 从文件读取数据:在TensorFlow图的起 ...
- 尝试做一个.NET简单、高效、避免OOM的Excel工具
Github : https://github.com/shps951023/MiniExcel 简介 我尝试做一个.NET简单.高效.避免OOM的Excel工具 目前主流框架大多将资料全载入到记忆体 ...
- Android RecyclerView使用ListAdapter高效刷新数据
原文:Android RecyclerView使用ListAdapter高效刷新数据 - Stars-One的杂货小窝 我们都知道,当RecyclerView数据源更新后,还需要通过adapter调用 ...
- kaggle数据挖掘竞赛初步--Titanic<数据变换>
完整代码: https://github.com/cindycindyhi/kaggle-Titanic 特征工程系列: Titanic系列之原始数据分析和数据处理 Titanic系列之数据变换 Ti ...
随机推荐
- SQL Server中调用WebService
首先要启用Ole Automation Procedures,使用sp_configure 配置时如果报错"不支持对系统目录进行即席更新",可以加上WITH OVERRIDE选项. ...
- 如何解决win10关机状态下,按键盘会自动开机的问题
关机状态下按下键盘会自动开机,是因为所装的系统默认设置了快速启动功能 下面是关闭快速启动的方法: 步骤一: 在win10桌面右击,点击显示设置 步骤二: 电源和睡眠-->其他电源设置 步骤三: ...
- log4j2笔记 #02# 启用异步日志
索引 参考 Making All Loggers Asynchronous 第一步,添加相应的disruptor库 第二步,设置系统属性log4j2.contextSelector 第三步,检验! 参 ...
- django中模型详解-字段类型与约束条件
这片博文来详细说明django模型的使用,涉及到django模型的创建,字段介绍,以及django模型的crud操作,以及一对一等操作. 在使用模型之前,我们首先设置数据库选项,django的默认数据 ...
- Python For Android (P4a):添加权限(Permissions)
from flutter study: <uses-permission android:name="android.permission.INTERNET"/>< ...
- 斯坦福机器学习ex1.1(python)
使用的工具:NumPy和Matplotlib NumPy是全书最基础的Python编程库.除了提供一些高级的数学运算机制以外,还具备非常高效的向量和矩阵运算功能.这些对于机器学习的计算任务是尤为重要的 ...
- Linux LAMP架构搭建
一.部署LAMP基本架构 1.L(linux)A(apache)M(mysql)P(php) 2.稳定版本(mysql5.1,php5.3,apache2.2) 3.安装顺序,mysql-->a ...
- oracle parallel_index hint在非分区表的生效
之前没特别注意,在有些场景下希望使用并行索引扫描的时候,发现parallel_index hint并没有生效,于是抽空看了下文档:The PARALLEL_INDEX hint instructs t ...
- 《web前端设计基础——HTML5、CSS3、JavaScript》 张树明版 简答题简单整理
web前端设计基础——HTML5.CSS3.JavaScript 简答题整理 第一章 (1)解释一下名词的含义:IP地址.URL.域名 iP定义了如何连入因特网,以及数据如何在主机间传输的标准. ...
- tar 压缩指令基本用法
压缩:tar -cjvf aaa.tar.bz2 www.test.com/ --exclude *.log(-j是用bz2压缩,-exclude是排除.log后缀的文件) c-创建 j-bzip ...