R语言扩展包dplyr——数据清洗和整理

版权声明:本文为博主原创文章,未经博主允许不得转载。
该包主要用于数据清洗和整理,coursera课程链接:Getting and Cleaning Data
也可以载入swirl包,加载课Getting and Cleaning Data跟着学习。
如下:
- library(swirl)
- install_from_swirl("Getting and Cleaning Data")
- swirl()
此文主要是参考R自带的简介:Introduce to dplyr
1、示范数据
- > library(nycflights13)
- > dim(flights)
- [1] 336776 16
- > head(flights, 3)
- Source: local data frame [3 x 16]
- year month day dep_time dep_delay arr_time arr_delay carrier tailnum flight origin dest air_time
- 1 2013 1 1 517 2 830 11 UA N14228 1545 EWR IAH 227
- 2 2013 1 1 533 4 850 20 UA N24211 1714 LGA IAH 227
- 3 2013 1 1 542 2 923 33 AA N619AA 1141 JFK MIA 160
- Variables not shown: distance (dbl), hour (dbl), minute (dbl)
2、将过长的数据整理成友好的tbl_df数据
- > flights_df <- tbl_df(flights)
- > flights_df
3、筛选filter()
- > filter(flights_df, month == 1, day == 1)
- Source: local data frame [842 x 16]
- year month day dep_time dep_delay arr_time arr_delay carrier tailnum flight origin dest air_time
- 1 2013 1 1 517 2 830 11 UA N14228 1545 EWR IAH 227
- 2 2013 1 1 533 4 850 20 UA N24211 1714 LGA IAH 227
筛选出month=1和day=1的数据
同样效果的,
- flights_df[flights_df$month == 1 & flights_df$day == 1, ]
4、选出几行数据slice()
- slice(flights_df, 1:10)
5、排列arrange()
- >arrange(flights_df, year, month, day)
将flights_df数据按照year,month,day的升序排列。
降序
- >arrange(flights_df, year, desc(month), day)
R语言当中的自带函数
- flights_df[order(flights$year, flights_df$month, flights_df$day), ]
- flights_df[order(desc(flights_df$arr_delay)), ]
6、选择select()
通过列名来选择所要的数据
- select(flights_df, year, month, day)
选出三列数据
使用:符号
- select(flights_df, year:day)
使用-来删除不要的列表
- select(flights_df, -(year:day))
7、变形mutate()
产生新的列
- > mutate(flights_df,
- + gain = arr_delay - dep_delay,
- + speed = distance / air_time * 60)
8、汇总summarize()
- <pre name="code" class="html">> summarise(flights,
- + delay = mean(dep_delay, na.rm = TRUE)
求dep_delay的均值
9、随机选出样本
- sample_n(flights_df, 10)
随机选出10个样本
- sample_frac(flights_df, 0.01)
随机选出1%个样本
10、分组group_py()
- by_tailnum <- group_by(flights, tailnum)
- #确定组别为tailnum,赋值为by_tailnum
- delay <- summarise(by_tailnum,
- count = n(),
- dist = mean(distance, na.rm = TRUE),
- delay = mean(arr_delay, na.rm = TRUE))
- #汇总flights里地tailnum组的分类数量,及其组别对应的distance和arr_delay的均值
- delay <- filter(delay, count > 20, dist < 2000)
- ggplot(delay, aes(dist, delay)) +
- geom_point(aes(size = count), alpha = 1/2) +
- geom_smooth() +
- scale_size_area()
结果都需要通过赋值存储
- a1 <- group_by(flights, year, month, day)
- a2 <- select(a1, arr_delay, dep_delay)
- a3 <- summarise(a2,
- arr = mean(arr_delay, na.rm = TRUE),
- dep = mean(dep_delay, na.rm = TRUE))
- a4 <- filter(a3, arr > 30 | dep > 30)
11、引入链接符%>%
使用时把数据名作为开头,然后依次对数据进行多步操作:
- flights %>%
- group_by(year, month, day) %>%
- select(arr_delay, dep_delay) %>%
- summarise(
- arr = mean(arr_delay, na.rm = TRUE),
- dep = mean(dep_delay, na.rm = TRUE)
- ) %>%
- filter(arr > 30 | dep > 30)
前面都免去了数据名
若想要进行更多地了解这个包,可以参考其自带的说明书(60页):dplyr
R语言扩展包dplyr——数据清洗和整理的更多相关文章
- R语言扩展包dplyr笔记
引言 2014年刚到, 就在 Feedly 订阅里看到 RStudio Blog 介绍 dplyr 包已发布 (Introducing dplyr), 此包将原本 plyr 包中的 ddply() 等 ...
- R语言数据处理包dplyr、tidyr笔记
dplyr包是Hadley Wickham的新作,主要用于数据清洗和整理,该包专注dataframe数据格式,从而大幅提高了数据处理速度,并且提供了与其它数据库的接口:tidyr包的作者是Hadley ...
- 安装R语言扩展包diveRsity-1
今天去了学院的运动会呢-扮熊本熊超开心-写完这篇我补上我的图么么哒 ××××××××××××文末高能预警!!!!!这个包的安装并不是本周的任务!!!!!我真是萌萌哒×××××××××××××× ××× ...
- 安装R语言扩展包vegan
这周的作业我开始得好迟啊...然而还是要努力做啊... ××××××××××××××我是萌萌哒分割线×××××××××××××××××××××××××××××××××××× 首先,百度进入官方页面,看 ...
- R语言 ggplot2包
R语言 ggplot2包的学习 分析数据要做的第一件事情,就是观察它.对于每个变量,哪些值是最常见的?值域是大是小?是否有异常观测? ggplot2图形之基本语法: ggplot2的核心理念是将 ...
- R语言重要数据集分析研究——需要整理分析阐明理念
1.R语言重要数据集分析研究需要整理分析阐明理念? 上一节讲了R语言作图,本节来讲讲当你拿到一个数据集的时候如何下手分析,数据分析的第一步,探索性数据分析. 统计量,即统计学里面关注的数据集的几个指标 ...
- R语言-神经网络包RSNNS
code{white-space: pre;} pre:not([class]) { background-color: white; }if (window.hljs && docu ...
- R语言-Knitr包的详细使用说明
R语言-Knitr包的详细使用说明 by 扬眉剑 来自数盟[总舵] 群:321311420 1.相关资料 1:自动化报告-谢益辉 https://github.com/yihui/r-ninja/bl ...
- 安装R语言的包的方法
安装R语言的包的方法: 1. 在线安装 在R的控制台,输入类似install.packages("TSA") # 安装 TSA install.packages("TS ...
随机推荐
- php5.4以下,json_encode不转义实现方法
function json_encode($input){ // 从 PHP 5.4.0 起, 增加了这个选项. if(defined('JSON_UNESCAPED_UNICODE')){ retu ...
- [P3385]【模板】负环 (spfa / bellman-ford)
终于开始认真对待图论了 因为听说一直是提高组的,动得很少,直到现在机房打提高的氛围下,开始学一些皮毛的东西 模板题目链接 这是一道求负环的题目,照理来说大家都是用spfa来判断负环的 但是我觉得bel ...
- C++学习笔记50:队列类模板
队列是只能向一端添加元素,从另一端删除元素的线性群体 循环队列 在想象中将数组弯曲成环形,元素出队时,后继元素不移动,每当队尾达到数组最后一个元素时,便再回到数组开头. 队列类模板 //Queue.h ...
- mysql找安装路经,更改密码
1:如果安装了mysql但是启动不了,可以到C:/Windows/System32的cmd.exe,用管理员身份打开,然后输入net strat mysql即可 2:忘记安装路经 sele ...
- 如何修改CCS 7.2 代码和注释的颜色以及折叠代码
默认的字体总是让人感觉很难受,作为一个热爱生活的人,工作的时候也得尽力创造一个舒适的环境----程序猿们,对自己好一点. 首先废话一下--------------------------------- ...
- 关于不执行整个大项目而是执行其中一部分独立文件夹的时候的python运行方法
这是项目的整个目录,如果是点击右键运行ic_kw_ks_func.py的话是会报ic_kw_ks_func.py里面import的那些其他路径下的类和函数找不到.而我们发现有个-m的python命令能 ...
- 转 asp.net mvc 身份验证中返回绝对路径的ReturnUrl
原文:http://www.cnblogs.com/hyl8218/archive/2011/11/22/2259116.html 从HttpUnauthorizedResult的源码可以看出,Htt ...
- Hibernate(6)关联关系_单向n对1
1.单向 n-1 关联只需从 n 的一端可以访问 1 的一端 2.实体类 n端:Order.java public class Order { private Integer orderId; pri ...
- vue路由打开新窗口
一. <router-link>标签实现新窗口打开: 官方文档中说 v-link 指令被 <router-link> 组件指令替代,且 <router-link> ...
- 【独家】硅谷创业公司在中国常跌的五个坑|禾赛科技CEO李一帆柏林亚太周主题演讲
[独家]硅谷创业公司在中国常跌的五个坑|禾赛科技CEO李一帆柏林亚太周主题演讲 李一帆 Xtecher特稿作者 关注 Xtecher推荐 演讲者:李一帆 翻译:晓娜 网址:www.xt ...