dplyr】的更多相关文章

dplyr包是Hadley Wickham的新作,主要用于数据清洗和整理,该包专注dataframe数据格式,从而大幅提高了数据处理速度,并且提供了与其它数据库的接口:tidyr包的作者是Hadley Wickham, 该包用于"tidy"你的数据,这个包常跟dplyr结合使用. 本文将介绍dplyr包的下述五个函数用法: 筛选: filter() 排列: arrange() 选择: select() 变形: mutate() 汇总: summarise() 分组: group_by(…
dplyr是由Hadley Wickham主持开发和维护的一个主要针对数据框快速计算.整合的函数包,同时提供一些常用函数的高速写法以及几个开源数据库的连接.此包是plyr包的深化功能包,其名字中的字母“d”即来源于data frame,以示其专注于数据框数据的整理和操作.我们将在本章中着重介绍一些数据处理方面的常用功能函数. 1.1管道函数 在前面的简介中,我们计算了cran上的可用的函数包的数量: > contrib.url("http://mirrors.xmu.edu.cn/CRAN…
1.简介 在我们数据分析的实际应用中,我们可能会花费大量的时间在数据清洗上,而如果使用 R 里面自带的一些函数(base 包的 transform 等),可能会觉得力不从心,或者不是很人性化.好在我们有其他选择.这里我们介绍 dplyr 包. 首先加载包: install.packages("dplyr") library(dplyr) 单表操作函数(one table verbs)如下: filter: 保留满足条件的行 select: 使用列名选出列 arrange: 对数据的所有…
继续来了解dplyr中的其他有用函数 1.sample() 目的是可以从一个数据框中,随机抽取一些行,然后组成新的数据框. sample_n(tbl, size, replace = FALSE, weight = NULL, .env = parent.frame()) sample_frac(tbl, size = 1, replace = FALSE, weight = NULL, .env = parent.frame()) 从参数来看,sample输入数据是tbl格式,size表示抽取…
接下来我们继续了解一些dplyr中的常用函数. 1.ranking 以下各个函数可以实现对数据进行不同的排序 row_number(x) ntile(x, n) min_rank(x) dense_rank(x) percent_rank(x) cume_dist(x) 具体的看些例子. x <- c(5, 1, 3, 2, 2, NA) x row_number(x) row_number是对数据大小进行编号排序,遇到重复值,排序继续加1,缺失值不计入 min_rank(x) min_rank…
接下了我们继续了解dplyr中有用的函数 1.if_else() if_else主要用于在数据做判断用 x<-data.frame(id=1:6, name=c("wang","zhang","li","chen","zhao","song"), shuxue=c(89,85,68,79,96,53), yuwen=c(77,68,86,87,92,63), shengwu=c(8…
上面介绍完dplyr中,几个主要的操作函数后,我们再进一步了解dplyr中那些函数可能我们会经常要用到. 这里主要根据dplyr包作者的书籍目录来把它列出来. 1.add_rownames 添加行名称,把数据转换成列. add_rownames(df, var = "rowname") 下面来看个具体的例子 head(mtcars) add_rownames(mtcars,var="bl") 已经把原来的行数据转成列数据了. 2.between()函数可以用于选取数…
在R中,summary()是一个基础包中的重要统计描述函数,同样的在dplyr中summarise()函数也可以对数据进行统计描述. 不同的是summarise()更加的灵活多变,下面来看下summarise这个函数 summarise(.data, ...) 其灵活性和其他dplyr函数一样,主要在于条件的使用上 下面看些具体的例子 library(dplyr) x<-data.frame(id=1:6, name=c("wang","zhang",&quo…
在R中,我们通常需要对数据列进行各种各样的操作,比如选取某一列.重命名某一列等. dplyr中的select函数子在数据列的操作上也同样表现了它的简洁性,而且各种操作眼花缭乱. select(.data, ...) 参数主要在于如何添加条件.配合select()进行使用的函数有: starts_with()ends_with()contains()matches()num_range()one_of()everything() 配合以上这些函数,使得select()的使用更加的灵活. 除了选择列…
在R中,我们在整理数据时,经常需要对数据排序,以便数据增强数据的可读性. 下面我们来看下dplyr中的,arrange函数 arrange(.data, ...) 跟filter()类似,arrange()的参数也很简单,出来data外,余下的是排序条件. 下面来看些具体的例子 library(dplyr) x<-data.frame(id=1:6, name=c("wang","zhang","li","chen",&…
在R的使用过程中我们几乎都绕不开Hadley Wickham 开发的几个包,前面说过的ggplot2.reshape2以及即将要讲的dplyr 因为这几个包可以非常轻易的使我们从复杂的数据操作中逃离,操作过程简洁,最重要的是数据结果也异常简洁. 首先我们来了解下第一个函数filter() filter(.data, ...) 参数很简单,只有data,即要操作的数据对象,其他都是数据操作条件. 下面看一些简单的例子 library(dplyr) x<-data.frame(id=1:6, nam…
In this blog post I share some lesser-known (at least I believe they are) tricks that use mainly functions from dplyr. Removing unneeded columns Did you know that you can use - in front of a column name to remove it from a data frame? mtcars %>% sele…
dplyr 0.4.0 January 9, 2015 in Uncategorized I’m very pleased to announce that dplyr 0.4.0 is now available from CRAN. Get the latest version by running: install.packages("dplyr") dplyr 0.4.0 includes over 80 minor improvements and bug fixes, wh…
dplyr专注处理dataframe对象, 并提供更稳健的与其它数据库对象间的接口. 一.5个关键的数据处理函数: select()   返回列的子集filter()     返回行的子集arrange()  根据一个或多个变量对行排序.mutate()  使用已有数据创建新的列summarise()  对各个群组汇总计算并返回一维结果. Tips: 1.select() Dplyr包有下列辅助函数,用于在select()中选择变量: starts_with("X"): 以 "…
昨天学了一下R语言dplyr包,处理数据框还是很好用的.记录一下免得我忘记了... 先写一篇入门的,以后有空再写一篇详细的用法. #dplyr learning library(dplyr) #filter() #选择符合条件的数据框的行,返回数据框 #Usage #filter(.data, ...) # ...为限制条件 #eg filter(starwars, species == "Human") filter(starwars, mass > 1000) # Multi…
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- 由于业务中接触的数据量很大,于是不得不转战开始寻求数据操作的效率.于是,data.table这个包就可以很好的满足对大数据量的数据操作的需求. data.table可是比dplyr以及Python中的pandas还好用的数据处理方式. 网络上充斥的是data.table很好,很棒,性能棒之类的,但是从我实际使用来看,就得泼个水,网上博客都是拿一…
R语言︱数据集分组 大型数据集通常是高度结构化的,结构使得我们可以按不同的方式分组,有时候我们需要关注单个组的数据片断,有时需要聚合不同组内的信息,并相互比较. 一.日期分组 1.关于时间的包都有很多很好的日期分组应用. 2.cut()函数 cut(x, n):将连续型变量x分割为有着n个水平的因子 cut(x, breaks, labels = NULL, include.lowest = FALSE, right = TRUE, dig.lab = 3, ordered_result = F…
问题描述: 存在这么一个场景,当需要动态选择列作为dplyr或ggplot2的输入时,列名的指定会出现问题. 以iris举例: # 以iris dataset为例 colnames <- c("Sepal.Length", "Sepal.Width", "Petal.Length","Petal.Width","Species") for (col in colnames) { ggplot(data…
R语言扩展包dplyr——数据清洗和整理 标签: 数据R语言数据清洗数据整理 2015-01-22 18:04 7357人阅读 评论(0) 收藏 举报  分类: R Programming(11)  版权声明:本文为博主原创文章,未经博主允许不得转载. 该包主要用于数据清洗和整理,coursera课程链接:Getting and Cleaning Data 也可以载入swirl包,加载课Getting and Cleaning Data跟着学习. 如下: library(swirl) insta…
数据分析的工作,80%的时间耗费在处理数据上,而数据处理的主要过程可以分为:分离-操作-结合(Split-Apply-Combine),也就是说,首先,把数据根据特定的字段分组,每个分组都是独立的:然后,对每个分组按照业务需求执行转换:最后,把转换后的结果组合在一起.在数据处理中,经常需要循环访问数据,R语言是矢量化的,天生具有处理循环操作的优势. 使用ggplot2包中的diamonds数据集做为示例数据 > install.packages('ggplot2') > library(ggp…
是Hadley Wickham的新作,主要用于数据清洗和整理,该包专注dataframe数据格式,从而大幅提高了数据处理速度,并且提供了与其它数据库的接口:tidyr包的作者是Hadley Wickham, 该包用于“tidy”你的数据,这个包常跟dplyr结合使用. 本文将介绍dplyr包的下述五个函数用法: 筛选: filter()排列: arrange()选择: select()变形: mutate()汇总: summarise()分组: group_by()以及tidyr包的下述四个函数…
关于数据操作的另一个流行的包是dplyr,它发明了一种数据操作语法.dplyr 扩展包并没有使用构建子集函数([ ]),而是定义了一系列基础的变形函数作为数据操作模块,并且引入了一个管道操作符,利用管道操作符将这些变形函数串联起来,进而完成复杂的多步任务.如果还没有安装 dplyr,请运行以下代码以从 CRAN 中安装 :install.packages("dplyr")首先,我们重新加载产品表格,将它们重置为原始形式:library(readr)product_info <-…
dplyr包是Hadley Wickham的新作,主要用于数据清洗和整理,该包专注dataframe数据格式,从而大幅提高了数据处理速度,并且提供了与其它数据库的接口,本节学习dplyr包函数基本用法.dplyr()可使用%>%(链式操作),其功能是用于实现将一个函数的输出传递给下一个函数的第一个参数.注意,传递给下一个函数的第一个参数,那么下一个函数的第一个参数就不用写. 目录: 筛选: filter() 排列: arrange() 选择: select() 变形: mutate() 汇总:…
R语言中的数据处理包dplyr.tidyr笔记   dplyr包是Hadley Wickham的新作,主要用于数据清洗和整理,该包专注dataframe数据格式,从而大幅提高了数据处理速度,并且提供了与其它数据库的接口:tidyr包的作者是Hadley Wickham, 该包用于“tidy”你的数据,这个包常跟dplyr结合使用. 本文将介绍dplyr包的下述五个函数用法: 筛选: filter() 排列: arrange() 选择: select() 变形: mutate() 汇总: summ…
以下内容主要参照 Introducing dplyr 和 dplyr 包自带的简介 (Introduction to dplyr), 复制了原文对应代码, 并夹杂了个人理解和观点 (多附于括号内). 0 初始化0.1 安装 install.packages("dplyr") 0.2 示范数据 library(Lahman): Lahman 包里的棒球比赛数据集 Batting library(hflights): hflights 包里的飞机航班数据 0.3 数据集类型 将过长过大的数…
引言 2014年刚到, 就在 Feedly 订阅里看到 RStudio Blog 介绍 dplyr 包已发布 (Introducing dplyr), 此包将原本 plyr 包中的 ddply() 等函数进一步分离强化, 专注接受dataframe对象, 大幅提高了速度, 并且提供了更稳健的与其它数据库对象间的接口. 既然是 Hadley Wickham 的新作, 并自称 a grammar of data manipulation, 当然要先学为快了, 正好新申了域名, 就把原本记在 Rmd …
If your primary objective is to query your data in Hadoop to browse, manipulate, and extract it into R, then you probably want to use SQL. You can write SQL code explicitly to interact with Hadoop, or you can write SQL code implicitly with dplyr. The…
RStudio Blog 介绍dplyr 包已发布 (Introducing dplyr), 此包将原本 plyr 包中的 ddply() 等函数进一步分离强化, 专注接受dataframe对象, 大幅提高了速度, 并且提供了更稳健的与其它数据库对象间的接口,还是Hadley Wickham 的新作, 并自称 a grammar of data manipulation. 由此看来,dplyr包是plyr包的加强版. 初始化安装 install.packages("dplyr") 数据…
The d is for dataframes, the plyr is to evoke pliers. Pronounce however you like. dplyr包可用于处理 R 内部或者外部的结构化数据,相较于plyr包,dplyr包专注接受 data.frame 对象,大幅提高了速度,并且提供了更稳健的数据库接口.同时,dplyr包可用于操作Spark的dataframe. 官网:https://cran.r-project.org/web/packages/dplyr/inde…
目录 inner_join Joining three tables left_join right-join full_join semi- and anti-join Stack Overflow questions bind_rows split inner_join 按条件取交集dplyr高效处理函数笔记 The inner_join is the key to bring tables together. To use it, you need to provide the two t…