R语言dplyr包初探

　昨天学了一下R语言dplyr包，处理数据框还是很好用的。记录一下免得我忘记了... 先写一篇入门的，以后有空再写一篇详细的用法。

#dplyr learning

library(dplyr)

#filter()

#选择符合条件的数据框的行，返回数据框

#Usage

#filter(.data, ...)      # ...为限制条件

#eg

filter(starwars, species == "Human")

filter(starwars, mass > 1000)

# Multiple criteria

filter(starwars, hair_color == "none" & eye_color == "black")

filter(starwars, hair_color == "none" | eye_color == "black")

# Multiple arguments are equivalent to and

filter(starwars, hair_color == "none", eye_color == "black")     #默认为逻辑与

#arrange()

#给数据框排序

#Usage#

#arrange(.data, ...)

## S3 method for class 'grouped_df'

#arrange(.data, ..., .by_group = FALSE)

#eg

arrange(mtcars, cyl, disp)      #先排cyl，再排disp

arrange(mtcars, desc(disp))     #desc() 降序

# grouped arrange ignores groups

by_cyl <- mtcars %>% group_by(cyl)    # %>% 为管道函数，将左侧变量传给右侧函数的第一个参数

by_cyl %>% arrange(desc(wt))          #忽略分类，直接排序

# Unless you specifically ask:

by_cyl %>% arrange(desc(wt), .by_group = TRUE)     #按照group分组排序

#select()

# eg

iris <- as_tibble(iris) # so it prints a little nicer

select(iris, starts_with("Petal"))  #选择以 'Petal' 开头的列

select(iris, ends_with("Width"))

# Move Species variable to the front

select(iris, Species, everything())

df <- as.data.frame(matrix(runif(100), nrow = 10))

df <- tbl_df(df[c(3, 4, 7, 1, 9, 8, 5, 2, 6, 10)])

select(df, V4:V6)                                  #切片

select(df, num_range("V", 4:6))                    #这个还是好用的

# Drop variables with -

select(iris, -starts_with("Petal"))                #去除以 'Petal' 开头的列

# The .data pronoun is available:

select(mtcars, .data$cyl)                          #这个用的不习惯

select(mtcars, .data$mpg : .data$disp)

# Renaming -----------------------------------------

# * select() keeps only the variables you specify

select(iris, petal_length = Petal.Length)

# * rename() keeps all variables

rename(iris, petal_length = Petal.Length)     #重命名然后提取所有的列

#mutate()                                     #添加新列

mtcars %>% as_tibble() %>% mutate(

  cyl2 = cyl * 2,

  cyl4 = cyl2 * 2

)

mtcars %>% as_tibble() %>% mutate(

  mpg = NULL,                               # 用 NULL 去除某列，类似于select 的 -

  disp = disp * 0.0163871                   # 对某列做运算

)

# mutate() vs transmute --------------------------

# mutate() keeps all existing variables

mtcars %>%

  mutate(displ_l = disp / 61.0237)

# transmute keeps only the variables you create

mtcars %>%

  transmute(displ_l = disp / 61.0237)

#summarise()

#对 group_by 后的数据进行统计，这里以均值为例

mtcars %>%

  summarise(mean = mean(disp), n = n())

mtcars %>%

  group_by(cyl) %>%

  summarise(mean = mean(disp), n = n())

mtcars %>%

  group_by(cyl, vs) %>%

  summarise(cyl_n = n()，mean_disp = mean(disp))        #这个分组统计很强大

R语言dplyr包初探的更多相关文章

R语言扩展包dplyr——数据清洗和整理
R语言扩展包dplyr——数据清洗和整理标签: 数据R语言数据清洗数据整理 2015-01-22 18:04 7357人阅读评论(0) 收藏举报分类: R Programming(11) ...
R语言 ggplot2包
R语言 ggplot2包的学习分析数据要做的第一件事情,就是观察它.对于每个变量,哪些值是最常见的?值域是大是小?是否有异常观测? ggplot2图形之基本语法: ggplot2的核心理念是将 ...
R语言-神经网络包RSNNS
code{white-space: pre;} pre:not([class]) { background-color: white; }if (window.hljs && docu ...
R语言-Knitr包的详细使用说明
R语言-Knitr包的详细使用说明 by 扬眉剑来自数盟[总舵] 群:321311420 1.相关资料 1:自动化报告-谢益辉 https://github.com/yihui/r-ninja/bl ...
安装R语言的包的方法
安装R语言的包的方法: 1. 在线安装在R的控制台,输入类似install.packages("TSA") # 安装 TSA install.packages("TS ...
R语言扩展包dplyr笔记
引言 2014年刚到, 就在 Feedly 订阅里看到 RStudio Blog 介绍 dplyr 包已发布 (Introducing dplyr), 此包将原本 plyr 包中的 ddply() 等 ...
R语言数据处理包dplyr、tidyr笔记
dplyr包是Hadley Wickham的新作,主要用于数据清洗和整理,该包专注dataframe数据格式,从而大幅提高了数据处理速度,并且提供了与其它数据库的接口:tidyr包的作者是Hadley ...
Bagging(R语言实现)—包外错误率，多样性测度
1. Bagging Bagging即套袋法,其算法过程如下: 从原始样本集中抽取训练集.每轮从原始样本集中使用Bootstraping的方法抽取n个训练样本(在训练集中,有些样本可能被多次 ...
R语言 arules包 apriori()函数中文帮助文档(中英文对照)
apriori(arules) apriori()所属R语言包:arules Mining Associations w ...

随机推荐

Django App(三) View+Template
接着上一节(二)的内容,首先启动站点,通过界面添加Question和Choice两张表的数据,因为接下来,要向polls app里面添加views. 1.添加数据如下(这里是通过界面操作添加的数据) ...
Python scrapy------分类获取美团整站数据
欢迎联系讨论:qq:1170370113 以下是我们获取美团页面的城市信息获取到了城市信息以后我们可以进行分类保存,以便于后续能够分类获取数据获取我们需要城市的景区的所有相关id并且进行保存最后 ...
[转]同一台Windows机器中启动多个Memcached服务
Memcached的安装后,如果手头上只有一台机器,又想做多节点测试咋办? 这就需要在一台机器上启动多个Memcached服务了. 假设Memcached在如下目录:C:\memcached\memc ...
关于手残，搞废我的OLED屏幕的追悼会
2017-12-1913:36:41 昨天按照B站的资料利用esp12F做了一个天气站,可预报天气,惭愧的是模型做好了,照片还没拍就夭折了,可怜了我20块的屏幕,我心伤悲,莫知我哀呀! 本来调试已经成 ...
python3的一些改动常用到的
更多的内容会接下来说明,只举几个例子. https://docs.python.org/2/library/2to3.html 1. map的输出,要在前面加list转化 2. map(lambda ...
输入和输出--RandomAccessFile类
RandomAccessFile 类 RandomAccessFile 类既可以读取文件内容,也可以向文件输出数据. RandomAccessFile 类支持 "随机访问" 的方式 ...
使用TransactionScope做分布式事务协调
//场景是使用在多个数据库之间的协调,.NET 2.0使用一个新的类型 TransactionScope来进行协调,这与之前的COM+协调是相对来说更加方便的 //需要引用一个新的程序集:System ...
Cannot create an instance of OLE DB provider “OraOLEDB.Oracle” for linked server "xxxxxxx".
在SQL SERVER 2008 R2下用Windows 身份认证的登录名创建了一个访问ORACLE数据库的链接服务器xxxxx,测试成功,木有问题,但是其它登录名使用该链接服务器时,报如下错误: 消 ...
String.Format 格式化货币的小问题
今天在开发过程中,遇到一件让我觉得比较纳闷的事情:用String.Format 格式化充值金额的时候,我这样处理: String.Format("{0:C2}", dr[" ...
IO （三）
1 转换流 1.1 InputStreamReader 1.1.1 InputStreamReader简介 InputStreamReader是字节流通向字符流的桥梁.它使用指定的charset读取字 ...

R语言dplyr包初探

R语言dplyr包初探的更多相关文章

随机推荐

热门专题