R语言-tidyr和dplyr

一、安装和加载

1、安装并加载tidyr和dplyr包

install.packages("tidyr")

library(tidyr)

install.packages("dplyr")

library(dplyr)

2、读取数据

expression <- read.delim("gene_expression.txt",sep="\t",header = T)

二、tidyr包操作

%>%    #用于实现将一个函数的输出传递给下一个函数的第一个参数。相当于管道,优先级高于赋值

stocksm <- stocks %>% gather(stock, price, -time) #先执行右面的，结果赋值给stocksm

#短数据变成长数据

tidy_gather <- gather(data=expression,key=Samplename,value = Expression,-id)

data  #“数据框名”

#关于key-value，原始数据一个“列名-列值”对应一个“key-value”

key   #“key名”，新生成的key列，值为转化的列的列名

value #“value名”，新生成的value列，值为对应列名的列的值，

...   #列的选择。如果为空，则选择所有变量。可以提供裸变量名，使用x:z选择x和z之间的所有变量，使用-y排除y。

#长数据变短数据

tidy_spread <- spread(tidy_gather,key=Samplename,value = Expression) #gather逆向

#按列分割

#给定正则表达式或字符位置向量，separate()会将单个字符列转换为多个列。

separate(

  data,    #数据框

  col,     #要分割的列名或位置

  into,    #作为字符向量创建的新变量的名称。使用NA来省略输出中的变量。

  sep = "[^[:alnum:]]+",  #列之间的分隔符。sep的数量应该比into少1。

#如果是字符，sep被解释为正则表达式。默认值是匹配任何非字母数字值序列的正则表达式。

#如果是数字，sep被解释为要在其中拆分的字符位置。正值从字符串最左边的1开始;负值从字符串最右边的-1开始。

  remove = TRUE,    #如果为TRUE，则从输出数据帧中移除输入列。

  extra = "warn",   #如果sep是一个字符向量，这将控制当有太多片段时发生的情况。有三个有效的选项:

#"warn"(默认):发出警告并删除额外值。

#"drop":在没有警告的情况下删除任何额外的值。

#"merge":只分割最多(into)次

  fill = "warn",    #如果sep是一个字符向量，这将控制当没有足够的片段时发生的情况。有三个有效的选项:

#"warn"(默认):发出警告并从右侧填充

#"right":填充右边缺失的值

#"left":在左边填充缺失的值

)

#按列合并

tidy_unite <-

unite(tidy_separate,col=Samplename,into=c("Source","Samplename"),sep="_")

三、dplyr包操作

#按id进行排序

dplyr_arrange <- arrange(tidy_gather , id ) 

#按id进行排序的基础上按Expression的降序排列，后面可以继续添加其他变量

dplyr_arrange1 <- arrange(tidy_gather,id,desc(Expression))

dplyr_arrange1 <- arrange(tidy_gather,id,-Expression) #desc()可以用-替代

#排序时添加分组

mtcars %>% group_by(cyl)%>% arrange(desc(wt), .by_group = TRUE)

#筛选行

filter(starwars, hair_color == "none" & eye_color == "black")

filter(starwars, hair_color == "none", eye_color == "black")  #相当于使用 &

filter(starwars, hair_color == "none" | eye_color == "black")

#加管道筛选

starwars %>% filter(mass > mean(mass, na.rm = TRUE))

starwars %>% group_by(gender) %>% filter(mass > mean(mass, na.rm = TRUE))

Result <- filter( tidy_gather , Expression>1 ) %>% arrange( Expression )

#展示指定的GeneId SampleName  Expression 列

dplyr_select <- select( tidy_separate , id , Samplename , Expression )

dplyr_select <- select( tidy_separate , -Source )  #可使用-排除

#增加新列，将现有的字段经过计算后生成新字段。

dplyr_mutate <- mutate( tidy_gather , ID=sub( "gene", "Gene", id ) ) #sub函数将id列的"gene"替换为"Gene"

#分组统计

mtcars %>%

+     group_by(cyl) %>%

+     summarise(mean = mean(disp), n = n())   #根据cyl分组，统计各组中disp的平均值以及组的大小

#按行合并，行索引

bind_rows(a , c)

#按列合并，列索引

bind_cols(a , c）

#取并集，按列索引

union(a , c）

#取差集，按列索引，保留a不同于c的部分

setdiff(a , c)

#内连接，按行，只保留a、b共有的x1值的行

inner_join(a,b,by=“x1”)

#全连接，按行，保留全部，空值用NA补齐

full_join(a,b,by=“x1”)

#左连接，按行，其中a全部保留

left_join(a,b,by=“x1”)

#右连接，按行，其中b全部保留

right_join(a,b,by=“x1”)

#a中所有在b中匹配的行

semi_join(a,b,by=“x1”)

#a中所有在b中不匹配的行

anti_join(a,b,by="x1")

R语言-tidyr和dplyr的更多相关文章

R语言扩展包dplyr——数据清洗和整理
R语言扩展包dplyr——数据清洗和整理标签: 数据R语言数据清洗数据整理 2015-01-22 18:04 7357人阅读评论(0) 收藏举报分类: R Programming(11) ...
R语言数据处理包dplyr、tidyr笔记
dplyr包是Hadley Wickham的新作,主要用于数据清洗和整理,该包专注dataframe数据格式,从而大幅提高了数据处理速度,并且提供了与其它数据库的接口:tidyr包的作者是Hadley ...
R语言扩展包dplyr笔记
引言 2014年刚到, 就在 Feedly 订阅里看到 RStudio Blog 介绍 dplyr 包已发布 (Introducing dplyr), 此包将原本 plyr 包中的 ddply() 等 ...
R语言数据处理利器——dplyr简介
dplyr是由Hadley Wickham主持开发和维护的一个主要针对数据框快速计算.整合的函数包,同时提供一些常用函数的高速写法以及几个开源数据库的连接.此包是plyr包的深化功能包,其名字中的字母 ...
R语言中的数据处理包dplyr、tidyr笔记
R语言中的数据处理包dplyr.tidyr笔记 dplyr包是Hadley Wickham的新作,主要用于数据清洗和整理,该包专注dataframe数据格式,从而大幅提高了数据处理速度,并且提供了 ...
R语言dplyr包初探
昨天学了一下R语言dplyr包,处理数据框还是很好用的.记录一下免得我忘记了... 先写一篇入门的,以后有空再写一篇详细的用法. #dplyr learning library(dplyr) #fil ...
R语言︱数据集分组、筛选(plit – apply – combine模式、dplyr、data.table)
R语言︱数据集分组大型数据集通常是高度结构化的,结构使得我们可以按不同的方式分组,有时候我们需要关注单个组的数据片断,有时需要聚合不同组内的信息,并相互比较. 一.日期分组 1.关于时间的包都有很多 ...
R语言进行数据预处理wranging
R语言进行数据预处理wranging li_volleyball 2016年3月22日 data wrangling with R packages:tidyr dplyr Ground rules ...
Iris的R语言命令工具箱(1)
Iris的R语言命令工具箱(1) 最近在做数据分析,使用了R语言做了些数据处理和可视化,在此记下遇到过的问题.应用过的命令.处理方式以及工具包- *版权声明:本文为博主原创文章,转载请注明本文地址.h ...

随机推荐

Linux文件的通配符
通配符的作用:匹配文件名常见的通配符: *:表示任意个字符(不包括隐藏文件) ?:单个任意字符(中文也算一个字符) []:表示匹配一范围或者其中一个表示匹配范围: [a-z] --- 不但包括了小 ...
python做小游戏——做个马里奥分分钟解决
一.前言嗨喽,大家好呀!这里是小熊猫在你的童年记忆里,是否有一个蹦跳.顶蘑菇的小人已经被遗忘? 马里奥是靠吃蘑菇成长,闻名世界的超级巨星.特征是大鼻子.头戴帽子.身穿背带工作服.还留着胡子.帽子加 ...
Linux安装fastdfs集群部署
过程问题: make: gcc:命令未找到解决: yum -y install gcc 一.环境和版本: Linux环境:CentOS 7.6 libfastcommon版本:1.0.39 Fast ...
求求你们，别再刷 Star 了！这跟“爱国”没关系！
这几年,随着几大互联网公司的强大,纷纷投入云计算产业的建设,开源项目作为维护潜在客户群体(开发者)的重要手段,是各大云计算厂商都在努力做的事. 这几年也诞生了很多真正优秀和看似优秀的开源项目.真正优秀 ...
hs-black 杂题选讲
[POI2011]OKR-Periodicity 考虑递归地构造,设 \(\text{solve(s)}\) 表示字典序最小的,\(\text{border}\) 集合和 \(S\) 的 \(\tex ...
Java8 函数式【1】：一文读懂逆变
Java8 函数式[1]:一文读懂逆变禁止转载 pure function 协变逆变 Java8 引入了函数式接口,从此方法传参可以传递函数了,有人说: 不就是传一个方法吗,语法糖! lambda ...
html和css的常用语法代码详解
前端html html 超文本标记语言.文本,图片,视频,音频. 网页基本信息一个基础的网页具有的一些信息.  <!--!DOCTYPE网页约束规范--&g ...
Test_day01月_总结
1)Object是所有类的超类,在java.lang包中 2)标识符命名规则 3)八种基本数据类型有哪些?每种类型所占的字节数? 整数直接量默认为int类型浮点数直接量默认为double类型 4)字 ...
AtCoder Beginner Contest 249 F - Ignore Operations // 贪心 + 大根堆
传送门:F - Keep Connect (atcoder.jp) 题意: 给定长度为N的操作(ti,yi). 给定初值为0的x,对其进行操作:当t为1时,将x替换为y:当t为2时,将x加上y. 最多 ...
python不同平台进程的启动与终止
Liunx进程的启动与终止在使用subprocess创建进程时需要将所有进程设置为一个进程组 preexec_fn:只在 Unix 平台下有效,用于指定一个可执行对象(callable object ...

R语言-tidyr和dplyr

一、安装和加载

1、安装并加载tidyr和dplyr包

2、读取数据

二、tidyr包操作

三、dplyr包操作

R语言-tidyr和dplyr的更多相关文章

随机推荐

热门专题