R中数据拆分和整合

library(data.table)
ID <- c(NA,1,2,2)
ID
Time <- c(1,2,NA,1)
Time
X1 <- c(5,3,NA,2)
X1
X2 <- c(NA,5,1,4)
X2
mydata <- data.table(ID,Time,X1,X2)
mydata

``````````````````````````

ID Time X1 X2
1: NA 1 c NA
2: 1 2 a 5
3: 2 NA NA 1
4: 2 1 b 4

md <- melt(mydata, id=c("ID","Time"))
##melt以使每一行都是一个唯一的标识符-变量组合
md

````````````````````````````

## ID Time variable value

## 1: NA 1 X1 5

## 2: 1 2 X1 3

## 3: 2 NA X1 NA

## 4: 2 1 X1 2

## 5: NA 1 X2 NA

## 6: 1 2 X2 5

## 7: 2 NA X2 1

## 8: 2 1 X2 4

``````````````````````````````

str(md)
str(mydata)

## Classes 'data.table' and 'data.frame': 8 obs. of 4 variables:

## $ ID : num NA 1 2 2 NA 1 2 2

## $ Time : num 1 2 NA 1 1 2 NA 1

## $ variable: Factor w/ 2 levels "X1","X2": 1 1 1 1 2 2 2 2

## $ value : num 5 3 NA 2 NA 5 1 4

## - attr(*, ".internal.selfref")=<externalptr>

setcolorder(md,c("ID","variable","Time","value"))

## ID variable Time value

## 1: NA X1 1 5

## 2: 1 X1 2 3

## 3: 2 X1 NA NA

## 4: 2 X1 1 2

## 5: NA X2 1 NA

## 6: 1 X2 2 5

## 7: 2 X2 NA 1

## 8: 2 X2 1 4

##setcolorder()可以用来修改列的顺序。
mdr <- melt(mydata, id=c("ID","Time"),variable.name="Xzl",value.name="Vzl",na.rm = TRUE)
#variable.name定义变量名
mdr

## ID Time Xzl Vzl

## 1: NA 1 X1 5

## 2: 1 2 X1 3

## 3: 2 1 X1 2

## 4: 1 2 X2 5

## 5: 2 NA X2 1

## 6: 2 1 X2 4

mdr1 <- melt(mydata, id=c("ID","Time"),variable.name="Xzl",value.name="Vzl",measure.vars=c("X1"),na.rm = TRUE)
#measure.vars筛选

mdr1

## ID Time Xzl Vzl

## 1: NA 1 X1 5

## 2: 1 2 X1 3

## 3: 2 1 X1 2

#执行整合
newmd<- dcast(md, ID~variable, mean)
#value为数值型

## ID X1 X2

## 1: 1 3 5.0

## 2: 2 NA 2.5

## 3: NA 5 NA

newmd2<- dcast(md, ID+variable~Time)
newmd2

## ID variable 1 2 NA

## 1: 1 X1 NA 3 NA

## 2: 1 X2 NA 5 NA

## 3: 2 X1 2 NA NA

## 4: 2 X2 4 NA 1

## 5: NA X1 5 NA NA

## 6: NA X2 NA NA NA

#ID+variable~Time 使用Time对(ID，variable)分组 Time:1,2,NA 类似excel的数据透析

newmd3<- dcast(md, ID~variable+Time)

newmd3
#variable:X1,X2 Time:1,2,NA 类似excel的数据透析

## ID X1_1 X1_2 X1_NA X2_1 X2_2 X2_NA

## 1: 1 NA 3 NA NA 5 NA

## 2: 2 2 NA NA 4 NA 1

## 3: NA 5 NA NA NA NA NA

##实例

data <- read.table("data.txt",header = T)

Hugo_Symbol Variant_Classification Tumor_ICGC_Barcode
1 ERBB2 Missense_Mutation ICGC_05_11926
2 EGFR Missense_Mutation ICGC_06_09859
3 EGFR Missense_Mutation ICGC_08_00984
4 EGF Missense_Mutation ICGC_08_14667
5 CTNN Missense_Mutation ICGC_09_02266
6 MET Missense_Mutation ICGC_09_02266
7 MET Missense_Mutation ICGC_09_06938
8 CCNE1 Missense_Mutation ICGC_09_06938
9 CTNN Missense_Mutation ICGC_09_07343

str(data)
data2 <- dcast(data, Hugo_Symbol ~ Tumor_ICGC_Barcode,
fun.aggregate = function(x) {ifelse(test = length(as.character(x))>1 ,
no = as.character(x), yes = vcr(x, gis = FALSE))
},
value.var = 'Variant_Classification', fill = '')

vcr = function(x, gis = FALSE) {
x = as.character(x)
x = strsplit(x = x, split = ';', fixed = TRUE)[[1]]
x = unique(x)
xad = x[x %in% c('Amp', 'Del')]
xvc = x[!x %in% c('Amp', 'Del')]

if(gis){
x = ifelse(test = length(xad) > 1, no = xad, yes = 'Complex')
}else{
if(length(xvc)>0){
xvc = ifelse(test = length(xvc) > 1, yes = 'Multi_Hit', no = xvc)
}
x = ifelse(test = length(xad) == 1, yes = paste(xvc, xad, sep = ';'), no = xvc)
}

return(x)
}

#data2 即将数据转换为透视表格式

R中数据拆分和整合的更多相关文章

R 中数据导入
R语言数据导入数据导入 1.保存和加载R的数据(与R.data的交互:save()函数和load()函数) a <- 1:10 save(a, file = "data/dumDa ...
R中数据的输入和数据的标注
数据的导入默认情况下数据导入时,字符型变量将转化为因子.若不希望转化,可设置 stringsAsFactors=FALSE 从带分隔符的文本文件中导入数据 read.table() file --& ...
利用spark将表中数据拆分
i# coding:utf-8from pyspark.sql import SparkSession import os if __name__ == '__main__': os.environ[ ...
在R中整理数据
原始数据一般分散杂乱,并含有缺失和错误值,因此在进行数据分析前首先要对数据进行整理. 一.首先,了解原始数据的结构. 可使用如下函数(归属baseR)来查看数据结构: class(dataobject ...
R中使用rvest爬取数据小试
总结R中使用 xpath 和 css selectors 获取标签内容(xpath功能强大,而CSS选择器通常语法比较简洁,运行速度更快些) 例:抓取下面标签的内容: <h3 class=&qu ...
R中利用SQL语言读取数据框（sqldf库的使用）
熟悉MySQL的朋友可以使用sqldf来操作数据框 # 引入sqldf库(sqldf) library(sqldf) # 释放RMySQL库的加载(针对sqldf报错) #detach("p ...
（数据科学学习手札22）主成分分析法在Python与R中的基本功能实现
上一篇中我们详细介绍推导了主成分分析法的原理,并基于Python通过自编函数实现了挑选主成分的过程,而在Python与R中都有比较成熟的主成分分析函数,本篇我们就对这些方法进行介绍: R 在R的基础函 ...
（数据科学学习手札19）R中基本统计分析技巧总结
在获取数据,并且完成数据的清洗之后,首要的事就是对整个数据集进行探索性的研究,这个过程中会利用到各种描述性统计量和推断性统计量来初探变量间和变量内部的基本关系,本篇笔者便基于R,对一些常用的数据探索方 ...
R中读取EXCEL 数据的方法
最近初学R语言,在R语言读入EXCEL数据格式文件的问题上遇到了困难,经过在网上搜索解决了这一问题,下面归纳几种方法,供大家分享: 第一:R中读取excel文件中的数据的路径: 假定在您的电脑有一个e ...

随机推荐

c语言第12次作业
#include<stdio.h> struct student { ]; ]; ]; double grade; }; void main() { ]; ;i<;i++) { pr ...
批处理——服务器的web文件备份
首先建立三个文本文件,稍后会变成.bat结尾的批处理文件. 第一个文件:copyfile.bat[复制需要备份的文件到tmp文件下,等待压缩时使用] xcopy "D:\Webhost\*. ...
亿级Web系统搭建——单机到分布式集群
当一个Web系统从日访问量10万逐步增长到1000万,甚至超过1亿的过程中,Web系统承受的压力会越来越大,在这个过程中,我们会遇到很多的问题.为了解决这些性能压力带来问题,我们需要在Web系统架构层 ...
LinuxStudyNote
LinuxStudyNoteBy_Silvers:(E:\Video_Tutorials\Linux自学视频\linux视频教程-后盾网视频教程)22:25 2016/1/28============ ...
TCPReplay使用---张子芳
TCPReplay主要功能是将PCAP包重新发送,用于性能或者功能测试.但是在测试环境与原转包系统结构一般是不同的.比如被测试机的二层MAC地址与抓包机器的MAC不同,所以被测试机在二层处理时发现目的 ...
iOS的数据持久化
所谓的持久化,就是将数据保存到硬盘中,使得在应用程序或机器重启后可以继续访问之前保存的数据.在iOS开发中,有很多数据持久化的方案,接下来我将尝试着介绍一下5种方案: plist文件(属性列表) pr ...
PhpStorm创建Drupal模块项目开发教程（3）
rush是 Drupal的脚本界面,PhpStorm的命令行工具支持Drush 5.8和更高版本. 接下来就Drush配置和基本操作进行设置,首先点击打开Settings | Command Line ...
新手入门 keil MDK5 建立STM32工程
keil uvison 是用来开发单片机的,Keil mdk 是用来开发 ARM 的. 芯片型号是:STM32F103RB6 1,新建工程配置属性晶振为8M 根据实际晶振选择生成 HEX 文件 ...
Dashborad 上显示出错
Dashboard 上显示的错误是因为没有选择对应的X-坐标. 上周处理过一个字段,它是一个Formula 字段,作为Dashboard的 Data Source 前提是报表是得Group by 一 ...
转苹果企业级帐号进行ipa打包，分发，下载等流程
1,企业帐号介绍(1)使用企业开发帐号,我们可以发布一个 ipa 放到网上,所有人(包括越狱及非越狱设备)都可以直接通过链接下载安装,而不需要通过 AppStore 下载,也不需要安装任何证书.(2) ...

R中数据拆分和整合

R中数据拆分和整合的更多相关文章

随机推荐

热门专题