R语言实现对基因组SNV进行注释

很多时候，我们需要对取出的SNV进行注释，这个时候可能会在R上进行注释，通常注释文件都含有Chr(染色体)、Start(开始位点)、End(结束位点)、Description（描述），而我们的SNV文件通常是拥有Position（位置），因此我们可以先定位Chr，再用Postion去定位到Start和End之间，找到相对应的Description。为了加快速度，可以使用二分查找法。

 for (value in dt$value){

 #df:data.frame, V1 and V2 should be Start and End   value: Postition  used to find region  return:df row number where position locates  ,if no region return -

     low=

     high=nrow(df)

     mid=high %/%

     if (df[low,] <= value & value <= df[low,]) low

     else if (df[high,] <= value & value <= df[high,]) high

     else{

     while (value > df[mid,] || value < df[mid,]){

       if (value > df[mid,]){

         low = mid+

       } else if (value < df[mid,]) {

         high = mid -

       }

       if(high<low){

          mid=-;break

       }

       mid=(low+high)%/%

     }

       mid

 }

 }

在R中使用for循环效率低，因此也可以用data.table包的foverlap函数，改进代码如下，对bed文件进行注释，如果要对snv进行注释，只需要将snv改成相应的start和end相等的bed文件即可。

 #!/bin/Rscript

 library(data.table)

 arg <- commandArgs(T)

 if (length(arg) != ) {

     message("[usage]: BedAnnoGene.R bedfile gtffile outputfile")

     message("    bedfile format: chr start end information(Arbitrary but can not be lacked)")

     message("    GTFfile: gtf file downloaded from GENCODE")

     message("    outputfile: file to be writen out")

     message("    needed package: data.table 1.10.4")

     stop("Please check your arguments!")

 }

 bedfile <- arg[]

 annofile <- arg[]

 outfile <- arg[]

 #read file

 anno <- fread(annofile,sep="\t",header=F)

 bed <- fread(bedfile,sep="\t",header=F)

 setnames(anno,c("V1","V2","V3","V4","V5","V9"),c("Chr","Gene","Type","Start","End","Info"))

 anno <- anno[Type=="gene",.(Chr,Start,End,Gene=sapply(strsplit(tstrsplit(Info,";")[][[]],"\""),function(x)x[]))]

 setkey(anno,Chr,Start,End)

 setkey(bed,V1,V2,V3)

 #find overlaps by Chr

 lst <- list()

 for (ChrI in intersect(unique(bed$V1),unique(anno$Chr))){

   anno_reg <- anno[Chr == ChrI,.(Start,End)]

   bed_reg <- bed[V1 == ChrI,.(V2,V3)]

   setkey(anno_reg,Start,End)

   setkey(bed_reg,V2,V3)

   overl <- foverlaps(bed_reg,anno_reg,which=TRUE,nomatch = )

   if (nrow(overl) > ){

     lst[[ChrI]] <- data.table(Chr=ChrI,bed[V1 == ChrI,][overl[["xid"]],.(V2,V3,V4)],anno[Chr == ChrI][overl[["yid"]],.(Gene)])

   }

 }

 merge_dt <- rbindlist(lst)

 setnames(merge_dt,c("V2","V3","V4"),c("Start","End","Name"))

 #if one region has more than one gene

 torm <- list()

 for (i in :(nrow(merge_dt)-)){if(merge_dt[i,"Name"]==merge_dt[i+,"Name"]){set(merge_dt,i+1L,ncol(merge_dt),paste(merge_dt[i,"Gene"],merge_dt[i+,"Gene"],sep=";"));torm <- c(torm,list(i))}}

 torm <- unlist(torm)

 merge_dt <- merge_dt[-torm,]

 fwrite(merge_dt,file=outfile)

使用帮助可以在我github看到 https://github.com/yiliu4234/BedAnnoGene

R语言实现对基因组SNV进行注释的更多相关文章

R语言画全基因组关联分析中的曼哈顿图（manhattan plot）
1.在linux中安装好R 2.准备好画曼哈顿图的R脚本即manhattan.r,manhattan.r内容如下: #!/usr/bin/Rscript #example : Rscript plot ...
R语言基因组数据分析可能会用到的data.table函数整理
R语言data.table包是自带包data.frame的升级版,用于数据框格式数据的处理,最大的特点快.包括两个方面,一方面是写的快,代码简洁,只要一行命令就可以完成诸多任务,另一方面是处理快,内部 ...
R语言：用简单的文本处理方法优化我们的读书体验
博客总目录:http://www.cnblogs.com/weibaar/p/4507801.html 前言延续之前的用R语言读琅琊榜小说,继续讲一下利用R语言做一些简单的文本处理.分词的事情.其实 ...
R 语言编码风格指南
R 语言是一门主要用于统计计算和绘图的高级编程语言.这份 R 语言编码风格指南旨在让我们的 R代码更容易阅读.分享和检查.以下规则系与 Google 的 R 用户群体协同设计而成. 概要: R编码风格 ...
R 语言机器学习同步推进~
教材就是传说中的机器学习和R语言--中文版,大家可以去图书馆借来看看~~~,例子都是来自书上的首先介绍一下KNN算法,KNN还好吧,说白了就是一个算距离的公式然后以统计的方式呈现出来,以二维平面为例 ...
R语言快速入门上手
导言: 较早之前就听说R是一门便捷的数据分析工具,但由于课程设计的原因,一直没有空出足够时间来进行学习.最近自从决定本科毕业出来找工作之后,渐渐开始接触大数据行业的技术,现在觉得是时候把R拿下 ...
来自 Google 的 R 语言编码风格指南
来自 Google 的 R 语言编码风格指南R 语言是一门主要用于统计计算和绘图的高级编程语言. 这份 R 语言编码风格指南旨在让我们的 R 代码更容易阅读.分享和检查. 以下规则系与 Google ...
[2]R语言在数据处理上的禀赋之——可视化技术
本文目录 Java的可视化技术 R的可视化技术二维做图利器plot的参数配置 *权限机制 *plot独有的参数 *plot的type介绍 *title介绍 *公共参数集合--par *par的权限机 ...
R语言基础：数组&列表&向量&矩阵&因子&数据框
R语言基础:数组和列表数组(array) 一维数据是向量,二维数据是矩阵,数组是向量和矩阵的直接推广,是由三维或三维以上的数据构成的. 数组函数是array(),语法是:array(dadta, d ...

随机推荐

关于dom4j解析xml
一:相关jar包 dom4j-1.6.1.jar 二:用例xml文件三:解析注:可能有的小白不知道如果获取节点,so,you can: for (Iterator<Element> i ...
ext4 关闭延迟分配
ext4的延迟分配特性(delalloc)保证文件在磁盘中的连续,提高文件的读写性能,但是却增加了丢数据的概率. Hadoop和HBase中建议将延迟分配特性关闭. 可以使用下面的方法关闭延迟分配 1 ...
51Nod 欢乐手速场1 C 开心的小Q[莫比乌斯函数]
开心的小Q tangjz (命题人) quailty (测试) 基准时间限制:1 秒空间限制:131072 KB 分值: 80 如果一个数字存在一个约数是完全平方数,那么小Q就认为这个数是有趣的 ...
用 label 控制 Pod 的位置 - 每天5分钟玩转 Docker 容器技术（128）
默认配置下,Scheduler 会将 Pod 调度到所有可用的 Node.不过有些情况我们希望将 Pod 部署到指定的 Node,比如将有大量磁盘 I/O 的 Pod 部署到配置了 SSD 的 Nod ...
new function
<!DOCTYPE html><html lang="en"><head> <meta charset="UTF-8" ...
【JavaWeb】JDBC连接MySQL数据库
正文之前在之前写的JavaWeb项目中使用了JDBC,在此来回顾一下,并做个demo看看,先来看看JDBC的概念 Java数据库连接,(Java Database Connectivity,简称JD ...
Promise对象的简单用法
要了解一个东西,首先要从,它是什么.用来做什么以及怎么取用它这三个方面来了解. 首先,promise是什么? 我们来参考一下MDN对它的定义: Promise 对象用于一个异步操作的最终完成(或失败) ...
javascript 欺骗词法作用域
如果词法作用域完全由写代码期间函数所声明的位置来定义,怎样才能在运行时来"修改"(也可以说欺骗)词法作用域呢? JavaScript 中有两种机制来实现这个目的.社区普遍认为 ...
python重新利用shodan API
前言: 之前写过一个shodan的API调用感觉写的不这么好.然后现在重新写一个 shodan介绍: shodan是互联网上最可怕的搜索引擎. CNNMoney的一篇文章写道,虽然目前人们都认为谷歌 ...
iterm2 快捷键大全
Mac 原来自带的终端工具 Terminal 不好用是出了名的,虽然最近几个版本苹果稍微做了些优化,功能上,可用性方面增强不少,无奈有个更好用的 Iterm2 摆在那,基本上也就没有多少出场机会了 I ...

R语言实现对基因组SNV进行注释

R语言实现对基因组SNV进行注释的更多相关文章

随机推荐

热门专题