将基因组数据分类并写出文件,python,awk,R data.table速度PK
由于基因组数据过大,想进一步用R语言处理担心系统内存不够,因此想着将文件按染色体拆分,发现python,awk,R 语言都能够非常简单快捷的实现,那么速度是否有差距呢,因此在跑几个50G的大文件之前,先用了244MB的数据对各个脚本进行测试,并且将其速度进行对比。
首先是awk处理,awk进行的是逐行处理,具有自己的语法,具有很大的灵活性,一行代码解决,用时24S,
#!/usr/bin/sh
function main()
{
start_tm=date
start_h=`$start_tm +%H`
start_m=`$start_tm +%M`
start_s=`$start_tm +%S`
awk -F $sep '{print $1","$2","$3 >> "'"$inputfile"'""_"$1}' $inputfile
end_tm=date
end_h=`$end_tm +%H`
end_m=`$end_tm +%M`
end_s=`$end_tm +%S`
use_tm=`echo $end_h $start_h $end_m $start_m $end_s $start_s | awk '{ print ($1 - $2),"h",($3-$4),"m",($5-$6),"s"}'`
echo "Finished in "$use_tm
} if [ $# == ]; then
sep=$
inputfile=$
main
else
echo "usage: SplitChr.sh sep inputfile"
echo "eg: SplitChr.sh , test.csv"
fi

接下来是用python,python语言简单,书写方便。因此很快就实现了程序,同样逐行处理,比awk添加了一点细节,只挑出需要的染色体。用时19.9秒。
#!/usr/bin/python
import sys
import time
def main():
if len(sys.argv)!=3:
print "usage : SplitChr sep inputfile eg: SplitChr ',' test.txt"
exit()
sep=sys.argv[1]
filename=sys.argv[2]
f=open(filename,'r')
header=f.readline()
if len(header.split(sep))<2:
print "The sep can't be recongnized !"
exit()
chrLst=range(1,23)
chrLst.extend(["X","Y"])
chrLst=["chr"+str(i) for i in chrLst]
outputdic={}
for chrI in chrLst:
output=filename+"_"+chrI
outputdic[chrI]=open(output,'w')
outputdic[chrI].write(header)
for eachline in f:
tmpLst=eachline.strip().split(sep)
tmpChr=tmpLst[0]
if tmpChr in chrLst:
outputdic[tmpChr].write(eachline)
end=time.clock()
print "read: %f s" % (end - start) if __name__=='__main__':
start=time.clock()
main()

最后用R语言data.table包进行处理,data.table是data.frame的高级版,在速度上作了很大的改进,但是和awk和python相比,具有优势吗?
#!/usr/bin/Rscript
library(data.table)
main <- function(filename,sep){
started.at <- proc.time()
arg <- commandArgs(T)
sep <- arg[1]
inputfile <- arg[2]
dt <- fread(filename,sep=sep,header=T)
chrLst <- lapply(c(1:22,"X","Y"),function(x)paste("chr",x,sep=""))
for (chrI in chrLst){
outputfile <- paste(filename,"_",chrI,sep="")
fwrite(dt[.(chrI),,on=.(chr)],file=outputfile,sep=sep)
}
cat ("Finished in",timetaken(started.at),"\n")
} arg <- commandArgs(T)
if (length(arg)==2){
sep <- arg[1]
filename <- arg[2]
main(filename,sep)
}else{
cat("usage: SplitChr.R sep inputfile eg: SplitChr.R '\\t' test.csv","\n")
}

用时10.6秒,发现刚刚读完数据,立刻就处理和写出完毕,处理和写出时间非常短,因此总体用时较短。
总结
虽然都是逐行处理,但由上述结果猜测awk内部运行并没有python快,但awk书写一行代码搞定,书写速度快,至于python比data.table慢,猜测原因是R data.table用C语言写,并且运用多线程写出,hash读取,传地址各种方式优化速度的结果。当然,上述结果仅供参考。
将基因组数据分类并写出文件,python,awk,R data.table速度PK的更多相关文章
- 使用dom4j工具:XMLWriter写出文件(五)
package dom4j_write; import java.io.File; import java.io.FileOutputStream; import java.io.OutputStre ...
- javaweb reponse 写出文件
Map map = getSearchValue(); File excelFile = orderService.getexportexcel(id,map); InputStream is = n ...
- 201806 数据处理 SQL、python、shell 哪家强...速度PK(上篇)
最近在工作中,进行大量的数据处理,使用的是mysql5.7.22,发现当数据量级达到几十万之后,SQL执行速度明显变慢.尤其是当多个表join时,于是就尝试用python pandas进行数据处理,发 ...
- (数据科学学习手札05)Python与R数据读入存出方式的总结与比较
在数据分析的过程中,外部数据的导入和数据的导出是非常关键的部分,而Python和R在这方面大同小异,且针对不同的包或模块,对应着不同的函数来完成这部分功能: Python 1.TXT文件 导入: 以某 ...
- split function of Perl,Python,Awk
使用中常用到Perl,Python,AWK,R, 虽然Java,C,C++,Vala也学过但是就是不喜欢,你说怎么办. 看来一辈子脚本的命. Perl @rray = split /PATTERN/, ...
- 使用Python xlwt写excel文件
如果需要使用Python写Excel文件,首先下载或者安装xlwt. pip install xlwt 下面的这些demo应该可以帮助开发者快速上手使用xlwt写Excel文件: 创建工作簿(work ...
- 让你用sublime写出最完美的python代码--windows环境
至少很长一段时间内,我个人用的一直是pycharm,也感觉挺好用的,也没啥大毛病 但是pycharm确实有点笨重,啥功能都有,但是有很多可能这辈子我也不会用到,并且pycharm打开的速度确实不敢恭维 ...
- (转)Python新手写出漂亮的爬虫代码2——从json获取信息
https://blog.csdn.net/weixin_36604953/article/details/78592943 Python新手写出漂亮的爬虫代码2——从json获取信息好久没有写关于爬 ...
- [置顶]
如何用PYTHON代码写出音乐
如何用PYTHON代码写出音乐 什么是MIDI 博主本人虽然五音不全,而且唱歌还很难听,但是还是非常喜欢听歌的.我一直在做这样的尝试,就是通过人工智能算法实现机器自动的作词和编曲(在这里预告下,通过深 ...
随机推荐
- 使用EF扩展EntityFramework.BulkInsert实现批量插入
EntityFramework 最被人诟病的地方就是它的性能,处理大量数据时的效率.此种条件下,通常会转回使用 ADO.NET 来完成任务.而EntityFramework.BulkInsert则是利 ...
- IOS之TableViewCell重用机制解决上下刷新重复显示
首先我是一个经验浅薄的iOS开发人员,这个问题想必许多初学者经常遇到这些问题,在面试中也会经常问到.现在我们一一解决. 首先我们要知道TableViewCell重用机制的原理是什么,我们抽象的理解为古 ...
- 做一个项目前搭建一个tabBar(一)框架
前言 通常做一个项目前,不算开始讨论需求,分析产品等等,一开始会给我们搭建一个框架,今天简单说一下搭建框架. github网址:https://github.com/Moonths/iWatch.gi ...
- 使用devstack搭建openstack Newton 版本的坑
国外源访问速度慢怎么办? 使用国外源,加之带宽紧张,搭建过程是很累的,这里推荐大家使用一下源: devstack包源.:http://git.trystack.cn pip源: [global] in ...
- handlebars使用总结
对自己使用handlebars做一个小总结,以后忘记了,好有地方看一下,不会用的小伙伴也可以借鉴一下,写的不好. 使用 Handlebars的安装是比较简单和方便的;handlebars是一个纯JS库 ...
- Java设计和实现方法
方法签名 方法名是驼峰命名 方法名最好能说明该方法主要做什么 方法参数的名字最好能说明该参数的意义 方法参数个数最好低于6个 例如: public void setTitleVisible(int l ...
- [Kafka] - Kafka 安装介绍
Kafka是由LinkedIn公司开发的,之后贡献给Apache基金会,成为Apache的一个顶级项目,开发语言为Scala.提供了各种不同语言的API,具体参考Kafka的cwiki页面: Kafk ...
- liunx常用命令
查看系统信息常用命令 uname -m /arch 显示机器的处理架构 uname -r 显示正在使用的内核版本 cat/proc/cpuinfo 显 ...
- dns服务搭建
DNS 是域名系统 (Domain Name System) 的缩写,它是由解析器和域名服务器组成的. 域名服务器是指保存有该网络中所有主机的域名和对应IP地址,并具有将域名转换为IP地址功能的服务器 ...
- Laravel的ORM入门
源码目录在\vendor\laravel\framework\src\Illuminate\Database\Eloquent\Relations下 关系:一对多(One To Many) 场景:每篇 ...