由于基因组数据过大,想进一步用R语言处理担心系统内存不够,因此想着将文件按染色体拆分,发现python,awk,R 语言都能够非常简单快捷的实现,那么速度是否有差距呢,因此在跑几个50G的大文件之前,先用了244MB的数据对各个脚本进行测试,并且将其速度进行对比。

首先是awk处理,awk进行的是逐行处理,具有自己的语法,具有很大的灵活性,一行代码解决,用时24S,

 #!/usr/bin/sh
function main()
{
start_tm=date
start_h=`$start_tm +%H`
start_m=`$start_tm +%M`
start_s=`$start_tm +%S`
awk -F $sep '{print $1","$2","$3 >> "'"$inputfile"'""_"$1}' $inputfile
end_tm=date
end_h=`$end_tm +%H`
end_m=`$end_tm +%M`
end_s=`$end_tm +%S`
use_tm=`echo $end_h $start_h $end_m $start_m $end_s $start_s | awk '{ print ($1 - $2),"h",($3-$4),"m",($5-$6),"s"}'`
echo "Finished in "$use_tm
} if [ $# == ]; then
sep=$
inputfile=$
main
else
echo "usage: SplitChr.sh sep inputfile"
echo "eg: SplitChr.sh , test.csv"
fi

接下来是用python,python语言简单,书写方便。因此很快就实现了程序,同样逐行处理,比awk添加了一点细节,只挑出需要的染色体。用时19.9秒。

 #!/usr/bin/python
import sys
import time
def main():
if len(sys.argv)!=3:
print "usage : SplitChr sep inputfile eg: SplitChr ',' test.txt"
exit()
sep=sys.argv[1]
filename=sys.argv[2]
f=open(filename,'r')
header=f.readline()
if len(header.split(sep))<2:
print "The sep can't be recongnized !"
exit()
chrLst=range(1,23)
chrLst.extend(["X","Y"])
chrLst=["chr"+str(i) for i in chrLst]
outputdic={}
for chrI in chrLst:
output=filename+"_"+chrI
outputdic[chrI]=open(output,'w')
outputdic[chrI].write(header)
for eachline in f:
tmpLst=eachline.strip().split(sep)
tmpChr=tmpLst[0]
if tmpChr in chrLst:
outputdic[tmpChr].write(eachline)
end=time.clock()
print "read: %f s" % (end - start) if __name__=='__main__':
start=time.clock()
main()

最后用R语言data.table包进行处理,data.table是data.frame的高级版,在速度上作了很大的改进,但是和awk和python相比,具有优势吗?

 #!/usr/bin/Rscript
library(data.table)
main <- function(filename,sep){
started.at <- proc.time()
arg <- commandArgs(T)
sep <- arg[1]
inputfile <- arg[2]
dt <- fread(filename,sep=sep,header=T)
chrLst <- lapply(c(1:22,"X","Y"),function(x)paste("chr",x,sep=""))
for (chrI in chrLst){
outputfile <- paste(filename,"_",chrI,sep="")
fwrite(dt[.(chrI),,on=.(chr)],file=outputfile,sep=sep)
}
cat ("Finished in",timetaken(started.at),"\n")
} arg <- commandArgs(T)
if (length(arg)==2){
sep <- arg[1]
filename <- arg[2]
main(filename,sep)
}else{
cat("usage: SplitChr.R sep inputfile eg: SplitChr.R '\\t' test.csv","\n")
}

用时10.6秒,发现刚刚读完数据,立刻就处理和写出完毕,处理和写出时间非常短,因此总体用时较短。

总结

    虽然都是逐行处理,但由上述结果猜测awk内部运行并没有python快,但awk书写一行代码搞定,书写速度快,至于python比data.table慢,猜测原因是R data.table用C语言写,并且运用多线程写出,hash读取,传地址各种方式优化速度的结果。当然,上述结果仅供参考。

将基因组数据分类并写出文件,python,awk,R data.table速度PK的更多相关文章

  1. 使用dom4j工具:XMLWriter写出文件(五)

    package dom4j_write; import java.io.File; import java.io.FileOutputStream; import java.io.OutputStre ...

  2. javaweb reponse 写出文件

    Map map = getSearchValue(); File excelFile = orderService.getexportexcel(id,map); InputStream is = n ...

  3. 201806 数据处理 SQL、python、shell 哪家强...速度PK(上篇)

    最近在工作中,进行大量的数据处理,使用的是mysql5.7.22,发现当数据量级达到几十万之后,SQL执行速度明显变慢.尤其是当多个表join时,于是就尝试用python pandas进行数据处理,发 ...

  4. (数据科学学习手札05)Python与R数据读入存出方式的总结与比较

    在数据分析的过程中,外部数据的导入和数据的导出是非常关键的部分,而Python和R在这方面大同小异,且针对不同的包或模块,对应着不同的函数来完成这部分功能: Python 1.TXT文件 导入: 以某 ...

  5. split function of Perl,Python,Awk

    使用中常用到Perl,Python,AWK,R, 虽然Java,C,C++,Vala也学过但是就是不喜欢,你说怎么办. 看来一辈子脚本的命. Perl @rray = split /PATTERN/, ...

  6. 使用Python xlwt写excel文件

    如果需要使用Python写Excel文件,首先下载或者安装xlwt. pip install xlwt 下面的这些demo应该可以帮助开发者快速上手使用xlwt写Excel文件: 创建工作簿(work ...

  7. 让你用sublime写出最完美的python代码--windows环境

    至少很长一段时间内,我个人用的一直是pycharm,也感觉挺好用的,也没啥大毛病 但是pycharm确实有点笨重,啥功能都有,但是有很多可能这辈子我也不会用到,并且pycharm打开的速度确实不敢恭维 ...

  8. (转)Python新手写出漂亮的爬虫代码2——从json获取信息

    https://blog.csdn.net/weixin_36604953/article/details/78592943 Python新手写出漂亮的爬虫代码2——从json获取信息好久没有写关于爬 ...

  9. [置顶] 如何用PYTHON代码写出音乐

    如何用PYTHON代码写出音乐 什么是MIDI 博主本人虽然五音不全,而且唱歌还很难听,但是还是非常喜欢听歌的.我一直在做这样的尝试,就是通过人工智能算法实现机器自动的作词和编曲(在这里预告下,通过深 ...

随机推荐

  1. Quartz_理解1

    一.引言 quratz是目前最为成熟,使用最广泛的java任务调度框架,功能强大配置灵活.在企业应用中占重要地位.quratz在集群环境中的使用方式是每个企业级系统都要考虑的问题.早在2006年,在I ...

  2. redisson实现分布式锁原理

    *:first-child { margin-top: 0 !important; } body>*:last-child { margin-bottom: 0 !important; } /* ...

  3. Android EventBus 3.0 实例使用详解

    EventBus的使用和原理在网上有很多的博客了,其中泓洋大哥和启舰写的非常非常棒,我也是跟着他们的博客学会的EventBus,因为是第一次接触并使用EventBus,所以我写的更多是如何使用,源码解 ...

  4. java 双击jar包操作

    如何使jar包直接双击运行? 测试:MyMenu.java  类名:MyMenu 写完java代码后,发现物理路径下为: 当我按住Shift键,在此处游记,打开命令行窗口: 执行命令:javac My ...

  5. matab plot指令和低通滤波器的响应图

    一.plot额外的四个属性模板使用 代码 % 提示 disp ('该功能练习plot额外四个属性功能'); %初始化快捷式数组 figure(); x=:pi/:*pi; y=exp(*sin(x)) ...

  6. PrintWriter用法简析

    public class PrintWriterextends Writer 向文本输出流打印对象的格式化表示形式.此类实现在 PrintStream 中的所有 print 方法.它不包含用于写入原始 ...

  7. js实现菜单折叠导航

    <style type="text/css"> <!-- *{margin:0;padding:0;border:0;} body {  font-family: ...

  8. 在Angular中,如果权限值是异步请求所得,如何将其设置为HTTP请求头的Authorization?

    遇到此问题的背景:项目需要实现单点登录,在前后端分离的前提下,前台如何保存token值成为了一个问题.想到的解决方案是,将token值统一存到一个前端程序,其他的前端程序去这个前端程序去取token( ...

  9. NSKeyedArchiver/NSKeyedUnarchiver归档应用(缓存实现)

    NSKeyedUnarchiver : 从二进制流读取对象; NSKeyedArchiver :把对象写到二进制流中去. 要实现对数据模型的归档,需要我们实现NScoding协议,(NScoping) ...

  10. 每天一个linux命令(34)--top命令

    今天给领导发邮件,我这边虽然显示发出去了,但是他那边一直没收到,结果我以为我发了,他又一直在那边等结果.所以说,以后要另外发个信息或者QQ微信之类的说一声. top命令是Linux 下常用的性能分析工 ...